同一篇数据拆分成两篇发不同的国际会议,算自我剽窃 (Self-plagiarism) 吗?

自我剽窃|2026-05-20 14:42:41|阅读量:28

一、直接回答:大概率构成自我剽窃

先给出明确结论:

将同一组数据简单拆分成两篇论文发表在不同国际会议上,在绝大多数情况下构成自我剽窃(Self-plagiarism),学术界称之为"切腊肠"式发表(Salami Slicing)。

但需要注意:并非所有数据复用都是自我剽窃。关键在于"拆分方式"和"新增贡献量"。下面详细分析判定边界。


二、什么是自我剽窃?与相关概念的区分

2.1 核心定义

概念 定义 性质
自我剽窃(Self-plagiarism) 将自己已发表的内容(数据、文字、图表)再次发表而不充分引用或说明 学术不端
重复发表(Duplicate Publication) 同一篇论文或高度相似论文投给多个期刊/会议 严重学术不端
一稿多投(Simultaneous Submission) 同一稿件同时投给多个期刊/会议审稿 严重违规
Salami Slicing(切腊肠发表) 将一个完整研究人为拆分成多篇最小可发表单元 学术不端/灰色地带
合法增量发表(Legitimate Extension) 基于已有工作进行实质性扩展后发表 合规

2.2 关键区分:自我剽窃 ≠ 一稿多投

  • 一稿多投:同一篇稿件同时在审 → 最严重违规
  • 自我剽窃:已发表A,再基于A的数据/文字写B并发表 → 程度视重叠量而定

两者都是学术不端,但性质和后果略有差异。


三、出版商和学术组织的官方立场

3.1 IEEE政策

IEEE对重复发表有明确规定:

  • 禁止将已发表会议论文的内容在另一会议上重复发表
  • 允许将会议论文扩展为期刊论文(需30%以上新内容)
  • 要求引用自己此前的相关工作
  • 使用iThenticate进行相似度检测,阈值通常为30%

IEEE原文立场:"Authors should not submit a manuscript that has been previously published in substantially similar form."

3.2 ACM政策

ACM的规定更为细化:

  • 提交时需声明与已发表工作的关系
  • 使用相同数据集必须明确说明新贡献
  • 会议论文 → 期刊扩展版有明确的增量要求(通常≥25-30%新内容)
  • 两篇会议论文之间使用相同数据需要显著不同的研究问题和贡献

3.3 Springer / LNCS政策

  • 明确禁止将实质性相同的工作提交给多个会议
  • 要求作者在投稿时声明是否存在相关已发表工作
  • 编辑有权在发现重复后撤稿

3.4 AAAI / NeurIPS / ICML等AI顶会

  • 投稿时需勾选"本文未在其他会议/期刊上发表或在审"
  • 对已发表workshop paper扩展为主会议论文有具体要求
  • NeurIPS明确:如果核心贡献已在其他venue发表,则不接受

3.5 国际出版伦理委员会(COPE)

COPE将Salami Slicing列为需要调查的学术不端行为之一,建议出版商:

  • 调查作者意图
  • 评估重叠程度
  • 视情况要求撤稿或发表更正声明

四、判定标准:什么情况算、什么情况不算?

4.1 明确构成自我剽窃的情形 ✗

情形 为什么算
同一实验、同一结果,换个标题换个会议投 实质性重复,无新贡献
数据集相同,仅更换一种baseline对比方法 核心贡献未变,增量不足
拆分为"方法论文"+"实验论文"但数据完全相同 人为割裂完整工作
大段文字复制自己已发表的论文(>30%) 文本层面的自我剽窃
同一数据换一个评估指标重新跑一遍 无实质性新发现

4.2 不构成自我剽窃的合规情形 ✓

情形 为什么不算
会议短文/Workshop → 扩展为会议全文(有显著新增) 合法增量发表
会议论文 → 期刊扩展版(≥30%新内容) 出版商明确允许
相同数据集但解决完全不同的研究问题 研究问题和贡献不同
使用公开数据集,与他人用同一数据集的工作并存 公开数据集可被任何人使用
引用了自己的前期工作并明确说明增量 透明且有新贡献

4.3 灰色地带 ⚠️

情形 风险分析
同一数据集+同一方法,但应用在不同任务上 取决于方法是否有本质修改
50%数据相同 + 50%新数据,方法相同 取决于新数据带来的新发现
同一大项目的不同子模块分别发表 取决于模块间独立性
预印本(arXiv) → 会议投稿 多数会议允许,但需声明
不同语言版本(中文会议+英文会议) 部分领域允许,但需互相引用

五、"切腊肠"式发表(Salami Slicing)深度解析

5.1 什么是Salami Slicing?

将一个本可以写成一篇完整高质量论文的研究,人为拆分成多篇"最小可发表单元"(Least Publishable Unit, LPU),以增加论文数量。

类比: 一根完整的腊肠被切成很多薄片,每片单独来看都很薄、价值有限,但合在一起才是一根完整的腊肠。

5.2 判定是否为Salami Slicing的关键问题

问自己以下5个问题:

  1. 每篇论文是否能独立成立? — 如果单独一篇缺少关键信息,说明不该拆分
  2. 每篇是否有独立的研究问题? — 如果研究问题本质相同,不该拆分
  3. 合并后是否明显更好? — 如果合并后质量显著提升,说明不该拆分
  4. 读者是否需要阅读两篇才能完整理解? — 如果是,说明人为割裂了
  5. 拆分的动机是什么? — 如果纯粹为了"多一篇论文",动机不正当

5.3 真实案例分析

案例1:不合规的拆分 ✗

研究者用数据集D训练了模型M,论文A报告了在任务T1上的结果,论文B报告了在任务T2上的结果。两篇论文的方法章节几乎相同,仅Results不同。

问题: 方法无区别,仅更换评估任务,属于典型Salami Slicing。

案例2:合规的分别发表 ✓

研究者先在会议A发表了基于数据集D的方法M1(解决问题P1),后来在此基础上提出了改进方法M2,使用数据集D+D'(D'为新收集数据),解决了新问题P2,发表在会议B,并充分引用了论文A。

为什么合规: 有新方法、新数据、新问题,且引用了前期工作。

案例3:灰色地带 ⚠️

同一数据集D,论文A使用方法M做分类任务,论文B使用方法M做检测任务。两篇方法核心一样,但应用场景不同。

分析: 如果方法M针对不同任务有实质性修改和新的技术贡献,可能合规;如果仅换了个任务头(task head),实质性贡献不足,风险很大。


六、相似度检测工具与阈值

6.1 主流检测工具

工具 使用方 特点
iThenticate IEEE、ACM、Springer等 行业标准,覆盖面广
Turnitin 部分学术出版商 学位论文检测主力
CrossCheck 基于iThenticate的出版商版 自动对比已发表文献
学术不端检测系统(CNKI) 中文期刊/会议 中文文献覆盖全

6.2 相似度阈值参考

相似度范围 风险等级 可能结果
<15% 低风险 通常安全(含公式、参考文献等通用内容)
15%-30% 中等风险 可能触发人工审查
30%-50% 高风险 很可能被判定为自我剽窃
>50% 极高风险 几乎确定被拒稿或撤稿

注意: 相似度数值仅为参考,最终判定取决于重叠内容的性质(方法描述重叠 vs 结果数据重叠差异很大)。

6.3 哪些内容重叠是可接受的?

  • ✓ 数学公式和符号定义(通用表述)
  • ✓ 实验设置的标准描述(数据集介绍、评估指标定义)
  • ✓ 相关工作综述中的标准表述
  • ✗ Results/Discussion中的数据和分析
  • ✗ 核心方法描述的大段重复
  • ✗ 图表的直接复用

七、被发现后的后果

7.1 短期后果

后果 严重程度 说明
稿件被拒 ★★★☆☆ 最轻后果,审稿阶段发现
论文被撤稿(Retraction) ★★★★☆ 发表后发现,永久记录
被会议/出版商列入黑名单 ★★★★★ 一定期限内禁止投稿
通知所在单位 ★★★★☆ IEEE等可能通知作者单位

7.2 长期后果

后果 影响
学术声誉受损 同行知晓后信任度下降
撤稿记录永久可查 Retraction Watch数据库公开记录
影响基金申请 评审专家可查询撤稿记录
影响职称评审 撤稿论文不计入成果,可能倒扣分
合作者受牵连 所有共同作者都可能被调查
学位可能受影响 如涉及学位论文核心成果

7.3 真实处罚案例

  • IEEE案例:某作者将高度相似的论文投给3个IEEE会议,被发现后3篇全部撤稿,作者被禁止向IEEE投稿3年。
  • ACM案例:两篇ACM会议论文被发现数据和方法高度重叠,后发表的论文被撤稿,作者收到正式警告。
  • 国内案例:某高校教师被发现将同一数据拆分发表在国内外两个会议,评职称时两篇均被取消资格。

八、合规拆分发表的正确方法

如果确实有合理需求将相关数据用于多篇论文,以下方法可以合规操作:

8.1 确保研究问题本质不同

论文A:使用数据集D研究"如何提高模型准确率"(问题P1)
论文B:使用数据集D研究"如何减少模型推理时间"(问题P2)

前提:论文B有全新的方法设计针对P2,而非简单复用论文A的方法

8.2 确保方法有实质性差异

  • 不能只换一个模块、改一个超参数
  • 需要有新的算法设计、新的技术路线
  • 两篇论文的方法章节应有显著不同

8.3 新增足够的实验和数据

合规标准 建议量
新增数据比例 ≥50%的实验使用新数据或新设置
新增Baseline对比 至少3-5个新的对比方法
新增分析内容 新的消融实验、案例分析、可视化

8.4 充分引用前期工作

必须做到:

% 在论文B中明确引用论文A
In our previous work \cite{our_paper_A}, we explored [简述A的贡献].
In this paper, we extend our investigation to [B的新方向],
with the following novel contributions: ...

并在Introduction中清楚说明与前期工作的区别和增量。

8.5 投稿时主动声明

许多会议投稿系统中有以下选项:

□ This paper is based on / related to previously published work.
  Please describe the relationship: ________________

务必如实填写,不要心存侥幸。主动声明比被动发现好100倍。


九、会议论文 → 期刊扩展版的合规路径

这是学术界明确认可的数据复用场景:

9.1 通用要求

出版商 新内容要求 其他要求
IEEE ≥30%新内容 引用会议版本,说明增量
ACM ≥25%新内容 投稿时声明,附会议版PDF
Springer ≥30-50%新内容 视具体期刊要求
Elsevier ≥50%新内容 严格要求,部分期刊不接受

9.2 "新内容"包括什么?

  • ✓ 新的实验结果和数据
  • ✓ 新的方法模块/改进
  • ✓ 更深入的理论分析/证明
  • ✓ 更全面的相关工作讨论
  • ✓ 新的案例研究/应用场景
  • ✗ 仅增加文字量(换种说法重新描述)
  • ✗ 仅增加参考文献数量
  • ✗ 仅改变排版使论文看起来更长

9.3 正确的声明方式

在期刊投稿Cover Letter中:

Dear Editor,

This manuscript is an extended version of our conference paper:

[Full citation of conference paper]

The major extensions include:
1. [New contribution 1]
2. [New contribution 2]
3. [New contribution 3]

The new content accounts for approximately XX% of this manuscript.

十、预防与自查指南

10.1 投稿前自查清单

自查项 标准
☐ 两篇论文的研究问题是否本质不同? 不能仅换个角度看同一问题
☐ 方法描述重叠度是否<30%? 用iThenticate自查
☐ 实验结果是否有≥50%的新内容? 新数据/新指标/新设置
☐ 是否引用了自己的相关前期工作? 必须引用
☐ 是否在投稿时声明了关联? 必须声明
☐ 每篇论文能否独立成立? 读者不需要看另一篇才能理解
☐ 图表是否有复用? 复用图表必须标注来源

10.2 安全的做法 vs 危险的做法

✓ 安全做法 ✗ 危险做法
新数据 + 新方法 + 新问题 同数据 + 同方法 + 换个任务
30%以下文本重叠 + 引用声明 大段复制粘贴自己的论文
投稿时主动声明关联 隐瞒已发表的相关工作
会议论文→期刊扩展(≥30%新增) 会议A→会议B(内容高度相似)
使用公开数据集做新研究 私有数据拆分后重复使用

十一、总结

核心判定原则:

同一数据拆分发表是否构成自我剽窃,取决于:

  1. 新贡献度:每篇是否有独立的、实质性的学术贡献?
  2. 重叠程度:方法/结果/文字的重叠是否超过合理范围?
  3. 透明度:是否引用了前期工作并在投稿时声明了关联?

一句话判定法则:

如果去掉重叠的数据和内容后,剩余部分仍然构成一篇有意义的完整论文,则合规;如果剩余部分无法独立支撑一篇论文的贡献,则属于Salami Slicing。

给研究者的最终建议:

  • 宁可一篇高质量论文,也不要两篇低质量拆分论文
  • 对自己的学术声誉负责,不值得为多一篇计数而冒险
  • 如有疑问,主动与目标会议的Program Chair或Editor沟通确认