2010年9月,我在《自然》发文,指出文字查重工具 crossref 发现投到《浙江大学学报》(英文版)31% 的论文投稿可能存在抄袭现象。10年过去了,文字重复出版问题确有了改善。孰不知图像不端的风波正在一浪高似一浪。
7月21日,《自然》发文大谈ai技术能助 “专打图像之假的斗士” bik博士对论文图像查重。bik博士这两年全靠肉眼打假,发现论文中的图像不端问题而闻名,让一批 “研究论文中发现重复的图像” 的学术造假者瑟瑟发抖。
看到如今为查处科研不端如此研发工具,竟然用到人工智能,不由得想问有谁计算过查处科研诚信的成本有多高?科研不端的的后果会如何?记得美国10年前为学术不端的调查/研究投入经费达1亿1千万美元;那时也有人计算过查处学术不端行为的成本和未得到充分认识的后果,分析后得出四点结论
(https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1000318 )
1. 科学不端行为造成的不良后果是广泛的,与调查相关的费用是巨大的;2. 调查科学不当行为的单个案件的直接和间接成本是可以估算的;3. 对一项特定的调查,其在评审过程中所有阶段均有成本估算,直接成本估算525,000美元;4. 对国家而言向科研诚信办公室报告和未报告的所有科学不当行为案件的审核,相关总费用可能成倍增加;我们可曾计算过5年前韩春雨事件,有多少专业人士为了证明其结果的可重复性做了多少实验?国家与学校为他 “假阳性” 的行为付出了多少经费?这些成本难道不需要计算吗?坦率地说,全世界都是一样,视科学与科学期刊为真理的殿堂,而诚信是前提。学术期刊对所有作者的投稿发表,不妨借用一个法律概念“无罪定论”,绝对不会怀疑作者有假而来,持包容信任的态度,尤其是未经证实和判决有学术造假之前。但是今天的精英层,尤其是一直被国际同业认为勤奋的顶尖中国科研人员,接连被查出发表的论文图片有假,无论你无意重复用图,有意编造做假,已经深深地伤害了中国科研人员的声誉,玷污了科学的可靠性和完整性。若国际期刊对中国作者的来稿首先放弃了 “无罪定论” 的慨念,统统来查是否有不端现象,这不仅增加了中国科技文章发表的难度,也会因疑有假而不引用中国研究论文的成果,无形中等于关闭了中国科技与外界的交流平台,试问:其后果与代价谁去研究计算过?
面对接连不断的中国作者涉嫌图片重复或造假的地震波,特邀请生物医学领域期刊的主编夏华向教授的团队对图片学术不端的几种类型,与图片学术不端可能产生的原因与后果做一些专业分析,并将国际学术出版对图片发表的规则与标准做一些解读。
撰文 | 廖庆姣(美捷登生物科技有限公司学术部主任)
夏华向(journal of clinical and translational hepatology 主编)
2020年7月5日,微生物学家、影像分析专家,被誉为 “造假侦探” 的比克(elisabeth bik)博士在自己的博客《科学诚信文摘》(science integrity digest)上发文,揭示在英文期刊发表的121篇来自中国作者的科研论文似乎存在不当图片重复使用。同时公布了这121篇论文的作者名单及其单位。一石激起千层浪,这篇博文引起了国内外媒体的高度关注。2020年7月5日,《华尔街日报》发表了题为 red flags raised over chinese research published in global journals 的英文评论文章,在7月7号还刊发了对应的中文版,报道了对刊发文章的杂志社和作者进一步跟踪追踪情况,同时分析了背后可能的原因并强调说明中国政府已经注意到这一问题并开始采取了一些措施。7月11日《搜狐》刊登了题为“再曝121篇论文造假,这本3分sci期刊怕是要凉凉!华尔街日报质疑中国学术诚信”报道评论文章,很多知名微信公众号也刊登了类似报道评论。实际上,论文图片问题已经成为学术造假的重灾区。2018年10月,比克和同事在《分子和细胞生物学》(molecular and cellular biology)发表的一项研究发现,2009-2016年间发表在该期刊的960篇论文中,有59篇(6.1%)存在不当图片重复使用(inappropriate image duplication),其中,41篇更正,5篇撤稿,13篇没有采取行动。他们推测,同期在 pubmed 数据库发表的论文大约有3.5万篇论文存在严重的不当图片重复使用而需要撤稿。论文图片作假(包括不当图片重复使用)一旦被揭发,很可能断送当事人的科研、学术生涯。而随着科技高速发展,各种 “查重”、“打假” 软件的产生,各种学术不端行为必将被检查出来。科研人员一定要遵守科研伦理和学术诚信,不要在科研论文中弄虚作假,尤其不要心存侥幸在论文图片上作假。下面,我们将从专业视角通过案例分析图片作假包括不当图片重复使用的形式及可能的后果,并简要介绍科研图片处理应该遵循的原则。1) 一图一文重复使用:即在同一篇文章中有完全相同的图片(例如免疫印迹条带或细胞免疫荧光照片),但表示不同的处理结果;或同一文章中将一张图片经过不同剪切拼接后,表示不同的处理结果。对于完全相同的图片这种情况,杂志社一般比较宽容,发现后一般是要作者解释并提供原片以及正确的图片,毕竟有时候图片太多了拼图时也可能发生错误,只要能提供正确的图片并且提供所有的原片,杂志社一般不会深究。对于图片经过一定剪切拼接这种情况,因为是 “有意” 所为,会被认为存在图片作假行为,因此存在被撤稿的风险。图1展示了一种比较典型的这种情况,上图中distal组 / (红色框)和下图中proximal组-/-(红色框)完全相同,两张图片应该都是同一张图片的一部分;黄色线框示意的是完全相同的图片表示不同的处理结果。图1. 一图一文重复使用示例。相关文章已被撤稿
图片根据retraction watch网站上的撤稿说明(http://retractionwatch.com/2017/11/07/researchers-ask-retract-cancer-paper-five-days-flagged-journal)制作,原图来自已撤稿文章https://jcs.biologists.org/content/130/4/805.long
2) 一图多文重复使用:相同的图片在不同的文章中重复使用。这种是目前发现比较多的一种不当图片重复形式,是比较公认的一种学术不端行为。因此,这种情况一旦被杂志社发现,都将被撤稿。被journal of general virology杂志发表关注声明的gulam waris博士图片作假主要是这种情况。目前已经被撤稿的9篇全部是因为一图多文重复使用(图2)。图2. 以“gulam waris”为关键词在retraction watch (撤稿观察)数据库(http://retractiondatabase.org)的检索结果(http://retractiondatabase.org/retractionsearch.aspx#?auth=gulam+waris)
图3展示的是 gulam waris 博士于2012年发表在 journal of general virology 杂志的一篇文章中图3c中 actin 条带是其2003年发表在 journal of biology chemistry 杂志的一篇文章中图2a中actin的一部分。图3. 一图多文重复使用示例一。相关文章已被撤稿
引自pubpeer网站:https://pubpeer.com/publications/74d279d33833580dcf3fa1fc9cf893
同样,gulam waris博士2010年发表在 journal of general virology 杂志上的一篇文章也与其2003年发表在 journal of biology chemistry 杂志上的这篇文章有多个条带重复(图3),相同颜色的框示意条带相同。引自pubpeer网站:https://pubpeer.com/publications/6602d5f5a612f1b5bee632996a2a66
02
图片作假常用软件
图片作假过程中常用的软件是 photoshop(ps)。前面举例算是比较简单的一些ps操作,只是裁剪。实际上很多作者为了达到 “预期结果” 会用ps对图片做更多处理,或移位或旋转,展示为不同的结果;或拼接不同的图片,或清除背景,展示对结果有利的图片;有少数作者为追求 “结果完美” 也会 “无意” 做一些ps修改。根据比克博士的调查,已存在一家或数家 “论文工厂” 用ps进行批量作假。journal of biological chemistry 上2002年发表的一篇文章,后来被揭发存在图片作假,这篇文章涵盖了图片作假中免疫印迹常用的各种ps技术,在2018年已经被撤稿(图5)。图5. 被撤文章及撤稿声明
图片来自https://pubmed.ncbi.nlm.nih.gov/30030385/
这篇文章的 figure 2a 和 figure 3a 存在大量条带被重复使用情况。如图6所示,figure 2a 中的p-erk条带完全是两个条带复制而来,而 figure 3a 中的 gst-rbd 条带也完全是一个条带的重复;其他相同颜色的框示意相同的条带。图6. 图片ps示例一。相关文章已被撤稿
引自pubpeer网站:https://pubpeer.com/publications/89582c2164a1d9f4764540b7a83e2b
甚至通过ps技术,作者还能根据一点 “素材” 完全 “创造” 出一个完整的实验结果。图7就是这样被“创造”出来的。咋一看,感觉只有右下角的两个条带和上面有点一样的感觉,但实际上,整个结果是作者通过对同一段条带的不同部分进行不同的亮度调整,以及各种剪切拼接,最后拼合出三个条带。图7. 图片ps示例二。相关文章已被撤稿。
引自pubpeer网站:https://pubpeer.com/publications/89582c2164a1d9f4764540b7a83e2b
图8展示了这一ps操作拼接过程,同一段条带经过5次不同亮度的调整,然后裁剪不同的条带进行拼接,最终得到如图7显示的三段结果条带。图9以另一种方式展示了这一拼接过程,相同颜色的框示意最终相应段条带的原始素材来源。图8. 图7中图片具体ps过程还原。相关文章已被撤稿。
引自pubpeer网站:https://pubpeer.com/publications/89582c2164a1d9f4764540b7a83e2b
图9. 示意图7中具体ps的各条带段。相关文章已被撤稿。
引自pubpeer网站:https://pubpeer.com/publications/89582c2164a1d9f4764540b7a83e2b
比克博士在2020年7月5日揭露的疑是中国“论文工厂”发表的文章,绝大多数都是用ps处理图片达到一图多文重复使用。图10是比克博士总结发现的两个划痕实验的 “种子” 图片示意图,图11是9个相关分析 “种子” 图片示意图,每张 “种子” 图片通过ps进行不同的处理,最终生成多张用于不同文章中的结果图片。图10. 划痕实验的两个“种子”图片示意图(wh01和wh02)
引自https://scienceintegritydigest.com/2020/07/05/the-stock-photo-paper-mill/#comment-form-load-service:twitter
图11. 相关分析9个“种子”图片示意图(up1-5和down1-4)
引自https://scienceintegritydigest.com/2020/07/05/the-stock-photo-paper-mill/#comment-form-load-service:twitter
03
科研图片处理应该遵循的规则
图片作假被发现后通常都会受到撤稿的处罚,而且这种原因的撤稿对科研工作者的学术生涯是一个巨大的污点和严重损害。随着现在各种技术软件越来越多,图片作假几乎已经无所遁形,几乎百分之百会被发现。一旦被发现后撤稿,很可能断送科研生涯。科研图片处理应该遵循什么样的原则呢?2012年美国科学编辑委员会(council of science editors,cse)在 cse’s white paper on promoting integrity in scientific journal publications, 2012 update(《推动科技期刊出版诚信的白皮书》)建议了最开始由洛克菲勒大学出版社提出、后来被不断修改完善的四项基本原则:
(https://www.councilscienceeditors.org/resource-library/editorial-policies/white-paper-on-publication-ethics/3-4-digital-images-and-misconduct/#341):
a) no specific feature within an image may be enhanced, obscured, moved, removed, or introduced. (不要对一张图片的局部区域进行增强、模糊、移动、移除或插入新内容等操作。)
b) adjustments of brightness, contrast, or color balance are acceptable if they are applied to the whole image and as long as they do not obscure, eliminate, or misrepresent any information present in the original. (可对整张图片的亮度、对比度或色彩平衡进行调整,不能隐藏、消除或歪曲原图的信息。)
c) the grouping of images from different parts of the same gel, or from different gels, fields, or exposures must be made explicit by the arrangement of the figure (e.g., dividing lines) and in the text of the figure legend. (允许从同一凝胶上不同部位,或从不同的凝胶、区域、曝光区取得图像并进行图片拼合,但须使用明确的分割线表示它们来自不同的原图,并在图注中予以说明。)
d) if the original data cannot be produced by an author when asked to provide it, acceptance of the manuscript may be revoked. (如作者不能提供原始数据,文章将被拒稿或撤稿。)希望以上内容能让大家对图片做假有一个比较清晰的认识,在实际工作过程中严格按照cse建议的原则进行处理,避免 “踩雷”。最近来自纽约雪城大学的机器学习研究人员daniel acuna开发了一款论文图像查重软件。nature杂志在2020年7月21日对此发表了题为 “ pioneering duplication detector trawls thousands of coronavirus preprints ”的报道。也许在不久的将来,杂志社除了对论文文稿进行常规查重以避免抄袭外,也将对图像进行查重以避免图片作假。愿大家:诚信做科研,真实发论文!