让论文造假者裸奔的反抄袭图像识别系统

图灵汇官网

近年来,随着科技的发展,文字抄袭检测已经变得相当成熟,但图片重复使用的问题仍然难以解决,尤其是在图片经过PS处理之后。然而,最新的图像识别技术为这一难题带来了希望。科学家们开发了一种新方法,能够识别那些经过人为修改的图片,从而有效防止这些伪造的图片欺骗读者。这项技术一旦广泛应用,将可能揭露大量存在图片造假的学术论文,这对许多人来说无疑是一个不小的冲击。

据初步研究显示,大约0.6%的学术论文可能存在图片造假的情况。按照每年约250万篇学术论文的数量计算,这意味着大约有1.4万篇论文可能涉及图片造假。最近,一项相关研究发布在2月22日的BioRxiv平台上。该研究由纽约雪城大学Daniel Acuna带领的机器学习团队完成,他们使用一种算法处理了大量的生物医学论文,成功识别出了重复使用的图片。如果这一技术被期刊编辑采纳,许多存在问题的论文将无法通过审核。

尽管研究人员尚未公开具体的算法,但他们已经与一些机构展开了合作,计划进一步推广和应用这一技术。例如,研究团队已经与西北大学诚信办公室主任Lauran Qualkenbush进行了交流,讨论了如何应用这项技术。此外,他们还与美国科研诚信领域的专家进行了沟通,计划在今年内进行应用测试。

早在2015年,Daniel Acuna和他的同事们就开发了一种算法,从PubMed数据库中的76万篇文章中提取了超过260万张图像数据。通过对这些图像进行详细分析,特别是关注颜色和灰度变化明显的部分,他们为每一张图像创建了“数字指纹”。通过去除图片中的箭头和其他标记,研究团队进一步筛选出了200万张图像。为了简化分析过程,他们根据论文的第一作者和通讯作者作为限制条件进行对比分析。这种方法可以识别出经过旋转、缩放、对比度或色彩调整等编辑的重复图像。研究人员还手动验证了3750张疑似重复使用的图像,最终确认其中约1.5%的论文包含可疑图像,而0.6%的论文则存在伪造图像的情况。

总之,这种新技术的应用有望大大提高学术界的诚信水平,减少图片造假现象的发生。未来,随着更多期刊和研究机构采用这一技术,学术界的透明度和可信度将得到显著提升。

本文来源: 图灵汇 文章作者: 德庆央珍