让论文造假者裸奔的反抄袭图像识别系统

投稿
APP
微信扫一扫获取更多

让论文造假者裸奔的反抄袭图像识别系统

德庆央珍

2018-08-26 10:33:02

近年来，随着科技的发展，文字抄袭检测已经变得相当成熟，但图片重复使用的问题仍然难以解决，尤其是在图片经过PS处理之后。然而，最新的图像识别技术为这一难题带来了希望。科学家们开发了一种新方法，能够识别那些经过人为修改的图片，从而有效防止这些伪造的图片欺骗读者。这项技术一旦广泛应用，将可能揭露大量存在图片造假的学术论文，这对许多人来说无疑是一个不小的冲击。

据初步研究显示，大约0.6%的学术论文可能存在图片造假的情况。按照每年约250万篇学术论文的数量计算，这意味着大约有1.4万篇论文可能涉及图片造假。最近，一项相关研究发布在2月22日的BioRxiv平台上。该研究由纽约雪城大学Daniel Acuna带领的机器学习团队完成，他们使用一种算法处理了大量的生物医学论文，成功识别出了重复使用的图片。如果这一技术被期刊编辑采纳，许多存在问题的论文将无法通过审核。

尽管研究人员尚未公开具体的算法，但他们已经与一些机构展开了合作，计划进一步推广和应用这一技术。例如，研究团队已经与西北大学诚信办公室主任Lauran Qualkenbush进行了交流，讨论了如何应用这项技术。此外，他们还与美国科研诚信领域的专家进行了沟通，计划在今年内进行应用测试。

早在2015年，Daniel Acuna和他的同事们就开发了一种算法，从PubMed数据库中的76万篇文章中提取了超过260万张图像数据。通过对这些图像进行详细分析，特别是关注颜色和灰度变化明显的部分，他们为每一张图像创建了“数字指纹”。通过去除图片中的箭头和其他标记，研究团队进一步筛选出了200万张图像。为了简化分析过程，他们根据论文的第一作者和通讯作者作为限制条件进行对比分析。这种方法可以识别出经过旋转、缩放、对比度或色彩调整等编辑的重复图像。研究人员还手动验证了3750张疑似重复使用的图像，最终确认其中约1.5%的论文包含可疑图像，而0.6%的论文则存在伪造图像的情况。

总之，这种新技术的应用有望大大提高学术界的诚信水平，减少图片造假现象的发生。未来，随着更多期刊和研究机构采用这一技术，学术界的透明度和可信度将得到显著提升。