科学技术发展是一把双刃剑。作为时代的产物,人工智能的出现推动社会发展进入一个全新阶段,另一方面,人工智能技术的滥用或非诚信使用,又会给社会造成很多负面影响。其中,以AIGC为代表的人工智能技术在科研领域的滥用,就会抑制真正的科研创新。
AIGC技术可以通过排列组织预训练数据生成文本、图像、数据、代码、视频等,这些内容可能会形成论文或项目申请书,存在观点剽窃等隐患,也极易引发新形式的论文代写、抄袭剽窃、洗稿等学术不端行为。根据Retraction Watch的数据统计,自2021年截止到2023年7月6日共有914篇因“Randomly Generated Content(随机生成的内容)”原因被撤稿,约占近三年来撤稿论文总数的8.34%。
由于当下的AIGC技术生成内容无法明确知识来源,加上更加隐蔽的虚假数据“成果”,洗稿、新形式的论文代写等学术不端行为,原有的相似度查重和图像识别等技术逐渐失效,加大了识别这些学术不端行为的难度,对科研诚信提出了新的挑战。
基于当前新时代下论文学术不端的治理需求,万方数据推出科技论文诚信风险综合察验服务——万方文察。该工具基于万方数据文本检测、图像检测等核心技术及科研诚信大数据资源基础,实现对论文的文本相似性、图像复用、AIGC文本、引文及作者等多要素的失信风险一站式综合察验,为教育、科研、出版、管理等诚信监管工作提供便捷服务支撑。
万方文察服务采用多项关键技术为技术支撑,基于海量科技文献全文比对资源、科研诚信风险大数据资源、学术文献图像比对库等资源为大数据底座,可支持在线云服务及API接口服务等服务形式,实现“一次提交、多维检测”的一站式论文风险察验服务。
在AIGC文本检测方面,万方文察服务采用基于深度学习的AIGC识别算法,基于卷积神经网络的强大表达能力,智能感知生成和非生成文本之间的差异,可识别目前较为通用的AI写作模型,包括不限于ChatGPT、文心一言、GTP3.5、谷歌Bard、通义千问、必应ChatGpt、ChatSonic和其他AI写作助手生成的中文文本。
除此之外,万方文察服务还可提供论文图像检测、文本相似性检测以及参考文献、作者、基金资助等论文属性风险检测。
人工智能时代,学术不端更具隐蔽性,形式也多种多样,给风险察验带来了很大的挑战。万方文察“以科技打败科技”,让论文中的AIGC文本无处遁形,全方面推动科研诚信建设。