一种自动检测学术不端文献的方法及系统技术方案

技术编号:3990439 阅读:443 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种自动检测学术不端文献的方法及系统,所述方法将待检测文献的层级内容及文献内表格数据创建特征;对所存有的文献层级内容及文献内的表格数据创建特征;将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存有文献的层级内容特征及所存有文献内的表格特征进行匹配;判断待检测文献中是否含有学术不端内容、不端表格数据及不端内容的类型。所述系统包括待检测文献特征区、待检测文献比对资源区、分层内容特征匹配区及不端学术文献及类型判定区。本发明专利技术通过分层多阶特征结构,不仅可以对超长文献进行快速检测,而且,也满足了文献最小特征粒度短句的检测,提高了检准率和检全率;而且该发明专利技术还支持文献内表格数据特征的创建及匹配全部文献的一次性匹配。

【技术实现步骤摘要】

本专利技术涉及智能信息处理和计算机
,尤其涉及一种自动检测学术不端文 献及文献内表格数据的方法及系统。
技术介绍
随着网络的快速发展和迅速普及,目前在互联网上发布的电子文本成为当前知识 产权保护的一个重点。由于电子文本易于复制和下载,已成为许多人研究、引用的对象,一 些电子文本被大版面的复制而被认为抄袭的案例时有发生。而目前网络上的电子文本保护 措施主要通过阻止和检测法。目前,也出现了电子文本内容剽窃的方法,如专利申请号为“200810232309. 8 — 种检测及定位电子文本内容剽窃的方法”与专利申请号为“03134562. X 一种利用计算机程 序检测电子文本剽窃的方法”该现有专利主要是通过向计算机系统提交被检测文本,提取 特征模块生成项序列,然后从项序列中依次取出每个项映射到已知项表上,生成疑似剽窃 队列,获取剽窃证据表;最后计算文本的雷同度,判断被检测文本中是否含有剽窃的内容。 上述检测过程只是单层特征的检测,不能针对文献内的表格创建特征;其匹配也不是一篇 文献针对多篇文献同时进行匹配,只是一篇针对一篇,两篇文献之间的匹配(如图1所示) 浪费了匹配的时间;而且对内容也只是检测抄袭的过程。
技术实现思路
为解决上述中存在的问题与缺陷,本专利技术提供了一种不仅支持一篇文献针对多篇 文献间的一次性匹配,而且还可检测文献内表格数据、判断不端文献抄袭、篡改、一稿多投 类型的自动检测学术不端文献的方法及系统。所述技术方案如下一种自动检测学术不端文献的方法,包括将待检测文献的层级内容及文献内表格数据创建特征;对所存有的文献层级内容及文献内的表格数据创建特征;将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存有文献的 层级内容特征及所存有文献内的表格特征进行匹配;判断待检测文献中是否含有学术不端内容、不端表格数据及不端内容的类型。一种自动检测学术不端文献的系统,包括待检测文献特征区,用于对接收到的待检测文献的层级内容及文献内表格数据创 建特征;待检测文献比对资源区,用于对所存有的文献层级内容及文献内的表格数据创建 特征;分层特征匹配区,用于接收待检测文献特征区创建的文献的层级内容特征及文献 内的表格数据特征,并将所述待检测文献的层级内容特征和文献内的表格数据特征与待测 文献比对资源区所存有的文献的层级内容特征及文献内的表格特征进行匹配;不端学术文献及类型判定区,用于判断待检测文献中是否含有学术不端内容、不 端表格数据及不端学术内容的类型。本专利技术提供的技术方案的有益效果是通过分层多阶特征结构,不仅可以对超长文献进行快速检测,而且,也满足了文献 最小特征粒度短句的检测,提高了检准率和检全率;而且该专利技术还支持文献内表格数据特 征的创建及匹配全部文献的一次性匹配。附图说明图1是现有技术文本内容匹配方法结构图;图2是检测学术不端文献方法流程图;图3是学术不端文献匹配方法结构图;图4是文献多层特征生成方法结构图;图5是文献内表格数据特征生成方法结构图;图6是检测学术不端文献系统结构图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方 式作进一步地详细描述实施例1本实施例提供了一种自动检测学术不端文献的方法如图2所示,该方法包括步骤101将待检测文献的层级内容及文献内表格数据创建特征。步骤102对所存有的文献层级内容及文献内的表格数据创建特征;上述待检测文献与所存有的文献是指任意文献,对其文献进行分层处理,按照篇 章、段落、句子等层级分别创建唯一特征。步骤103将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存 有文献的层级内容特征及所存有文献内的表格特征进行匹配;首先是进行篇章级别的特征匹配,如果整个篇章级别匹配成功,则不再对其段落 级别进行匹配,如果整个篇章级别匹配不成功的话,则继续对其段落级别进行匹配。如果整 个段落级别匹配成功,则不再对其句子级别进行匹配;如果整个段落匹配不成功的话,则继 续对其句子级别进行匹配,总之,各层如果匹配成功,则不再进行该特征下更小粒度层的匹 配。其对待测文献特征与所存有文献特征库的匹配方法如图3所示,待测文献多层特征库 中的特征所存有全部文献特征库集成倒排索引中的特征ID进行相匹配,如果匹配成功则 判断出所述文献的ID、特征匹配的数量及特征原始文本的长度。步骤104判定学术不端文献及类型;不端文献的类型为抄袭与剽窃、或者篡改、或者一稿多投等学术不端文献类型。如图4所示,为全文特征、章节特征、段落特征及句子特征的生成方法结构图,其中全文特征提取方法、章节特征提取方法是利用关键词词典对全文分词(对表征文献主题 内容具有实质意义的词),只保留关键词词典中的词,全部词排序并统计词频,照词频比例 排序,得到词序列表,依据该列表生成全文级别的一个特征,或按照词拼写排序得到一个词序列表,依据该列表生成全文级别的一个特征。段落特征生成方法,利用单元词词典对段落分词,(从文献内容中抽出的最基本的、字面上不能再分的词。如“经济、美国、鲁迅”等 无定语的词都是单元词,单元词不包括虚词、介词、连词、助词等无实质表征的词汇)只保 留单元词词典中的词,并统计频率,按照词频比例排序,依据该列表生成段落级别的一个特 征。句子特征生成方法,利用单元词词典对句子分词,(从文献内容中抽出的最基本的、字 面上不能再分的代表实质意义的词。如“经济、美国、鲁迅”等无定语的词都是单元词。单 元词不包括虚词、介词、连词、助词等无实质表征的词汇)只保留单元词词典中的词,利用 同义词词典更新该列表中词,例如“电脑” 一词全部替换为“计算机” “ontology”全部替换 为“本体”,针对替换之后的列表按照词形排序。依据排序好的列表生成句子级别的一个特 征。如图5所示,文献内表格数据生成方法结构图,首先是根据文献表格内容提取表 格的属性信息,特征库根据表格内容中的标题信息、行数据信息、列数据信息、多行组合信 息及多列组合信息来提取表格特征的特征。在提取时,其全部表格内容作为文字处理,数字 如果有小数点则循环乘10至转化为整数为止。根据表格列数、行数及列数的多少分别组合 多行、多列表格,参见表1和表2。表 1<table>table see original document page 6</column></row><table>表 2<table>table see original document page 6</column></row><table>上述检测学术不端的方法适用于任何语言文献,在检测其它语言特征库时,其特 征库的生成方法过程与所用词词典内容有所区别。实施例2如图6所示,为检测学术不端文献系统结构图,包括待检测文献特征区、待测文献 比对资源区、分层特征匹配区及不端学术文献及类型判定区,其中待测文献特征区,对接收 到的待检测文献的层级内容及文献内表格数据创建特征;待测文献比对资源区,用于对所 存有的文献层级内容及文献内的表格数据创建特征;要检测的文献来源可以是用户自由指 定,实时生成文献多层内容特征加入到文献特征库中;待测文献比对资源区的文献可以是 中国学术文本文档来自技高网...

【技术保护点】
一种自动检测学术不端文献的方法,其特征在于,待检测文献特征与所存全部文献特征同时进行匹配,所述方法具体包括:将待检测文献的层级内容及文献内表格数据创建特征;对所存有的文献层级内容及文献内的表格数据创建特征;将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存有文献的层级内容特征及所存有文献内的表格特征进行匹配;判断待检测文献中是否含有学术不端内容、不端表格数据及不端内容的类型。

【技术特征摘要】

【专利技术属性】
技术研发人员:张振海孙雄勇
申请(专利权)人:同方知网北京技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1