【技术实现步骤摘要】
本专利技术属于文本检测领域,尤其涉及一种公式抄袭检测方法及系统。
技术介绍
论文抄袭检测是指判断某一篇论文是否涉嫌抄袭其他一篇或多篇文档的文本内容。但由于抄袭并不完全等同于复制,而是有可能通过一定的语义变换、同义词替换或翻译外文文档等多种手段来涉嫌抄袭其他文档的文本内容。目前,论文抄袭检测技术主要有两种方法:一种是通过指纹识别检测法,一种是通过基于文本里段落词频统计检测法。所谓指纹识别是指从提交的原文文本内容中提取一些称为指纹的数据特征串,根据指纹的相同率来判断某一篇文档是否对其他文档进行了抄袭。所谓段落词频统计检测法是指对提交的文本进行分词,通过统计文本中各个段落的出现频率,设定一个阈值后将待查文本的每个数组与查询文本的每个数组进行比较,最后依据此指标来判断是否进行了抄袭。现有技术中的上述方法存在一定程度的识别率率低、效率不高且无法检测公式等问题。
技术实现思路
为克服上述现有技术的不足,本专利技术提供了一种公式抄袭检测方法及系统。其中,所述公式抄袭检测系统包含对比库,用于收录用作对比对象的素材;所述对比库进一步包含公式库;分词库,用于收录分词及对应词性;分词库中针对每一分词进行唯一编号,使用W_ID表示某一分词在分词库中的唯一编号;分词模块,用于对各素材进行分词,并将分词结果保存至对比库中;分词特征值生成模块统计每一个分词在对应素材中出现的数量,生成每一个分词对应的分词词性特征值;分词自由向量维数确定模块根据素材 ...
【技术保护点】
一种公式抄袭检测系统,其特征在于,包括:对比库,用于收录用作对比对象的素材;所述对比库进一步包括书籍库、论文库、专利库、公式库、谚语俗语库、谚语库、名人名言库、诗词库子库;对比库在收录素材时,对所收录的素材中存在的公式进行提取复制,并建立公式库进行单独保存;所述公式库中的每个公式都与其被提取的素材建立有关联关系,通过公式库中的公式即可获取其对应的素材全文;在收录公式时,将公式的各自变量参数以及因变量参数以及运算符号分别进行提取保存;提取出公式的各自变量参数以及应变量参数后进一步提取各参数的具体含义、量纲以及取值范围,并分别进行保存;提取出公式的运算符号后,进一步对运算符加以中外文文字注释;分词库,用于收录分词及对应词性;分词库中针对每一分词进行唯一编号,使用W_ID表示某一分词在分词库中的唯一编号;分词模块,用于对各素材进行分词,并将分词结果保存至对比库中;分词模块将分词结果与分词库保存的词性进行比对,确定分词结果的词性;分词特征值生成模块统计每一个分词在对应素材中出现的数量,生成每一个分词对应的分词词性特征值WCCV=[W_ID,W_N,W_CHAR],WCV=[W_ID,W_N], ...
【技术特征摘要】
1.一种公式抄袭检测系统,其特征在于,包括:
对比库,用于收录用作对比对象的素材;所述对比库进一步包括书籍库、论文库、专利库、公式库、谚
语俗语库、谚语库、名人名言库、诗词库子库;
对比库在收录素材时,对所收录的素材中存在的公式进行提取复制,并建立公式库进行单独保存;所述
公式库中的每个公式都与其被提取的素材建立有关联关系,通过公式库中的公式即可获取其对应的素材全
文;在收录公式时,将公式的各自变量参数以及因变量参数以及运算符号分别进行提取保存;提取出公式的
各自变量参数以及应变量参数后进一步提取各参数的具体含义、量纲以及取值范围,并分别进行保存;提取
出公式的运算符号后,进一步对运算符加以中外文文字注释;
分词库,用于收录分词及对应词性;分词库中针对每一分词进行唯一编号,使用W_ID表示某一分词在
分词库中的唯一编号;
分词模块,用于对各素材进行分词,并将分词结果保存至对比库中;分词模块将分词结果与分词库保存
的词性进行比对,确定分词结果的词性;
分词特征值生成模块统计每一个分词在对应素材中出现的数量,生成每一个分词对应的分词词性特征值
WCCV=[W_ID,W_N,W_CHAR],WCV=[W_ID,W_N],其中W_ID表示该分词在分词库中的唯一编号,W_N表示该
分词在该素材中出现的总次数;W_CHAR表示该分词的词性;
分词自由向量维数确定模块根据素材的分词结果确定分词自由向量维数WFV;所述分词自由向量维数WFV
等于对特定素材进行分词后得到的不同分词的数量;
分词精简向量维数生成模块,用于对每个素材的分词自由向量维数WFV进行精简,生成分词精简向量维
数RWV;
分词特征向量生成模块,用于根据分词精简向量维数RWV提取每个素材中所述分词精简向量维数RWV对
应的特征值生成分词特征向量WVE_RWV;
WVE_RWV=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV,W_NRWV]
其中W_IDi表示分词在分词库中的唯一编号,W_Ni,表示该分词在该素材中出现的总次数,将该次数作
为该分词的特征值;
用户访问方式检测模块,用于提示用户上传待鉴定文档;
用户检测模式确定模块,用于判断当前用户检测模式为普通抄袭鉴定模式时,待鉴定文档分词模块用
于对待鉴定文档进行分词,得到分词结果;
待鉴定文档分词自由向量维数确定模块,用于根据待鉴定文档的分词结果确定分词自由向量维数
WFV_TBI;
待鉴定文档分词精简向量维数生成模块,用于对待鉴定文档的分词自由向量维数WFV_TBI进行精简;生
成待鉴定文档分词精简向量维数RWV_TBI;
待鉴定文档分词特征向量生成模块,根据分词精简向量维数RWV_TBI提取每个待鉴定文档中与所述待鉴
定文档分词精简向量维数RWV_TBI对应的特征值生成待鉴定文档分词特征向量WVE_RWV_TBI,其中
WVE_RWV_TBI=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV_TBI,W_NRWV_TBI]
其中W_IDi表示分词在分词库中的唯一编号,W_Ni表示该分词在该待鉴定文档中出现的总次数,将该次
数作为该分词的特征值;
用户检测模式确定模块判断当前用户检测模式为普通抄袭鉴定模式时,进行相似度比对时,待鉴定文
档分词特征向量生成模块生成待鉴定文档的分词特征向量WVE_RWV_TBI;WVE_RWV_TBI=[W_ID1,W_N1,...,
W_IDi,W_Ni,...,W_IDRWV_TBI,W_NRWV_TBI],待鉴定文档的分词特征向量的维数为RWV_TBI;分词特征向量
生成模块生成对比库中素材的分词特征向量WVE_RWV;WVE_RWV=[W_ID1,W_N1,...,W_IDi,W_Ni,...,
W_IDRWV,W_NRWV];其中,待鉴定文档的分词特征向量的维数RWV_TBI等于分词特征向量的维数RWV;
待鉴定文档特征向量调整模块,用于将分词特征向量WVE_RWV_TBI中的所有特征值对应的W_IDi值按照
\t分词库中的编号进行升序或降序排列,并将缺少的W_IDi值插入,插入的分词编号W_IDi所对应的特征值为0;
得到扩展的待鉴定文档分词特征向量WVE_RWV_TBI_EXT=[W_IDTBI_EXT_1,W_NTBI_EXT_1,...,W_IDTBI_EXT_i,W_N
TBI_EXT_i,...,W_IDTBI_EXT_RWV_TBI,W_NTBI_EXT_RWV_TBI,...,W_IDW,W_NW];
素材特征向量调整模块,用于将分词特征向量WVE_RWV中的所有特征值对应的W_IDi值按照分词库中的
编号进行升序或降序排列,并将缺少的W_IDi值插入,插入的分词编号W_IDi所对应的特征值为0;得到扩展
的分词特征向量WVE_RWV_EXT=[W_IDEXT_1,W_NEXT_1,...,W_IDEXT_i,W_NEXT_i,...,W_IDEXT_RWV,W_NEXT_RWV,...,
W_IDW,W_NW];
普通抄袭鉴定相似度计算模块,计算待鉴定文档与对比库中的任一素材的之间的相似度;通过以下公式
计算:
Sim(WVE_RWV_TBI,WVE_RWV)=Sim(WVE_RWV_TBI_EXT,WVE_RWV_EXT)=2Σi=1wW_NTBI_EXT_i×W_NEXT_iΣi=1wW_NTBI_EXT_i2+Σi=1wW_NEXT_i2+Σi=1wW_NTBI_EXT_i2×Σi=1wW_NEXT_i2]]>当待鉴定文档与所有素材对比完成后,提取所有疑似素材,将待鉴定文档与疑似素材进行进一步对比。
2.根据权利要求1所述的公式抄袭检测系统,其中,在公式抄袭鉴定模式下,公式提取模块,用于将
提取待鉴定文档中的公式;公式分解模块,用于将公式的各自变量参数以及因变量参数、运算符号、各参数
的具体含义、量纲以及取值范围分别进行提取;公式对比模块,用于将待鉴定文档中提取的公式的各自变量
参数以及因变量参数、运算符号、各参数的具体含义、量纲以及取值范围与公式库中保存的公式的各自变量
参数以及因变量参数、运算符号、各参数的具体含义、量纲以及取值范围进行一一比较;当待鉴定文档中的
公式的各自变量参数以及因变量参数、运算符号、量纲以及取值范围与公式库中保存的公式的各自变量参数
以及因变量参数、运算符号、量纲以及取值范围的重合度超过公式比较门限值THMATH时,将公式库中与当前被
比较公式相关联的素材作为疑似素材;所述重合度是指待鉴定文档中的公式与公式库中的公式相比、相同的
自变量参数、因变量参数、运算符号、量纲数之和与待鉴定文档中当前公式的自变量参数、因变量参数、运
算符号、量纲数之和的比值。
3.根据权利要求1或2所述的公式抄袭检测系统,将待鉴定文档与疑似素材进行全文对比。
4.根据权利要求1-3任一所述的公式抄袭检测系统,其中:分词精简向量维数生成模块采用词性筛选
法对分词自由向量维数WFV进行精简;精简过程如下:将分词结果的特征值按照对应的分词词性进行分类;
将特征值划分为A1类实词特征值、A2类实词特征值、B类实词特征值、C类实词特征值、D类实词特征值以
及V类虚词特征值;分别统计各类别下特征值的数量;AMOUNT_A1、指A1类实词特征值的数量,AMOUNT_A2、
指A2类实词特征值的数量,AMOUNT_B、指B类实词特征值的数量,AMOUNT_C、C类实词特征值的数量,AMOUNT_D、
D类实词特征值的数量,AMOUNT_V、V类实词特征值的数量;计算分词精简向量维数RWV-(AMOUNT_A1+
AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWV_S_V;如果大于0,如果则退出此次精简;
如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+
AMOUNT_B+AMOUNT_C+AMOUNT_D)的值RWV_S_D;如果大于0,则从AMOUNT_V所对应的特征值中随机提取与
该差值RWV_S_D数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步
计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C)的值RWV_S_C;如果大于0,
则从AMOUNT_D所对应的特征值中随机提取与该差值RWV_S_C数量相等的特征值,完成此次精简;如果等于0,
则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B)
的值RWV_S_B;如果大于0,则从AMOUNT_C所对应的特征值中随机提取与该差值RWV_S_B数量相等的特征值,
完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-(AMOUNT_A1+
AMOUNT_A2)的值RWV_S_A2;如果大于0,则从AMOUNT_B所对应的特征值中随机提取与该差值RWV_S_A2数
量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量
\t维数RWV-AMOUNT_A1的值RWV_S_A1;如果大于0,则从AMOUNT_A2所对应的特征值中随机提取与该差值
RWV_S_A1数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则从AMOUNT_A1
所对应的特征值中随机提取与精简向量维数RWV数量相等的特征值,完成此次精简。
5.根据权利要求4所述的公式抄袭检测系统,对于计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+
AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWV_S_V...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。