一种文本查重方法、装置、设备及可读存储介质制造方法及图纸

技术编号:30804958 阅读:13 留言:0更新日期:2021-11-16 08:12
本发明专利技术提供了一种文本查重方法及装置、设备及可读存储介质,涉及数据查重技术领域,包括获取待查重文本;对待查重文本进行粒度分割生成第一待查文本数据和第二待查文本数据;根据第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合;在第一信息范围内,根据第二待查文本数据进行细粒度检索得到第二文本集合,第二对比文本的数量少于第一对比文本的数量;根据第二文本集合和查重文本计算确定查重文本的查重结果,利用项目申报中部分特点在数据中进行粗粒度检索高效率地扩大搜索广度,然后进一步地通过细粒度检索缩小需要详细对比检索与分析的范围,最终通过在“少量”的对比文本中进行精细的对比,完成整个文本查重工作。本查重工作。本查重工作。

【技术实现步骤摘要】
一种文本查重方法、装置、设备及可读存储介质


[0001]本专利技术涉及数据查重
,具体而言,涉及文本查重方法、装置、设备及可读存储介质。

技术介绍

[0002]科学研究是一个复杂的问题。比如,同一个主题的研究,从应用基础研究、关键技术研发、中试孵化与应用示范、技术转让,整个研发链上下游各个阶段可以布局多个项目。此外,在基础研究领域,往往需要布局多个团队,从不同的技术实现路径去探索前沿、发现规律。在关键技术研发,也可能存在不同的技术路线,这些技术实现方式不同,但是都是科学合理的申报项目,揭榜挂帅赛马争先,有可能根据需要择优,也可能同时支持。因此,针对项目申报文本查重而言,却没有一个较好的就查重方法。

技术实现思路

[0003]本专利技术的目的在于提供一种文本查重方法、装置、设备及可读存储介质,以改善上述问题。为了实现上述目的,本专利技术采取的技术方案如下:第一方面,本申请提供了一种文本查重方法,包括:获取待查重文本;对所述待查重文本进行粒度分割生成第一待查文本数据和第二待查文本数据;根据所述第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第一对比文本构成的集合;在所述第一信息范围内,根据所述第二待查文本数据进行细粒度检索得到第二文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第二对比文本构成的集合,所述第二对比文本的数量少于所述第一对比文本的数量;根据所述第二文本集合和所述查重文本计算确定所述查重文本的查重结果
[0004]进一步地,所述对所述待查重文本进行粒度分割生成第一待查文本和第二待查文本,包括:将所述待查重文本转化为文本格式文件;根据预设分割规则提取第一待查文本,将所述待查重文本中的剩余内容记为第二待查文本;分别对所述第一待查文本和所述第二待查文本进行预处理得到所述第一待查文本数据和所述第二待查文本数据。
[0005]进一步地,所述分别对所述第一待查文本和所述第二待查文本进行预处理得到所述第一待查文本数据和所述第二待查文本数据,包括:对所述第一待查文本进行分词得到对应的词汇文本;去除所述词汇文本中包含的停用词,得到目标文本;按所述目标文本的词汇序列将所述目标文本向量化,得到所述目标文本对应的数字向量,并将所述数字向量作为第一待查文本数据。
[0006]进一步地,所述根据所述第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合,包括:调用FNN数学模型,所述FNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型,所述预设文本数据库包括所述预设文本数据库中每篇文本的特征向量信息;将所述第一待查文本数据作为所述FNN数学模型的输入信息,求解所述FNN
数学模型得到第二数据信息,所述第二数据信息为所述第一待查文本数据进行特征提取后的信息;分别计算所述第二数据信息与所述预设文本数据库中每篇文本的第一距离值;在所述预设文本数据库中按照所述第一距离值由大到小的顺序提取第一预设数量篇文本,并作为第一文本集合。
[0007]进一步地,所述在所述第一信息范围内,根据所述第二待查文本数据进行细粒度检索得到第二文本集合,包括:调用CNN数学模型,所述CNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型;将所述第二待查文本数据和所述第一信息中每篇文本的特征向量信息作为所述CNN数学模型的输入信息,求解所述CNN数学模型得到第三数据信息,所述第三数据信息包括所述第二待查文本数据和所述第一信息中每篇文本在语义关系上的相识度;在所述第三数据信息中按照所述相识度由大到小的顺序提取第二预设数量篇文本,并作为第二文本集合。
[0008]第二方面,本申请还提供了一种文本查重装置,包括:获取单元,用于获取待查重文本;分割单元,用于对所述待查重文本进行粒度分割生成第一待查文本数据和第二待查文本数据;第一检索单元,用于根据所述第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第一对比文本构成的集合;第二检索单元,用于在所述第一信息范围内,根据所述第二待查文本数据进行细粒度检索得到第二文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第二对比文本构成的集合,所述第二对比文本的数量少于所述第一对比文本的数量;查重单元,用于根据所述第二文本集合和所述查重文本计算确定所述查重文本的查重结果。
[0009]进一步地,所述分割单元包括:格式转化单元,用于将所述待查重文本转化为文本格式文件;划分单元,用于根据预设分割规则提取第一待查文本,将所述待查重文本中的剩余内容记为第二待查文本;预处理单元,用于分别对所述第一待查文本和所述第二待查文本进行预处理得到所述第一待查文本数据和所述第二待查文本数据。
[0010]进一步地,所述预处理包括:分词单元,用于对所述第一待查文本进行分词得到对应的词汇文本;剔除单元,用于去除所述词汇文本中包含的停用词,得到目标文本;向量单元,用于按所述目标文本的词汇序列将所述目标文本向量化,得到所述目标文本对应的数字向量,并将所述数字向量作为第一待查文本数据。
[0011]进一步地,所述第一检索单元包括:第一调用单元,用于调用FNN数学模型,所述FNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型,所述预设文本数据库包括所述预设文本数据库中每篇文本的特征向量信息;特征提取单元,用于将所述第一待查文本数据作为所述FNN数学模型的输入信息,求解所述FNN数学模型得到第二数据信息,所述第二数据信息为所述第一待查文本数据进行特征提取后的信息;第一计算单元,用于分别计算所述第二数据信息与所述预设文本数据库中每篇文本的第一距离值;第一提取单元,用于在所述预设文本数据库中按照所述第一距离值由大到小的顺序提取第一预设数量篇文本,并作为第一文本集合。
[0012]进一步地,所述第二检索单元包括:第二调用单元,用于调用CNN数学模型,所述CNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型;语义关系单元,用于将所述第二待查文本数据和所述第一信息中每篇文本的特征向量信息作为所述CNN数学模
型的输入信息,求解所述CNN数学模型得到第三数据信息,所述第三数据信息包括所述第二待查文本数据和所述第一信息中每篇文本在语义关系上的相识度;第二提取单元,用于在所述第三数据信息中按照所述相识度由大到小的顺序提取第二预设数量篇文本,并作为第二文本集合。
[0013]本专利技术的有益效果为:本方法为了针对于项目申报文本的特点,采用了先分割项目申报文本,利用项目申报中部分特点在数据中进行粗粒度检索高效率地扩大搜索广度,然后进一步地通过细粒度检索缩小需要详细对比检索与分析的范围,最终通过在“少量”的对比文本中进行精细的对比,完成整个文本查重工作。相比现有技术进行全文检测势必会降低查重效率,本方法中通过粗



精细化的检索查重方式,其在具有不仅可以帮助查重生成出高质量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本查重方法,其特征在于,包括:获取待查重文本;对所述待查重文本进行粒度分割生成第一待查文本数据和第二待查文本数据;根据所述第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第一对比文本构成的集合;在所述第一信息范围内,根据所述第二待查文本数据进行细粒度检索得到第二文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第二对比文本构成的集合,所述第二对比文本的数量少于所述第一对比文本的数量;根据所述第二文本集合和所述查重文本计算确定所述查重文本的查重结果。2.根据权利要求1所述的文本查重方法,其特征在于,所述对所述待查重文本进行粒度分割生成第一待查文本和第二待查文本,包括:将所述待查重文本转化为文本格式文件;根据预设分割规则提取第一待查文本,将所述待查重文本中的剩余内容记为第二待查文本;分别对所述第一待查文本和所述第二待查文本进行预处理得到所述第一待查文本数据和所述第二待查文本数据。3.根据权利要求2所述的文本查重方法,其特征在于,所述分别对所述第一待查文本和所述第二待查文本进行预处理得到所述第一待查文本数据和所述第二待查文本数据,包括:对所述第一待查文本进行分词得到对应的词汇文本;去除所述词汇文本中包含的停用词,得到目标文本;按所述目标文本的词汇序列将所述目标文本向量化,得到所述目标文本对应的数字向量,并将所述数字向量作为第一待查文本数据。4.根据权利要求1所述的文本查重方法,其特征在于,所述根据所述第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合,包括:调用FNN数学模型,所述FNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型,所述预设文本数据库包括所述预设文本数据库中每篇文本的特征向量信息;将所述第一待查文本数据作为所述FNN数学模型的输入信息,求解所述FNN数学模型得到第二数据信息,所述第二数据信息为所述第一待查文本数据进行特征提取后的信息;分别计算所述第二数据信息与所述预设文本数据库中每篇文本的第一距离值;在所述预设文本数据库中按照所述第一距离值由大到小的顺序提取第一预设数量篇文本,并作为第一文本集合。5.根据权利要求1所述的文本查重方法,其特征在于,所述在所述第一信息范围内,根据所述第二待查文本数据进行细粒度检索得到第二文本集合,包括:调用CNN数学模型,所述CNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型;将所述第二待查文本数据和所述第一信息中每篇文本的特征向量信息作为所述CNN数学模型的输入信息,求解所述CNN数学模型得到第三数据信息,所述第三数据信息包括所述第二待查文本数据和所述第一信息中每篇文本在语义关系上的相识度;
在所述第三数据信息中按照所述相识度由大到小的顺序提取第二预设数量篇文本,并作为第二文本集合。6.一种文本查重装...

【专利技术属性】
技术研发人员:王东晋翟夏普杨苗苗安源罗逸文高浩翔周欣燕尉永哲王洪岩舒阳常雪娇
申请(专利权)人:中国铁道科学研究院集团有限公司科学技术信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1