【技术实现步骤摘要】
一种文本查重方法、装置、设备及可读存储介质
[0001]本专利技术涉及数据查重
,具体而言,涉及文本查重方法、装置、设备及可读存储介质。
技术介绍
[0002]科学研究是一个复杂的问题。比如,同一个主题的研究,从应用基础研究、关键技术研发、中试孵化与应用示范、技术转让,整个研发链上下游各个阶段可以布局多个项目。此外,在基础研究领域,往往需要布局多个团队,从不同的技术实现路径去探索前沿、发现规律。在关键技术研发,也可能存在不同的技术路线,这些技术实现方式不同,但是都是科学合理的申报项目,揭榜挂帅赛马争先,有可能根据需要择优,也可能同时支持。因此,针对项目申报文本查重而言,却没有一个较好的就查重方法。
技术实现思路
[0003]本专利技术的目的在于提供一种文本查重方法、装置、设备及可读存储介质,以改善上述问题。为了实现上述目的,本专利技术采取的技术方案如下:第一方面,本申请提供了一种文本查重方法,包括:获取待查重文本;对所述待查重文本进行粒度分割生成第一待查文本数据和第二待查文本数据;根据所述第一待查文本数 ...
【技术保护点】
【技术特征摘要】
1.一种文本查重方法,其特征在于,包括:获取待查重文本;对所述待查重文本进行粒度分割生成第一待查文本数据和第二待查文本数据;根据所述第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第一对比文本构成的集合;在所述第一信息范围内,根据所述第二待查文本数据进行细粒度检索得到第二文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第二对比文本构成的集合,所述第二对比文本的数量少于所述第一对比文本的数量;根据所述第二文本集合和所述查重文本计算确定所述查重文本的查重结果。2.根据权利要求1所述的文本查重方法,其特征在于,所述对所述待查重文本进行粒度分割生成第一待查文本和第二待查文本,包括:将所述待查重文本转化为文本格式文件;根据预设分割规则提取第一待查文本,将所述待查重文本中的剩余内容记为第二待查文本;分别对所述第一待查文本和所述第二待查文本进行预处理得到所述第一待查文本数据和所述第二待查文本数据。3.根据权利要求2所述的文本查重方法,其特征在于,所述分别对所述第一待查文本和所述第二待查文本进行预处理得到所述第一待查文本数据和所述第二待查文本数据,包括:对所述第一待查文本进行分词得到对应的词汇文本;去除所述词汇文本中包含的停用词,得到目标文本;按所述目标文本的词汇序列将所述目标文本向量化,得到所述目标文本对应的数字向量,并将所述数字向量作为第一待查文本数据。4.根据权利要求1所述的文本查重方法,其特征在于,所述根据所述第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合,包括:调用FNN数学模型,所述FNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型,所述预设文本数据库包括所述预设文本数据库中每篇文本的特征向量信息;将所述第一待查文本数据作为所述FNN数学模型的输入信息,求解所述FNN数学模型得到第二数据信息,所述第二数据信息为所述第一待查文本数据进行特征提取后的信息;分别计算所述第二数据信息与所述预设文本数据库中每篇文本的第一距离值;在所述预设文本数据库中按照所述第一距离值由大到小的顺序提取第一预设数量篇文本,并作为第一文本集合。5.根据权利要求1所述的文本查重方法,其特征在于,所述在所述第一信息范围内,根据所述第二待查文本数据进行细粒度检索得到第二文本集合,包括:调用CNN数学模型,所述CNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型;将所述第二待查文本数据和所述第一信息中每篇文本的特征向量信息作为所述CNN数学模型的输入信息,求解所述CNN数学模型得到第三数据信息,所述第三数据信息包括所述第二待查文本数据和所述第一信息中每篇文本在语义关系上的相识度;
在所述第三数据信息中按照所述相识度由大到小的顺序提取第二预设数量篇文本,并作为第二文本集合。6.一种文本查重装...
【专利技术属性】
技术研发人员:王东晋,翟夏普,杨苗苗,安源,罗逸文,高浩翔,周欣燕,尉永哲,王洪岩,舒阳,常雪娇,
申请(专利权)人:中国铁道科学研究院集团有限公司科学技术信息研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。