文本的查重方法、装置、电子设备及存储介质制造方法及图纸

技术编号：21034718 阅读：30 留言：0更新日期：2019-05-04 05:34

本发明专利技术提供一种文本的查重方法、装置、电子设备及存储介质，所述方法包括：对获取到的每个文本进行分词处理，获取与该文本对应的多个非实体词和多个实体词；将所述多个非实体词中在该文本中连续的至少两个非实体词划分为一个非实体词组，以及将在该文本中不连续的所有非实体词中每个非实体词划分为一个非实体词组，并将所述多个实体词中每个实体词划分为一个实体词组；基于两个文本的所述多个实体词组和所述多个非实体词组，获取用于表征所述两个文本相似度的度量值。将所述多个非实体词中在该文本中连续的至少两个非实体词划分为一个非实体词组，解决了在该文本中连续的至少两个非实体词词序发生变化时而导致文本相似度计算精度不高的问题。

Text duplication checking methods, devices, electronic devices and storage media

全部详细技术资料下载

【技术实现步骤摘要】
文本的查重方法、装置、电子设备及存储介质
本专利技术涉及数据处理
，具体而言，涉及一种文本的查重方法、装置、电子设备及存储介质。
技术介绍
文本是最重要的信息载体，面对海量新闻数据中重复或近似重复数据的检测技术尤为重要，目前，对新闻文本的查重成为当今数据挖掘和信息检索技术的热点之一，其中，文本的查重技术中一个基础而关键的问题就是文本相似度的计算，然而现有的技术存在对新闻文本相似度计算精度不高的问题，继而导致查重结果的可靠性不高。
技术实现思路
鉴于此，本专利技术实施例提供一种文本的查重方法、装置、电子设备及存储介质，使得文本相似度计算精度高，增加查重结果的可靠性。第一方面，本专利技术实施例提供一种文本的查重方法，所述方法包括：对获取到的每个文本进行分词处理，获取与该文本对应的多个非实体词和多个实体词；将所述多个非实体词中在该文本中连续的至少两个非实体词划分为一个非实体词组，以及将在该文本中不连续的所有非实体词中每个非实体词划分为一个非实体词组，并将所述多个实体词中每个实体词划分为一个实体词组；基于两个文本的所述多个实体词组和所述多个非实体词组，获取用于表征所述两...

【技术保护点】
1.一种文本的查重方法，其特征在于，所述方法包括：对获取到的每个文本进行分词处理，获取与该文本对应的多个非实体词和多个实体词；将所述多个非实体词中在该文本中连续的至少两个非实体词划分为一个非实体词组，以及将在该文本中不连续的所有非实体词中每个非实体词划分为一个非实体词组，并将所述多个实体词中每个实体词划分为一个实体词组；基于两个文本的所述多个实体词组和所述多个非实体词组，获取用于表征所述两个文本相似度的度量值。

【技术特征摘要】
1.一种文本的查重方法，其特征在于，所述方法包括：对获取到的每个文本进行分词处理，获取与该文本对应的多个非实体词和多个实体词；将所述多个非实体词中在该文本中连续的至少两个非实体词划分为一个非实体词组，以及将在该文本中不连续的所有非实体词中每个非实体词划分为一个非实体词组，并将所述多个实体词中每个实体词划分为一个实体词组；基于两个文本的所述多个实体词组和所述多个非实体词组，获取用于表征所述两个文本相似度的度量值。2.根据权利要求1所述的方法，其特征在于，基于两个文本的所述多个实体词组和所述多个非实体词组，获取用于表征所述两个文本相似度的度量值，包括：针对每个文本，对与该文本对应的所述多个实体词组和所述多个非实体词组中的每个分组进行Hash运算，获取与所述多个实体词组和所述多个非实体词组一一对应的二进制序列；将与该文本对应的多个所述二进制序列中的每个二进制序列分别进行加权处理，获取与多个所述二进制序列一一对应的加权序列；将与该文本对应的多个所述加权序列中对应位置的数值进行累加，获取用于表征该文本的特征的特征序列；基于两个文本的特征序列，获取用于表征所述两个文本相似度的度量值。3.根据权利要求2所述的方法，其特征在于，将与该文本对应的多个所述二进制序列中的每个二进制序列分别进行加权处理，获取与多个所述二进制序列一一对应的加权序列，包括：将与该文本对应的多个所述二进制序列中的每个二进制序列中值为0的元素的值重置为-1，获取与多个所述二进制序列一一对应的第一序列；将与该文本对应的每个实体词组的第一序列乘以第一权重，以及将与该文本对应的每个非实体词组的第一序列乘以第二权重，获取与该文本对应的多个加权序列，其中，所述第一权重大于所述第二权重。4.根据权利要求3所述的方法，其特征在于，将与该文本对应的每个实体词组的第一序列乘以第一权重，以及将与该文本对应的每个非实体词组的第一序列乘以第二权重，获取与该文本对应的多个加权序列，包括：将与该文本对应的每个实体词组的第一序列乘以第一权重，获取与所述多个实体词组一一对应的第一加权序列，以及将与该文本对应的每个非实体词组的第一序列乘以第二权重，获取与所述多个非实体词组一一对应的第二加权序列；基于数值大小原则，对与该文本对应的所述多个第一加权序列进行排序，获取排序后的多个实体序列，以及对与该文本对应的所述多个第二加权序列进行排序，获取排序后的多个非实体序列；基于与该文本对应的所述多个实体序列，获取用于表征相邻序列之间距离的多个第一距离值；基于与该文本对应的所述多个非实体序列，获取用于表征相邻序列之间距离的多个第二距离值；针对与该文本对应的每个第一...

【专利技术属性】
技术研发人员：韩忠明，莫倩，张海刚，许欢，
申请(专利权)人：网智天元科技集团股份有限公司，
类型：发明
国别省市：西藏,54

全部详细技术资料下载我是这个专利的主人