一种文本相似度计算方法、装置及电子设备制造方法及图纸

技术编号：20589106 阅读：17 留言：0更新日期：2019-03-16 07:13

本发明专利技术实施例公开了一种文本相似度计算方法、装置及电子设备。本发明专利技术实施例方法包括：获取原始文本和目标文本；确定原始文本和目标文本中相同词性的词语；确定原始文本和目标文本中的共同词项集合和并集词项集合；基于相同的词性、共同词项集合所述并集词项集合，计算原始文本和所述目标文本的文本相似度。本发明专利技术实施例中文本相似度是综合两个文本之间的词性和共同词项集合和并集词项集合计算出来的，相同词性越多、共同词项越多，则文本相似度越高，计算的文本相似度更加贴近实际，文本相似度计算更加准确。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本相似度计算方法、装置及电子设备
本专利技术涉及计算机
，特别涉及一种文本相似度计算方法、装置及电子设备。
技术介绍
相似度计算用于衡量对象之间的相似程度。在自然语言处理
，相似度计算一个基础性运算，被广泛应用于数据挖掘、数据分类、信息检索和信息采集等技术场景中。文本相似度计算是自然语言处理
中常涉及到的相似度计算类型，通过计算不同文本之间的相似度能够实现对大规模的文本语料进行聚类分析、文本匹配或去重处理等。现有技术中的文本相似度计算方法主要包括余弦相似度、编辑距离和基于神经网络语言模型的相似度计算方法。其中，余弦相似度方法对文本进行分词，并根据分词结果构造文本的特征向量，将特征向量之间的余弦相似度作为文本相似度；编辑距离是指两个文本之间，由一个转成另一个所需的最少编辑操作次数，许可的编辑操作包括将文本中的一个字符替换成另一个字符，插入一个字符或删除一个字符，最少编辑操作次数越少，则文本相似度越高；而神经网络语言模型的贡献是解决了传统的通过特征词向量计算文本相似度时出现的维度灾难问题。与一些外文语言不同，在中文语言中，语法和语义的表达较多地依赖语序而实现。因此，在计算中文文本相似度的时候，除了要考虑文本内容以外，还要考虑语序对语义的影响。但是，现有技术的文本相似度方法无论是构造特征向量还是计算编辑距离，都仅仅是计算文本在字符内容上的相似度，没有或很少地考虑到语序对语法和语义的影响，例如，在计算弹幕相似度时候，采用传统的Jaccard算法(编辑距离算法的一种)，一般只考虑文本中相同词来计算文本相似度，没有考虑同类词之间的相关性，这就导...

【技术保护点】
1.一种文本相似度计算方法，其特征在于，所述方法包括：获取原始文本和目标文本；确定所述原始文本和所述目标文本中相同词性的词语；确定所述原始文本和所述目标文本中的共同词项集合和并集词项集合；基于所述相同的词性、所述共同词项集合和所述并集词项集合，计算所述原始文本和所述目标文本的文本相似度。

【技术特征摘要】
1.一种文本相似度计算方法，其特征在于，所述方法包括：获取原始文本和目标文本；确定所述原始文本和所述目标文本中相同词性的词语；确定所述原始文本和所述目标文本中的共同词项集合和并集词项集合；基于所述相同的词性、所述共同词项集合和所述并集词项集合，计算所述原始文本和所述目标文本的文本相似度。2.根据权利要求1所述的文本相似度计算方法，其特征在于，所述获取原始文本和目标文本的步骤，包括：获取目标领域的目标语料；对所述目标语料进行分词，得到待计算文本；在所述待计算文本中选择原始文本和目标文本。3.根据权利要求1所述的文本相似度计算方法，其特征在于，所述确定所述原始文本和所述目标文本中相同词性的词语的步骤，包括：对所述原始文本和所述目标文本进行分词和词性标注，并去除停用词；确定所述原始文本和所述目标文本中相同名词或动词词性的词语个数；确定所述原始文本和所述目标文本中非名词或动词词性的词语个数。4.根据权利要求1所述的文本相似度计算方法，其特征在于，所述基于所述相同的词性、所述共同词项集合所述并集词项集合，计算所述原始文本和所述目标文本的文本相似度的步骤，包括：基于所述相同的词性，计算所述原始文本和所述目标文本的第一文本相似度；基于所述共同词项集合所述并集词项集合，计算所述原始文本和所述目标文本的第二文本相似度；根据所述第一文本相似度和所述第二文本相似度，计算所述原始文本和所述目标文本的文本相似度。5.根据权利要求1所述的文本相似度计算方法，其特征在于，所述原始文本和所述目标文本的文本相似度为所述第一文本相似度和所述第二文本相似度之和。6.根据权利要求1所述的文本相似度计算方法，其特征在于，所述基于所述相同的词性、所述共同词项集合所述并集词项集合，计算所述原始文本和所述目标文本的文本相似度的步骤采用如下公式：其中，posnv(A)∩posnv(B...

【专利技术属性】
技术研发人员：徐乐乐，
申请(专利权)人：武汉斗鱼网络科技有限公司，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人