一种文本相似度计算方法、装置及服务器制造方法及图纸

技术编号：18007031 阅读：43 留言：0更新日期：2018-05-21 07:39

本申请实施例提供了一种文本相似度计算方法、装置及服务器。在计算文本相似度时，考虑到文本内容对相似度的影响，获取两个文本词义相同的共有成分；考虑到语序对相似度的影响，获取共有成分在每个文本中的前接成分，并根据每个共有成分在每个文本中出现的次数T1和T2，以及每个共有成分在两个文本中相同前接成分的数量C1和相同后接成分的数量C2；然后，综合文本内容对相似度的影响和语序对相似度的影响，根据T1和T2、以及C1和C2得到每个共有成分对文本相似度的贡献度；最后，根据对共有成分预设的权重和相似度，计算文本相似度。从而，解决了现有技术中由于无法处理文本语序，导致计算中文文本相似度的准确度不理想的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本相似度计算方法、装置及服务器
本申请涉及自然语言处理
，尤其涉及一种文本相似度计算方法、装置及服务器。
技术介绍
相似度计算用于衡量对象之间的相似程度。在自然语言处理
，相似度计算一个基础性运算，被广泛应用于数据挖掘、数据分类、信息检索和信息采集等技术场景中。文本相似度计算是自然语言处理
中常涉及到的相似度计算类型，通过计算不同文本之间的相似度能够实现对大规模的文本语料进行聚类分析、文本匹配或去重处理等。现有技术中的文本相似度计算方法主要包括余弦相似度、编辑距离和基于神经网络语言模型的相似度计算方法。其中，余弦相似度方法对文本进行分词，并根据分词结果构造文本的特征向量，将特征向量之间的余弦相似度作为文本相似度；编辑距离是指两个文本之间，由一个转成另一个所需的最少编辑操作次数，许可的编辑操作包括将文本中的一个字符替换成另一个字符，插入一个字符或删除一个字符，最少编辑操作次数越少，则文本相似度越高；而神经网络语言模型的贡献是解决了传统的通过特征词向量计算文本相似度时出现的维度灾难问题。与一些外文语言不同，在中文语言中，语法和语义的表达较多地依赖语序而实现。因此，在计算中文文本相似度的时候，除了要考虑文本内容以外，还要考虑语序对语义的影响。但是，现有技术的文本相似度方法无论是构造特征向量还是计算编辑距离，都仅仅是计算文本在字符内容上的相似度，没有或很少地考虑到语序对语法和语义的影响，这就导致了现有技术中的文本相似度计算方法对依赖语序的中文语言的处理能力较弱，计算中文文本相似度的准确度还不够理想。
技术实现思路
为了解决现有技术中存在的问题，...
一种文本相似度计算方法、装置及服务器

【技术保护点】
一种文本相似度计算方法，其特征在于，包括：获取待比较的两个文本中词义相同的共有成分；获取所述共有成分在每个文本中的前接成分和后接成分；其中，所述前接成分为文本中，与所述共有成分相邻的前一个词；所述后接成分为文本中，与所述共有成分相邻的后一个词；获取每个共有成分在每个文本中出现的次数T1和T2，以及，获取每个共有成分在两个文本中相同前接成分的数量C1相同后接成分的数量C2；根据所述T1和T2，以及所述C1和C2，计算每个共有成分对文本相似度的贡献度；根据对共有成分预设的权重和所述贡献度，计算两个文本的文本相似度。

【技术特征摘要】
1.一种文本相似度计算方法，其特征在于，包括：获取待比较的两个文本中词义相同的共有成分；获取所述共有成分在每个文本中的前接成分和后接成分；其中，所述前接成分为文本中，与所述共有成分相邻的前一个词；所述后接成分为文本中，与所述共有成分相邻的后一个词；获取每个共有成分在每个文本中出现的次数T1和T2，以及，获取每个共有成分在两个文本中相同前接成分的数量C1相同后接成分的数量C2；根据所述T1和T2，以及所述C1和C2，计算每个共有成分对文本相似度的贡献度；根据对共有成分预设的权重和所述贡献度，计算两个文本的文本相似度。2.根据权利要求1所述的方法，其特征在于，所述根据T1和T2，以及所述C1和C2，计算每个共有成分对文本相似度的贡献度，使用以下公式：其中，S为贡献度；Q1为前接成分和后接成分的贡献系数，Q2为所述共有成分的贡献系数，Q1+Q2＝1；Tmin为T1和T2中的最小值。3.根据权利要求1所述的方法，其特征在于，所述根据对共有成分预设的权重和所述贡献度，计算两个文本的文本相似度，使用以下公式：其中，SIM(A1,A2)为两个文本A1和A2的文本相似度；S1～Sn为两个文本A1和A2的第1个～第n个共有成分的贡献度；W1～Wn为两个文本A1和A2的第1个～第n个共有成分的权重；N1为文本A1中包含的分词的数量，N2为文本A2中包含的分词的数量。4.根据权利要求1所述的方法，其特征在于，所述获取待比较的两个文本中词义相同的共有成分的步骤包括：根据词义对已知同义词建设同义词分类表，以及，对每个分类下的同义词统一设置词权重；当所述同义词为共有成分时，所述词权重为共有成分的权重；以已知同义词为最小分词单位，对待比较的文本进行分词；根据同义词分类表，遍历分词结果，获取两个待比较的文本的共有成分。5.根据权利要求4所述的方法，其特征在于，根据每个分类的已知同义词在...

【专利技术属性】
技术研发人员：任宁，李德彦，
申请(专利权)人：北京神州泰岳软件股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人