一种文本相似度计算方法、装置及服务器制造方法及图纸

技术编号:18007031 阅读:43 留言:0更新日期:2018-05-21 07:39
本申请实施例提供了一种文本相似度计算方法、装置及服务器。在计算文本相似度时,考虑到文本内容对相似度的影响,获取两个文本词义相同的共有成分;考虑到语序对相似度的影响,获取共有成分在每个文本中的前接成分,并根据每个共有成分在每个文本中出现的次数T1和T2,以及每个共有成分在两个文本中相同前接成分的数量C1和相同后接成分的数量C2;然后,综合文本内容对相似度的影响和语序对相似度的影响,根据T1和T2、以及C1和C2得到每个共有成分对文本相似度的贡献度;最后,根据对共有成分预设的权重和相似度,计算文本相似度。从而,解决了现有技术中由于无法处理文本语序,导致计算中文文本相似度的准确度不理想的问题。

【技术实现步骤摘要】
一种文本相似度计算方法、装置及服务器
本申请涉及自然语言处理
,尤其涉及一种文本相似度计算方法、装置及服务器。
技术介绍
相似度计算用于衡量对象之间的相似程度。在自然语言处理
,相似度计算一个基础性运算,被广泛应用于数据挖掘、数据分类、信息检索和信息采集等技术场景中。文本相似度计算是自然语言处理
中常涉及到的相似度计算类型,通过计算不同文本之间的相似度能够实现对大规模的文本语料进行聚类分析、文本匹配或去重处理等。现有技术中的文本相似度计算方法主要包括余弦相似度、编辑距离和基于神经网络语言模型的相似度计算方法。其中,余弦相似度方法对文本进行分词,并根据分词结果构造文本的特征向量,将特征向量之间的余弦相似度作为文本相似度;编辑距离是指两个文本之间,由一个转成另一个所需的最少编辑操作次数,许可的编辑操作包括将文本中的一个字符替换成另一个字符,插入一个字符或删除一个字符,最少编辑操作次数越少,则文本相似度越高;而神经网络语言模型的贡献是解决了传统的通过特征词向量计算文本相似度时出现的维度灾难问题。与一些外文语言不同,在中文语言中,语法和语义的表达较多地依赖语序而实现。因此,在计算中文文本相似度的时候,除了要考虑文本内容以外,还要考虑语序对语义的影响。但是,现有技术的文本相似度方法无论是构造特征向量还是计算编辑距离,都仅仅是计算文本在字符内容上的相似度,没有或很少地考虑到语序对语法和语义的影响,这就导致了现有技术中的文本相似度计算方法对依赖语序的中文语言的处理能力较弱,计算中文文本相似度的准确度还不够理想。
技术实现思路
为了解决现有技术中存在的问题,本申请实施例提供了一种文本相似度计算方法、装置及服务器。第一方面,本申请实施例提供了一种文本相似度计算方法,包括:获取待比较的两个文本中词义相同的共有成分;获取所述共有成分在每个文本中的前接成分和后接成分;其中,所述前接成分为文本中,与所述共有成分相邻的前一个词;所述后接成分为文本中,与所述共有成分相邻的后一个词;获取每个共有成分在每个文本中出现的次数T1和T2,以及,获取每个共有成分在两个文本中相同前接成分的数量C1相同后接成分的数量C2;根据所述T1和T2,以及所述C1和C2,计算每个共有成分对文本相似度的贡献度;根据对共有成分预设的权重和所述贡献度,计算两个文本的文本相似度。第二方面,本申请实施例提供了一种文本相似度计算装置,包括:第一获取单元,用于获取待比较的两个文本中词义相同的共有成分;第二获取单元,用于获取所述共有成分在每个文本中的前接成分和后接成分;其中,所述前接成分为文本中,与所述共有成分相邻的前一个词;所述后接成分为文本中,与所述共有成分相邻的后一个词;第三获取单元,用于获取每个共有成分在每个文本中出现的次数T1和T2,以及,获取每个共有成分在两个文本中相同前接成分的数量C1相同后接成分的数量C2;第一计算单元,用于根据所述T1和T2,以及所述C1和C2,计算每个共有成分对文本相似度的贡献度;第二计算单元,用于根据对共有成分预设的权重和所述贡献度,计算两个文本的文本相似度。第三方面,本申请实施例提供了一种服务器,包括:存储器和处理器;所述存储器用于存储分类的已知同义词,以及,用于存储所述处理器可执行的程序;所述处理器被配置为执行以下程序步骤:获取待比较的两个文本中词义相同的共有成分;获取所述共有成分在每个文本中的前接成分和后接成分;其中,所述前接成分为文本中,与所述共有成分相邻的前一个词;所述后接成分为文本中,与所述共有成分相邻的后一个词;获取每个共有成分在每个文本中出现的次数T1和T2,以及,获取每个共有成分在两个文本中相同前接成分的数量C1相同后接成分的数量C2;根据所述T1和T2,以及所述C1和C2,计算每个共有成分对文本相似度的贡献度;根据对共有成分预设的权重和所述贡献度,计算两个文本的文本相似度。由以上技术方案可知,本申请实施例提供了一种文本相似度计算方法、装置及服务器。在计算文本相似度时,考虑到文本内容对相似度的影响,获取两个文本词义相同的共有成分;考虑到语序对相似度的影响,获取了共有成分在每个文本中的前接成分,并根据每个共有成分在每个文本中出现的次数T1和T2,以及每个共有成分在两个文本中相同前接成分的数量C1和相同后接成分的数量C2,然后,综合文本内容对相似度的影响和语序对相似度的影响,根据T1和T2、以及C1和C2得到每个共有成分对文本相似度的贡献度;最后,根据对共有成分预设的权重和相似度,计算文本相似度。从而,解决了现有技术中由于无法处理文本语序,导致计算中文文本相似度的准确度不理想的问题。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种文本相似度计算方法的流程图;图2为本申请实施例提供的一种文本相似度计算方法步骤S110的流程图;图3为本申请实施例提供的一种文本相似度计算方法步骤S112的流程图;图4为本申请实施例提供的另一种文本相似度计算方法步骤S110的流程图;图5为本申请实施例提供的另一种文本相似度计算方法的流程图;图6为本申请实施例提供的一种文本相似度计算装置的结构框图;图7为本申请实施例提供的一种服务器的结构框图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。实施例一为了解决现有技术中的文本相似度计算方法对依赖语序的中文语言的处理能力较弱,无法很好地处理语序问题,导致计算中文文本相似度的准确率不够理想的问题,本申请实施例提供了一种文本相似度计算方法。图1为本申请实施例提供的一种文本相似度计算方法的流程图。如图1所示,所述方法包括以下步骤:步骤S110,获取待比较的两个文本中词义相同的共有成分。本申请中,共有成分是指两个文本中具有相同词义的词或词组。共有成分可以相同的词或词组,也可以是同义词;也就是说,只要分别存在于两个文本中的两个词或词组在文本中的词义相同,那么,这两个词或词组就是两个文本的共有成分,两个文本具体可以是两个句子。例如,句子1为:它和我们一起,走进了移动互联网世界。句子2为:去中心化技术,将为我们打开一个全新的互联网世界。这两个句子中,都存在“我们”和“互联网世界”,因此“我们”和“互联网世界”均属于共有成分。例如:句子1为:请输入查询密码以查询您的额度。句子2为:您尾号为2333的信用卡的信用额度为10000元。在这两个句子中,句子1中的“额度”和句子2中的“信用额度”表达的意义相同,因此“额度”和“信用额度”作为同义词,属于共同有成分。此外,一些句子中,常会将一些组织机构的名称、专有名词等用英文缩写的方式表示,例如下表中的情况:中文词汇英文缩写世界贸易组织WTO美国国家航空航天局NASA中国男子职业篮球联赛CBA当中文的句子本文档来自技高网
...
一种文本相似度计算方法、装置及服务器

【技术保护点】
一种文本相似度计算方法,其特征在于,包括:获取待比较的两个文本中词义相同的共有成分;获取所述共有成分在每个文本中的前接成分和后接成分;其中,所述前接成分为文本中,与所述共有成分相邻的前一个词;所述后接成分为文本中,与所述共有成分相邻的后一个词;获取每个共有成分在每个文本中出现的次数T1和T2,以及,获取每个共有成分在两个文本中相同前接成分的数量C1相同后接成分的数量C2;根据所述T1和T2,以及所述C1和C2,计算每个共有成分对文本相似度的贡献度;根据对共有成分预设的权重和所述贡献度,计算两个文本的文本相似度。

【技术特征摘要】
1.一种文本相似度计算方法,其特征在于,包括:获取待比较的两个文本中词义相同的共有成分;获取所述共有成分在每个文本中的前接成分和后接成分;其中,所述前接成分为文本中,与所述共有成分相邻的前一个词;所述后接成分为文本中,与所述共有成分相邻的后一个词;获取每个共有成分在每个文本中出现的次数T1和T2,以及,获取每个共有成分在两个文本中相同前接成分的数量C1相同后接成分的数量C2;根据所述T1和T2,以及所述C1和C2,计算每个共有成分对文本相似度的贡献度;根据对共有成分预设的权重和所述贡献度,计算两个文本的文本相似度。2.根据权利要求1所述的方法,其特征在于,所述根据T1和T2,以及所述C1和C2,计算每个共有成分对文本相似度的贡献度,使用以下公式:其中,S为贡献度;Q1为前接成分和后接成分的贡献系数,Q2为所述共有成分的贡献系数,Q1+Q2=1;Tmin为T1和T2中的最小值。3.根据权利要求1所述的方法,其特征在于,所述根据对共有成分预设的权重和所述贡献度,计算两个文本的文本相似度,使用以下公式:其中,SIM(A1,A2)为两个文本A1和A2的文本相似度;S1~Sn为两个文本A1和A2的第1个~第n个共有成分的贡献度;W1~Wn为两个文本A1和A2的第1个~第n个共有成分的权重;N1为文本A1中包含的分词的数量,N2为文本A2中包含的分词的数量。4.根据权利要求1所述的方法,其特征在于,所述获取待比较的两个文本中词义相同的共有成分的步骤包括:根据词义对已知同义词建设同义词分类表,以及,对每个分类下的同义词统一设置词权重;当所述同义词为共有成分时,所述词权重为共有成分的权重;以已知同义词为最小分词单位,对待比较的文本进行分词;根据同义词分类表,遍历分词结果,获取两个待比较的文本的共有成分。5.根据权利要求4所述的方法,其特征在于,根据每个分类的已知同义词在...

【专利技术属性】
技术研发人员:任宁李德彦
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1