一种文本相似度计算方法、装置及电子设备制造方法及图纸

技术编号:20589106 阅读:17 留言:0更新日期:2019-03-16 07:13
本发明专利技术实施例公开了一种文本相似度计算方法、装置及电子设备。本发明专利技术实施例方法包括:获取原始文本和目标文本;确定原始文本和目标文本中相同词性的词语;确定原始文本和目标文本中的共同词项集合和并集词项集合;基于相同的词性、共同词项集合所述并集词项集合,计算原始文本和所述目标文本的文本相似度。本发明专利技术实施例中文本相似度是综合两个文本之间的词性和共同词项集合和并集词项集合计算出来的,相同词性越多、共同词项越多,则文本相似度越高,计算的文本相似度更加贴近实际,文本相似度计算更加准确。

【技术实现步骤摘要】
一种文本相似度计算方法、装置及电子设备
本专利技术涉及计算机
,特别涉及一种文本相似度计算方法、装置及电子设备。
技术介绍
相似度计算用于衡量对象之间的相似程度。在自然语言处理
,相似度计算一个基础性运算,被广泛应用于数据挖掘、数据分类、信息检索和信息采集等技术场景中。文本相似度计算是自然语言处理
中常涉及到的相似度计算类型,通过计算不同文本之间的相似度能够实现对大规模的文本语料进行聚类分析、文本匹配或去重处理等。现有技术中的文本相似度计算方法主要包括余弦相似度、编辑距离和基于神经网络语言模型的相似度计算方法。其中,余弦相似度方法对文本进行分词,并根据分词结果构造文本的特征向量,将特征向量之间的余弦相似度作为文本相似度;编辑距离是指两个文本之间,由一个转成另一个所需的最少编辑操作次数,许可的编辑操作包括将文本中的一个字符替换成另一个字符,插入一个字符或删除一个字符,最少编辑操作次数越少,则文本相似度越高;而神经网络语言模型的贡献是解决了传统的通过特征词向量计算文本相似度时出现的维度灾难问题。与一些外文语言不同,在中文语言中,语法和语义的表达较多地依赖语序而实现。因此,在计算中文文本相似度的时候,除了要考虑文本内容以外,还要考虑语序对语义的影响。但是,现有技术的文本相似度方法无论是构造特征向量还是计算编辑距离,都仅仅是计算文本在字符内容上的相似度,没有或很少地考虑到语序对语法和语义的影响,例如,在计算弹幕相似度时候,采用传统的Jaccard算法(编辑距离算法的一种),一般只考虑文本中相同词来计算文本相似度,没有考虑同类词之间的相关性,这就导致了现有技术中的文本相似度计算方法对依赖语序的中文语言的处理能力较弱,计算中文文本相似度的准确度还不够理想。
技术实现思路
本专利技术实施例提供了一种文本相似度计算方法、装置及电子设备,计算的文本相似度更加贴近实际,文本相似度计算更加准确。第一方面,本申请提供了一种文本相似度计算方法、装置及电子设备,该方法包括:获取原始文本和目标文本;确定所述原始文本和所述目标文本中相同词性的词语;确定所述原始文本和所述目标文本中的共同词项集合和并集词项集合;基于所述相同的词性、所述共同词项集合和所述并集词项集合,计算所述原始文本和所述目标文本的文本相似度。进一步的,所述获取原始文本和目标文本的步骤,包括:获取目标领域的目标语料;对所述目标语料进行分词,得到待计算文本;在所述待计算文本中选择原始文本和目标文本。进一步的,所述确定所述原始文本和所述目标文本中相同词性的词语的步骤,包括:对所述原始文本和所述目标文本进行分词和词性标注,并去除停用词;确定所述原始文本和所述目标文本中相同名词或动词词性的词语个数;确定所述原始文本和所述目标文本中非名词或动词词性的词语个数。进一步的,所述基于所述相同的词性、所述共同词项集合所述并集词项集合,计算所述原始文本和所述目标文本的文本相似度的步骤,包括:基于所述相同的词性,计算所述原始文本和所述目标文本的第一文本相似度;基于所述共同词项集合所述并集词项集合,计算所述原始文本和所述目标文本的第二文本相似度;根据所述第一文本相似度和所述第二文本相似度,计算所述原始文本和所述目标文本的文本相似度。进一步的,所述原始文本和所述目标文本的文本相似度为所述第一文本相似度和所述第二文本相似度之和。进一步的,所述基于所述相同的词性、所述共同词项集合所述并集词项集合,计算所述原始文本和所述目标文本的文本相似度的步骤采用如下公式:其中,posnv(A)∩posnv(B)表示所述原始文本和所述目标文本中含有相同名词或动词词性的词语个数;posother(A)∩posother(B)表示所述原始文本和所述目标文本中非名词或动词词性的词语个数;len(A)表示所述原始文本的长度,len(B)表示所述目标文本的长度;l1含有名词或者动词的权重,l2含有非名词或动词词性的权重;l1+l2=1;A∩B表示所述原始文本和所述目标文本中含有相同词项的个数;A∪B表示所述原始文本和所述目标文本中并集的词项个数;λ1表示词性在相似度计算中的权重;λ2表示共同词项在相似度计算中的权重;λ1+λ2=1。第二方面,本申请提供一种文本相似度计算装置,该装置包括:获取单元,用于获取原始文本和目标文本;第一确定单元,用于确定所述原始文本和所述目标文本中相同词性的词语;第二确定单元,用于确定所述原始文本和所述目标文本中的共同词项集合和并集词项集合;计算单元,用于基于所述相同的词性、所述共同词项集合和所述并集词项集合,计算所述原始文本和所述目标文本的文本相似度。进一步的,所述获取单元具体用于:获取目标领域的目标语料;对所述目标语料进行分词,得到待计算文本;在所述待计算文本中选择原始文本和目标文本。进一步的,所述计算单元具体用于:基于所述相同的词性,计算所述原始文本和所述目标文本的第一文本相似度;基于所述共同词项集合所述并集词项集合,计算所述原始文本和所述目标文本的第二文本相似度;根据所述第一文本相似度和所述第二文本相似度,计算所述原始文本和所述目标文本的文本相似度。进一步的,所述原始文本和所述目标文本的文本相似度为所述第一文本相似度和所述第二文本相似度之和。进一步的,所述计算单元具体采用如下公式计算所述原始文本和所述目标文本的文本相似度:其中,posnv(A)∩posnv(B)表示所述原始文本和所述目标文本中含有相同名词或动词词性的词语个数;posother(A)∩posother(B)表示所述原始文本和所述目标文本中非名词或动词词性的词语个数;len(A)表示所述原始文本的长度,len(B)表示所述目标文本的长度;l1含有名词或者动词的权重,l2含有非名词或动词词性的权重;l1+l2=1;A∩B表示所述原始文本和所述目标文本中含有相同词项的个数;A∪B表示所述原始文本和所述目标文本中并集的词项个数;λ1表示词性在相似度计算中的权重;λ2表示共同词项在相似度计算中的权重;λ1+λ2=1。第三方面,本专利技术还提供一种电子设备,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时可以实现第一方面中任一所述的方法。第四方面,本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一所述的方法。本专利技术实施例通过获取原始文本和目标文本;确定原始文本和目标文本中相同词性的词语;确定原始文本和目标文本中的共同词项集合和并集词项集合;基于相同的词性、共同词项集合所述并集词项集合,计算原始文本和所述目标文本的文本相似度。本专利技术实施例中文本相似度是综合两个文本之间的词性和共同词项集合和并集词项集合计算出来的,相同词性越多、共同词项越多,则文本相似度越高,计算的文本相似度更加贴近实际,文本相似度计算更加准确。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例中文本相似度计算方法的一个实施例示意图;图2本文档来自技高网
...

【技术保护点】
1.一种文本相似度计算方法,其特征在于,所述方法包括:获取原始文本和目标文本;确定所述原始文本和所述目标文本中相同词性的词语;确定所述原始文本和所述目标文本中的共同词项集合和并集词项集合;基于所述相同的词性、所述共同词项集合和所述并集词项集合,计算所述原始文本和所述目标文本的文本相似度。

【技术特征摘要】
1.一种文本相似度计算方法,其特征在于,所述方法包括:获取原始文本和目标文本;确定所述原始文本和所述目标文本中相同词性的词语;确定所述原始文本和所述目标文本中的共同词项集合和并集词项集合;基于所述相同的词性、所述共同词项集合和所述并集词项集合,计算所述原始文本和所述目标文本的文本相似度。2.根据权利要求1所述的文本相似度计算方法,其特征在于,所述获取原始文本和目标文本的步骤,包括:获取目标领域的目标语料;对所述目标语料进行分词,得到待计算文本;在所述待计算文本中选择原始文本和目标文本。3.根据权利要求1所述的文本相似度计算方法,其特征在于,所述确定所述原始文本和所述目标文本中相同词性的词语的步骤,包括:对所述原始文本和所述目标文本进行分词和词性标注,并去除停用词;确定所述原始文本和所述目标文本中相同名词或动词词性的词语个数;确定所述原始文本和所述目标文本中非名词或动词词性的词语个数。4.根据权利要求1所述的文本相似度计算方法,其特征在于,所述基于所述相同的词性、所述共同词项集合所述并集词项集合,计算所述原始文本和所述目标文本的文本相似度的步骤,包括:基于所述相同的词性,计算所述原始文本和所述目标文本的第一文本相似度;基于所述共同词项集合所述并集词项集合,计算所述原始文本和所述目标文本的第二文本相似度;根据所述第一文本相似度和所述第二文本相似度,计算所述原始文本和所述目标文本的文本相似度。5.根据权利要求1所述的文本相似度计算方法,其特征在于,所述原始文本和所述目标文本的文本相似度为所述第一文本相似度和所述第二文本相似度之和。6.根据权利要求1所述的文本相似度计算方法,其特征在于,所述基于所述相同的词性、所述共同词项集合所述并集词项集合,计算所述原始文本和所述目标文本的文本相似度的步骤采用如下公式:其中,posnv(A)∩posnv(B...

【专利技术属性】
技术研发人员:徐乐乐
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1