基于多特征融合的文本相似度计算方法技术

技术编号:21141302 阅读:34 留言:0更新日期:2019-05-18 05:13
本发明专利技术涉及自然语言处理技术领域,特别涉及一种基于多特征融合的文本相似度计算方法,包括以下步骤:(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度;(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。根据文档的特点,在比较文档正文相似度的基础上还进行其他特征的比对,然后通过加权线性组合的方式得到文本相似度并对其进行排序,选择相似度最大的可比语料对加入到可比语料库中,该方法无需平行语料库和跨语言词典,因此其泛化能力较强,可以适用于多种不同语言的跨语言文本相似度计算。

【技术实现步骤摘要】
基于多特征融合的文本相似度计算方法
本专利技术涉及自然语言处理
,特别涉及一种基于多特征融合的文本相似度计算方法。
技术介绍
跨语言文本相似度计算是量化不同语言文档之间的相似程度,是互联网新闻可比语料挖掘系统中十分重要的一个模块;另外在文本分类、信息检索、文本摘要自动生成、情感分析等领域,文本相似度计算也有着广泛的应用基础。目前,跨语言文本相似度计算常用的方法主要有基于机器翻译、基于多语言词典和基于平行语料库等方法。基于机器翻译的跨语言文本相似度计算方法将机器翻译技术和单语文本相似度计算技术结合来实现不同语言文本的相似度度量,它首先将两种不同的语言翻译成同一种中间语言,然后在中间语言向量空间中进行不同语言文本之间的相似度计算,这种方法简单直接,但是该方法严重的依赖于机器翻译系统性能。目前,机器翻译的性能与人工翻译的效果还有很大的差距,尤其是像汉蒙这样具有少量的平行语料对的语言对。因此,该方法只适用于机器翻译性能较好的语言对之间,普适性不强。基于多语言词典的跨语言文本相似度计算方法利用多语言词典统计两篇不同语言文档中的互相翻译的词语数量来计算双语文档的相似度,它是将两篇文档中的互译词词向量作为特征值,然后进行文本相似度计算,但是该方法需要高质量的跨语言词典。当跨语言词典中词汇的数量较少或者质量较差时,该方法的性能会急剧下降。且该方法中使用互译的词汇作为相似度计算的基本单元,这种方式有两个缺点:其一,在句子中有许多无意义的助词,如“的”,“吧”等,这类词语会严重的干扰跨语言相似度的计算;其二,孤立的、单个词的词汇无法充分的表示句子的含义,这样会造成相似度计算的准确率下降。基于平行语料库的跨语言相似度计算方法,主要利用平行语料的语义相似性,将平行语句分别映射到各自的词向量空间,然后根据平行语句的词向量进行相似度计算,但是这种方法需要大量的平行语料库。平行语料库的构建费事耗力,需要人工进行校对,大多数语言对的平行语料库的数量是很少的甚至不存在平行语料库。因此,该方法在实际应用中的可行性不高。
技术实现思路
本专利技术的目的在于提供一种基于多特征融合的文本相似度计算方法,容错率和准确度都非常高。为实现以上目的,本专利技术采用的技术方案为:一种基于多特征融合的文本相似度计算方法,包括以下步骤:(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度;(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。与现有技术相比,本专利技术存在以下技术效果:根据文档的特点,在比较文档正文相似度的基础上还进行其他特征的比对,然后通过加权线性组合的方式得到文本相似度并对其进行排序,选择相似度最大的可比语料对加入到可比语料库中,该方法无需平行语料库和跨语言词典,因此其泛化能力较强,可以适用于多种不同语言的跨语言文本相似度计算。附图说明图1是本专利技术的流程示意图。具体实施方式下面结合图1,对本专利技术做进一步详细叙述。参阅图1,一种基于多特征融合的文本相似度计算方法,包括以下步骤:(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度;(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。根据文档的特点,在比较文档正文相似度的基础上还进行其他特征的比对,本实施例中,其他特征包括日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种,然后通过加权线性组合的方式得到文本相似度并对其进行排序,选择相似度最大的可比语料对加入到可比语料库中,该方法无需平行语料库和跨语言词典,因此其泛化能力较强,可以适用于多种不同语言的跨语言文本相似度计算。在实际选择时,可以根据需要选择合适的特征。该步骤A中,包括很多方案:正文相似度和其他任一特征的组合;正文相似度和其他任意二个特征的组合;正文相似度和其他任意三个特征的组合;正文相似度和所有特征的组合,这些方案都是可行的,这里就不再一一阐述。优选地,所述的源语言文档和目标语言文档为新闻,对于新闻文档来说,其发布日期是很重要的,一般来说,相同的新闻文档,不论何种语言,其发布日期的时间差都不会相隔太远,故本专利技术中优选地,步骤A中,计算源语言文档和目标语言文档的正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及日期相似度和正文相似度。这里只是以新闻文档进行举例,对于不同的文档,日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中,有些特征影响大,有些特征影响小或基本没有影响,根据实际的需求来选择合适的特征组合即可。为了进一步详细的对本专利技术进行详细说明,下面以网页新闻文档为例,列出五个相似度计算的具体方案。本专利技术中优选地,所述的步骤A中,计算源语言文档和目标语言文档的日期相似度Sdd、正文长度相似度Sdl、正文中阿拉伯数字相似度SN、标题相似度ST以及正文相似度SC;所述的步骤B中,按以下公式计算两个文档的相似度Sim:Sim=Wdd*Sdd+Wdl*Sdl+Wsn*SN+WST*ST+Wsc*SC;其中,Wdd,Wdl,Wsn,Wst,Wsc为各相似度的加权值,且Wdd+Wdl+Wsn+Wst+Wsc=1。各相似度的加权值要根据该相似度对总的相似度的贡献比例来进行设置,可以预先设定好。这样在计算源语言文档和目标语言文档相似度的时候,只需要计算日期相似度Sdd、正文长度相似度Sdl、正文中阿拉伯数字相似度SN、标题相似度ST以及正文相似度SC然后代入以上公式中即可。优选地,所述的步骤A中,按以下公式计算日期相似度Sdd:式中,DS和DT分别表示源语言和目标语言的发布时间,α=1是平滑因子。不同语言新闻对同一事件的描述往往在事件发生后的一段时间内,新闻可比语料文档对的发布日期应临近,因此可将日期差异转化为源语言和目标语言新闻发布日期的相似度。优选地,所述的步骤A中,按以下公式计算正文长度相似度Sdl:式中,len(CS)和len(CT)分别表示源语言和目标语言的文本长度,β是长度关系阈值,γ是斜率控制值,防止DL有微小变化时Sdl变化过大,这里可以取γ=10。可比语料的不同语言文档对同一件事的描述应该基本一致,对于任意两种语言,长度关系阈值β都可以预先设定好,以蒙语和汉语为例,蒙汉文本的内容长度比约为3.5。若两种语言间未设定长度关系阈值β,我们也可以按照如下步骤计算出长度关系阈值β:(S1)选择若干篇源语言文本,并计算每篇源语言文本的长度len(CS)i;(S2)将源语言文本翻译成目标语言文本,并计算每篇目标语言文本的长度len(CT)i;(S3)计算每篇文本的源语言文本长度和目标语言文本长度比值得到βi=len(CS)i/len(CT)i;(S4)对所有的βi求平均值即得到该源语言和目标语言长度关系阈值β。比如,对于蒙语来说,首先可以选择100篇蒙语文本,然后将这100篇蒙语文本翻译成汉语,然后分别计算出蒙语和汉语文本的长度,最后分别计算出每篇文章的长度比值,再求平均值即可得到蒙语和汉语的长度关系阈值β。当然,在计算时,可以同时翻译成多种语言,同时计算出蒙语和其他所有语言的长度关系阈值β。优选地,所述的步骤本文档来自技高网
...

【技术保护点】
1.一种基于多特征融合的文本相似度计算方法,其特征在于:包括以下步骤:(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度;(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。

【技术特征摘要】
1.一种基于多特征融合的文本相似度计算方法,其特征在于:包括以下步骤:(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度;(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。2.如权利要求1所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的源语言文档和目标语言文档为新闻,步骤A中,计算源语言文档和目标语言文档的正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及日期相似度和正文相似度。3.如权利要求1所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的步骤A中,计算源语言文档和目标语言文档的日期相似度Sdd、正文长度相似度Sdl、正文中阿拉伯数字相似度SN、标题相似度ST以及正文相似度SC;所述的步骤B中,按以下公式计算两个文档的相似度Sim:Sim=Wdd*Sdd+Wdl*Sdl+Wsn*SN+Wst*ST+Wsc*SC;其中,Wdd,Wdl,Wsn,Wst,Wsc为各相似度的加权值,且Wdd+Wdl+Wsn+Wst+Wsc=1。4.如权利要求3所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的步骤A中,按以下公式计算日期相似度Sdd:式中,DS和DT分别表示源语言和目标语言的发布时间,α是平滑因子。5.如权利要求3所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的步骤A中,按以下公式计算正文长度相似度Sdl:式中,len(CS)和len(CT)分别表示源语言和目标语言的文本长度,β是长度关系阈值,γ是斜率控制值。6.如权利要求3所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的...

【专利技术属性】
技术研发人员:高翊冯韬李淼胡泽林曹宜超付莎李华龙杨选将刘先旺郭盼盼曾伟辉
申请(专利权)人:中国科学院合肥物质科学研究院
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1