基于多特征融合的文本相似度计算方法技术

技术编号：21141302 阅读：34 留言：0更新日期：2019-05-18 05:13

本发明专利技术涉及自然语言处理技术领域，特别涉及一种基于多特征融合的文本相似度计算方法，包括以下步骤：(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度；(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。根据文档的特点，在比较文档正文相似度的基础上还进行其他特征的比对，然后通过加权线性组合的方式得到文本相似度并对其进行排序，选择相似度最大的可比语料对加入到可比语料库中，该方法无需平行语料库和跨语言词典，因此其泛化能力较强，可以适用于多种不同语言的跨语言文本相似度计算。

全部详细技术资料下载

【技术实现步骤摘要】
基于多特征融合的文本相似度计算方法
本专利技术涉及自然语言处理
，特别涉及一种基于多特征融合的文本相似度计算方法。
技术介绍
跨语言文本相似度计算是量化不同语言文档之间的相似程度，是互联网新闻可比语料挖掘系统中十分重要的一个模块；另外在文本分类、信息检索、文本摘要自动生成、情感分析等领域，文本相似度计算也有着广泛的应用基础。目前，跨语言文本相似度计算常用的方法主要有基于机器翻译、基于多语言词典和基于平行语料库等方法。基于机器翻译的跨语言文本相似度计算方法将机器翻译技术和单语文本相似度计算技术结合来实现不同语言文本的相似度度量，它首先将两种不同的语言翻译成同一种中间语言，然后在中间语言向量空间中进行不同语言文本之间的相似度计算，这种方法简单直接，但是该方法严重的依赖于机器翻译系统性能。目前，机器翻译的性能与人工翻译的效果还有很大的差距，尤其是像汉蒙这样具有少量的平行语料对的语言对。因此，该方法只适用于机器翻译性能较好的语言对之间，普适性不强。基于多语言词典的跨语言文本相似度计算方法利用多语言词典统计两篇不同语言文档中的互相翻译的词语数量来计算双语文档的相似度，它是将两篇文档中的互译词词向量作为特征值，然后进行文本相似度计算，但是该方法需要高质量的跨语言词典。当跨语言词典中词汇的数量较少或者质量较差时，该方法的性能会急剧下降。且该方法中使用互译的词汇作为相似度计算的基本单元，这种方式有两个缺点：其一，在句子中有许多无意义的助词，如“的”，“吧”等，这类词语会严重的干扰跨语言相似度的计算；其二，孤立的、单个词的词汇无法充分的表示句子的含义，这样会造成相似度...

【技术保护点】
1.一种基于多特征融合的文本相似度计算方法，其特征在于：包括以下步骤：(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度；(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。

【技术特征摘要】
1.一种基于多特征融合的文本相似度计算方法，其特征在于：包括以下步骤：(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度；(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。2.如权利要求1所述的基于多特征融合的文本相似度计算方法，其特征在于：所述的源语言文档和目标语言文档为新闻，步骤A中，计算源语言文档和目标语言文档的正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及日期相似度和正文相似度。3.如权利要求1所述的基于多特征融合的文本相似度计算方法，其特征在于：所述的步骤A中，计算源语言文档和目标语言文档的日期相似度Sdd、正文长度相似度Sdl、正文中阿拉伯数字相似度SN、标题相似度ST以及正文相似度SC；所述的步骤B中，按以下公式计算两个文档的相似度Sim：Sim＝Wdd*Sdd+Wdl*Sdl+Wsn*SN+Wst*ST+Wsc*SC；其中，Wdd，Wdl，Wsn，Wst，Wsc为各相似度的加权值，且Wdd+Wdl+Wsn+Wst+Wsc＝1。4.如权利要求3所述的基于多特征融合的文本相似度计算方法，其特征在于：所述的步骤A中，按以下公式计算日期相似度Sdd：式中，DS和DT分别表示源语言和目标语言的发布时间，α是平滑因子。5.如权利要求3所述的基于多特征融合的文本相似度计算方法，其特征在于：所述的步骤A中，按以下公式计算正文长度相似度Sdl：式中，len(CS)和len(CT)分别表示源语言和目标语言的文本长度，β是长度关系阈值，γ是斜率控制值。6.如权利要求3所述的基于多特征融合的文本相似度计算方法，其特征在于：所述的...

【专利技术属性】
技术研发人员：高翊，冯韬，李淼，胡泽林，曹宜超，付莎，李华龙，杨选将，刘先旺，郭盼盼，曾伟辉，
申请(专利权)人：中国科学院合肥物质科学研究院，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人