【技术实现步骤摘要】
基于多特征融合的文本相似度计算方法
本专利技术涉及自然语言处理
,特别涉及一种基于多特征融合的文本相似度计算方法。
技术介绍
跨语言文本相似度计算是量化不同语言文档之间的相似程度,是互联网新闻可比语料挖掘系统中十分重要的一个模块;另外在文本分类、信息检索、文本摘要自动生成、情感分析等领域,文本相似度计算也有着广泛的应用基础。目前,跨语言文本相似度计算常用的方法主要有基于机器翻译、基于多语言词典和基于平行语料库等方法。基于机器翻译的跨语言文本相似度计算方法将机器翻译技术和单语文本相似度计算技术结合来实现不同语言文本的相似度度量,它首先将两种不同的语言翻译成同一种中间语言,然后在中间语言向量空间中进行不同语言文本之间的相似度计算,这种方法简单直接,但是该方法严重的依赖于机器翻译系统性能。目前,机器翻译的性能与人工翻译的效果还有很大的差距,尤其是像汉蒙这样具有少量的平行语料对的语言对。因此,该方法只适用于机器翻译性能较好的语言对之间,普适性不强。基于多语言词典的跨语言文本相似度计算方法利用多语言词典统计两篇不同语言文档中的互相翻译的词语数量来计算双语文档的相似度, ...
【技术保护点】
1.一种基于多特征融合的文本相似度计算方法,其特征在于:包括以下步骤:(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度;(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。
【技术特征摘要】
1.一种基于多特征融合的文本相似度计算方法,其特征在于:包括以下步骤:(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度;(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。2.如权利要求1所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的源语言文档和目标语言文档为新闻,步骤A中,计算源语言文档和目标语言文档的正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及日期相似度和正文相似度。3.如权利要求1所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的步骤A中,计算源语言文档和目标语言文档的日期相似度Sdd、正文长度相似度Sdl、正文中阿拉伯数字相似度SN、标题相似度ST以及正文相似度SC;所述的步骤B中,按以下公式计算两个文档的相似度Sim:Sim=Wdd*Sdd+Wdl*Sdl+Wsn*SN+Wst*ST+Wsc*SC;其中,Wdd,Wdl,Wsn,Wst,Wsc为各相似度的加权值,且Wdd+Wdl+Wsn+Wst+Wsc=1。4.如权利要求3所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的步骤A中,按以下公式计算日期相似度Sdd:式中,DS和DT分别表示源语言和目标语言的发布时间,α是平滑因子。5.如权利要求3所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的步骤A中,按以下公式计算正文长度相似度Sdl:式中,len(CS)和len(CT)分别表示源语言和目标语言的文本长度,β是长度关系阈值,γ是斜率控制值。6.如权利要求3所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的...
【专利技术属性】
技术研发人员:高翊,冯韬,李淼,胡泽林,曹宜超,付莎,李华龙,杨选将,刘先旺,郭盼盼,曾伟辉,
申请(专利权)人:中国科学院合肥物质科学研究院,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。