当前位置: 首页 > 专利查询>同济大学专利>正文

一种文本语义相似度分析方法技术

技术编号:14898786 阅读:86 留言:0更新日期:2017-03-29 13:56
一种文本语义相似度分析方法。本发明专利技术涉及文本分析领域,特别涉及到一种基于语义特征的文本相似度分析方法。本发明专利技术的技术方案是利用文本内部词汇内在的语义联系进行计算,以达到更加准确有效地分析文本之间的相似程度。该方法通过奇异值分解浅层分析文本之间以及词项之间的关联关系,借助贝叶斯网络构建词项‐主题集,用互信息以及上下文计算词项之间的语义相似度,最后通过图结构计算文本的相似度。本发明专利技术能够更加准确有效地度量和识别文本之间的语义关系。

【技术实现步骤摘要】

本专利技术涉及文本分析领域,特别涉及到一种基于语义特征的文本相似度分析方法。
技术介绍
随着计算机互联网络的飞速发展,文本相似度计算在许多领域有着广泛的应用。例如,在机器翻译中,语义相似度通过衡量参考译文与机器翻译输出结果的等价程度来估量机器翻译的质量。此外,在信息检索、情感分析、文本分类、文本聚类、自动问答、语义消歧等领域中文本相似度计算更是一项基础而又重要的工作。文本作为自然语言的载体,通常以一种非结构化或半结构化的形式存在,对其相似度的计算,则需要将非结构化的文本转化为便于计算机识别处理的结构化信息。迄今为止,文本相似度并没有一个统一的定义,都是根据具体模型给出的。传统的文本相似度计算模型主要可以分为三类:向量空间模型(vectorspacemodel,简称VSM)、广义向量空间模型(generalizedvectorspacemodel,简称GVSM)以及隐性语义索引模型(latentsemanticindexing,简称LSI)。向量空间模型借助索引来表示文本的内容,同时给予索引(即待选文本特征)一定的权重,以反映该索引分量对于文本内容的识别程度与价值。广义向量空间模型改善了VSM中文本特征词之间相互正交的假设,它利用文本而不是用词来表示词间关系。隐性语义索引模型LSI,又称潜在语义分析(latentsemanticanalysis,简称LSA),则扩充了广义向量空间模型,描述文本与文本之间的关系。然而,传统文本相似度模型需要大规模语料库,并且经常忽略文本中的语法和组织结构以及语义信息。VSM利用词袋(bag‐of‐words)模型来构建特征空间,将每个文本转化为一个向量,该模型在特征匹配中通常采用“硬匹配”方法,无法解决“一义多词”和“一词多义”问题。LSI虽然利用词汇共现情况来获得词汇的潜在语义相关度,弥补了VSM模型的不足,但也存在一些缺陷。首先矩阵奇异值分解的复杂度很高,其次潜在语义模型考虑的并不是真实的语义关系,而是利用词汇共现获得的潜在语义,并不能真实反应文本中词汇的语义关系。基于语义分析的文本相似度计算则是利用文本内部词汇内在的语义联系进行计算。自然语言处理中最重要的挑战之一是语言的变异性,即具有相同意义的文本可以有几种不同的表达方式,因此自然语言处理技术需要识别这些不同表现形式的相关性。语义相似度度量是处理语言变异的一个方法。例如,在文本摘要(textsummarization)中,语义相似度作为一个度量标准,从完整段落中选择一个句子作为总结。语义相似性问题定义为度量和识别文本之间的语义关系。
技术实现思路
本专利技术要解决的技术问题是提供一种基于语义特征的文本相似度分析方法,利用文本内部词汇内在的语义联系进行计算,以达到更加准确有效地分析文本之间的相似程度。为达到上述专利技术目的,本专利技术提出一种基于语义特征的文本相似度分析方法,其特征在于,通过奇异值分解浅层分析文本之间以及词项之间的关联关系,借助贝叶斯网络构建词项‐主题集,用互信息以及上下文计算词项之间的语义相似度,最后通过图结构计算文本的相似度,来实现文本分析过程中最核心的文本间相似度的度量。本专利技术是通过下述技术方案实现的:包括如下步骤:(1)文本特征的表示与度量。给定关于某专业领域的一组文档集合,通过自然语言处理等预处理技术,获取语料库中的有用信息,进而构成特征词集,特征词由文本中的名词和动词组成。而每个文本由一个特征词集和一个特征词对集来表示,文本之间相似度的度量将考虑这两方面的因素。(2)词对集构建。通过文本和特征词关联矩阵的奇异值分解,形成文本、主题和特征词之间的关联关系图,这个关系图可以用贝叶斯网络来描述;然后用关联规则FpGrowth算法提取频繁项集作为词对集,并根据贝叶斯网络描述的文本‐主题‐特征词关系,构建词对‐主题集。(3)词集相似度匹配。如果以传统的词袋模型直接计算词集相似度,会忽略文本中重要的语义信息。因此,以文本预处理结果中的特征词为节点,特征词共现关系为边,将文本转化为图结构表示。这种文本图将通过词汇之间的关联关系揭示词汇在文本中的语义地位。(4)词对集相似度匹配。通过基于词对‐主题集组成的贝叶斯网络,将两个文本表示为两个独立的主题集合,利用二部图模型来描述,并通过匈牙利算法找到最大权值二部匹配,计算这两个文本之间的相关性。在上述方法中,所述步骤(1)中,设文本集D={d1,…,dN本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201610955776.html" title="一种文本语义相似度分析方法原文来自X技术">文本语义相似度分析方法</a>

【技术保护点】
一种基于语义特征的文本相似度分析方法,其特征在于,通过奇异值分解浅层分析文本之间以及词项之间的关联关系,借助贝叶斯网络构建词项‐主题集,用互信息以及上下文计算词项之间的语义相似度,最后通过图结构计算文本的相似度,来实现文本分析过程中最核心的文本间相似度的度量。

【技术特征摘要】
1.一种基于语义特征的文本相似度分析方法,其特征在于,通过奇异值分解浅层分析文本之间以及词项之间的关联关系,借助贝叶斯网络构建词项‐主题集,用互信息以及上下文计算词项之间的语义相似度,最后通过图结构计算文本的相似度,来实现文本分析过程中最核心的文本间相似度的度量。2.如权利要求1所述的方法,其特征在于,包括如下步骤:(1)文本特征的表示与度量:给定关于某专业领域的一组文档集合,通过自然语言处理预处理获取语料库中的有用信息,进而构成特征词集,特征词由文本中的名词和动词组成;而每个文本由一个特征词集和一个特征词对集来表示,文本之间相似度的度量将考虑这两方面的因素;(2)词对集构建:通过文本和特征词关联矩阵的奇异值分解,形成...

【专利技术属性】
技术研发人员:王俊丽周晴杨亚星
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1