【技术实现步骤摘要】
本专利技术涉及文本分析领域,特别涉及到一种基于语义特征的文本相似度分析方法。
技术介绍
随着计算机互联网络的飞速发展,文本相似度计算在许多领域有着广泛的应用。例如,在机器翻译中,语义相似度通过衡量参考译文与机器翻译输出结果的等价程度来估量机器翻译的质量。此外,在信息检索、情感分析、文本分类、文本聚类、自动问答、语义消歧等领域中文本相似度计算更是一项基础而又重要的工作。文本作为自然语言的载体,通常以一种非结构化或半结构化的形式存在,对其相似度的计算,则需要将非结构化的文本转化为便于计算机识别处理的结构化信息。迄今为止,文本相似度并没有一个统一的定义,都是根据具体模型给出的。传统的文本相似度计算模型主要可以分为三类:向量空间模型(vectorspacemodel,简称VSM)、广义向量空间模型(generalizedvectorspacemodel,简称GVSM)以及隐性语义索引模型(latentsemanticindexing,简称LSI)。向量空间模型借助索引来表示文本的内容,同时给予索引(即待选文本特征)一定的权重,以反映该索引分量对于文本内容的识别程度与价值。广义向量空间模型改善了VSM中文本特征词之间相互正交的假设,它利用文本而不是用词来表示词间关系。隐性语义索引模型LSI,又称潜在语义分析(latentsemanticanalysis,简称LSA),则扩充了广义向量空间模型,描述文本与文本之间的关系。然而,传统文本相似度模型需要大规模语料库,并且经常忽略文本中的语法和组织结构以及语义信息。VSM利用词袋(bag‐of‐words)模型来构建特征空 ...
【技术保护点】
一种基于语义特征的文本相似度分析方法,其特征在于,通过奇异值分解浅层分析文本之间以及词项之间的关联关系,借助贝叶斯网络构建词项‐主题集,用互信息以及上下文计算词项之间的语义相似度,最后通过图结构计算文本的相似度,来实现文本分析过程中最核心的文本间相似度的度量。
【技术特征摘要】
1.一种基于语义特征的文本相似度分析方法,其特征在于,通过奇异值分解浅层分析文本之间以及词项之间的关联关系,借助贝叶斯网络构建词项‐主题集,用互信息以及上下文计算词项之间的语义相似度,最后通过图结构计算文本的相似度,来实现文本分析过程中最核心的文本间相似度的度量。2.如权利要求1所述的方法,其特征在于,包括如下步骤:(1)文本特征的表示与度量:给定关于某专业领域的一组文档集合,通过自然语言处理预处理获取语料库中的有用信息,进而构成特征词集,特征词由文本中的名词和动词组成;而每个文本由一个特征词集和一个特征词对集来表示,文本之间相似度的度量将考虑这两方面的因素;(2)词对集构建:通过文本和特征词关联矩阵的奇异值分解,形成...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。