【技术实现步骤摘要】
本专利技术属于文本相似度度量方法
,特别是涉及一种。
技术介绍
随着网络信息的迅速发展,如何在海量的文本信息资源中快捷且准确地获取有用的信息已成为数据挖掘和信息检索
亟待解决的问题。文本相似度的度量可用于数据挖掘和信息检索
,如文本相似度计算是文本聚类、信息检索、自动问答中的关键步骤。目前,较为典型的文本相似度方法主要有基于语义理解和基于数理统计两种,但这两种方法都存在的问题是:没有考虑词汇对文本相似度度量所具有作用与地位。因此,度量的准确性不高。
技术实现思路
本专利技术提供了一种,其用于数据挖掘和信息检索过程中,将文本转化为语义关系网络以提取文本特征,并最终转化为二分图以实现文本相似度的计算,极大地提高了计算结果的准确程度。为了实现上述目的,本专利技术公开了,其按如下步骤进行:一、输入两个文本并对这两个文本进行预处理,预处理的结果为词汇的集合;二、计算所述两个文本预处理结果的词汇语义相似度,并根据计算结果分别构建语义关系网络;三、分别计算语义关系网络中每个节点的流介数值,获得两个文本的特征集合;四、根据两个文本的特征集合构建二分图,并设置二分图 ...
【技术保护点】
基于语义分析和语义关系网络的文本相似度度量方法,其特征是按如下步骤进行:一、输入两个文本并对这两个文本进行预处理,预处理的结果为词汇的集合;二、计算所述两个文本预处理结果的词汇语义相似度,并根据计算结果分别构建语义关系网络;三、分别计算语义关系网络中每个节点的流介数值,获得两个文本的特征集合;四、根据两个文本的特征集合构建二分图,并设置二分图两部分之间的路径权值;五、利用二分图最优匹配法得到两个文本之间的相似度。
【技术特征摘要】
1.关于语义分析和语义关系网络的文本相似度度量方法,其特征是按如下步骤进行: 一、输入两个文本并对这两个文本进行预处理,预处理的结果为词汇的集合; 二、计算所述两个文本预处理结果的词汇语义相似度,并根据计算结果分别构建语义关系网络; 三、分别计算语义关系网络中每个节点的流介数值,获得两个文本的特征集合; 四、根据两个文本的特征集合构建二分图,并设置二分图两部分之间的路径权值; 五、利用二分图最优匹配法得到两个文本之间的相似度。2.根据权利要求1所述基于语义分析和语义关系网络的文本相似度度量方法,其特征在于,步骤一,预处理包括中文分词和去除停用词。3.根据权利要求1所述基于语义分析和语义关系网络的文本相似度度量方法,其特征在于,步骤二,构建语义关系网络的节点由步骤一预处理的结果组成,构建语义关系网络的边的权值由步骤二的词汇语义相似度计算得到,表示为w(i,j),i和j为步骤一预处理结果中的不同词汇,w(i,j)的计算式如下:w(i, j)=l-sim(i, j)1:预处理结果中的一个词汇;j:预处理结果中的另一个词汇;sim(i, j):两个词汇的语义相似度。4.根据权利要求书I或3所述基于语义分析和语义关系网络...
【专利技术属性】
技术研发人员:吴国华,尤金朋,张祯,王玉娟,邵根富,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。