一种基于bootstrapping的文本相似度计算方法技术

技术编号:22467612 阅读:50 留言:0更新日期:2019-11-06 11:26
本发明专利技术公开一种基于bootstrapping的文本相似度计算方法,它包括:计算词的逆向文档频率作为词权重的初始值;依据逆向文档频率选择初始核心词表;计算文本中词的共现矩阵;根据bootstrapping算法,计算候选词和初始核心词的相关度作为更新权重的系数;根据词向量V、词权重W和词性权值F来计算句向量。采用本发明专利技术的技术方案,可以显著提高短文本的相似度计算。

A text similarity calculation method based on Bootstrapping

【技术实现步骤摘要】
一种基于bootstrapping的文本相似度计算方法
本专利技术涉及一种词权重的计算方法,尤其是一种基于bootstrapping的文本相似度计算方法。
技术介绍
在当今的信息互联网时代,大量的文本信息需要经过加工处理才能有效利用。因此,自然语言处理领域不断发展起来。在自然语言处理中将文本分词并用词权重来表示,生成向量空间模型是常见处理方式。目前在词权重的计算方法上已经提出了很多有效的方法,其中使用tfidf作为词权重是最常使用的方法之一。bootstarpping算法是在统计学的基础上,利用有限的样本进行重复采样的过程。每迭代一次就会产生新的样本,来抽取与初始样本相似的新样本。词向量是指通过对语料中的分词进行统计,将每个词映射到一个多维的富含上文信息的向量空间中。词向量的维度可以根据具体的任务来设置,便于将文本信息转化为可计算的数值信息,对自然语言处理有着重要的作用。
技术实现思路
为解决传统的idf仅是从词频上判别分词的权重,而忽视了词汇之间关联的不足,本专利技术提供一种基于bootstrapping的文本相似度计算方法,用来优化idf词权重以提高文本相似度。为实现上述目的,本专利本文档来自技高网...

【技术保护点】
1.一种基于bootstrapping的文本相似度计算方法,其特征在于,它包括以下步骤:步骤一,计算词的逆向文档频率作为词权重的初始值;步骤二,依据逆向文档频率选择初始核心词表;步骤三,计算文本中词的共现矩阵;步骤四,根据bootstrapping算法,计算候选词和初始核心词的相关度作为更新权重的系数;步骤五,根据词向量V、词权重W和词性权值F来计算句向量。

【技术特征摘要】
1.一种基于bootstrapping的文本相似度计算方法,其特征在于,它包括以下步骤:步骤一,计算词的逆向文档频率作为词权重的初始值;步骤二,依据逆向文档频率选择初始核心词表;步骤三,计算文本中词的共现矩阵;步骤四,根据bootstrapping算法,计算候选词和初始核心词的相关度作为更新权重的系数;步骤五,根据词向量V、词权重W和词性权值F来计算句向量。2.根据权利要求1所述的基于bootstrapping的文本相似度计算方法,其特征在于,所述步骤一中词权重是用代表文本中的词以一个数值来表示,生成文本的实数值向量。3.根据权利要求1所述的基于bootstrapping的文本相似度计算方法,其特征在于,所述步骤四中相关度的计算公式如下:其中,Si是指初始核心词表S中第i个词,Rj是指候选词表R中第j个词,F(Si,Rj)是指初始核心词...

【专利技术属性】
技术研发人员:王清琛杜振东
申请(专利权)人:南京云问网络技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1