【技术实现步骤摘要】
一种基于Word2Vec的中文语句相似度计算方法
本专利技术涉及自然语言处理
,尤其涉及一种中文语句相似度计算方法。
技术介绍
句子相似度计算是文本信息处理中一项很重要的基础研究工作,该技术广泛应用于文本摘要、自动问答系统和机器翻译中。这些应用系统的准确性极大程度上取决于句子相似度计算的准确性。因此,提高句子相似度计算的准确性是当前研究要解决的首要问题。统计语言模型现已成为自然语言处理研究领域的主流,但以往自然语言处理领域的统计学习方法大多属于浅层模型,对数据的表示学习能力较弱,相似度的计算是基于表层特征,如候选答案的词频、查询词和候选答案的距离,而表层特征没有考虑语法、语义的因素,特别是词相同,但词语不同的情况。随着深度学习在语音和图像领域上表现出优异的表示学习能力,尤其是Word2Vec模型的提出,使词向量的表示更加准确,基于句法语义分析方法的出现也弥补了表层特征的不足。在先申请“一种基于词向量的句子相似度比较方法”(申请号:201711273188.7)公开了一种基于词向量的句子相似度比较方法,先构建句子成分向量树,然后通过softpartialtre ...
【技术保护点】
1.一种基于Word2Vec的中文语句相似度计算方法,该方法包括:S1.1,通过Word2Vec训练一中文语料库,得到词向量模型;S1.2,通过爬虫软件爬取网上语料,创建问题模板;S1.3,对用户输入的问题Q和问题模板中的一个问题A进行分词,词性分析以及句法分析;S1.4,将用户输入的问题Q与问题模板中的该问题A通过词向量模型进行匹配计算,获得用户输入的问题Q与问题模板中的该问题A之间的相似度调节系数score1和语义相似度score2;S1.5,通过相似度调节系数score1和语义相似度score2计算获得用户输入的问题Q与问题模板中该问题A的语句相似度score,所述语 ...
【技术特征摘要】
1.一种基于Word2Vec的中文语句相似度计算方法,该方法包括:S1.1,通过Word2Vec训练一中文语料库,得到词向量模型;S1.2,通过爬虫软件爬取网上语料,创建问题模板;S1.3,对用户输入的问题Q和问题模板中的一个问题A进行分词,词性分析以及句法分析;S1.4,将用户输入的问题Q与问题模板中的该问题A通过词向量模型进行匹配计算,获得用户输入的问题Q与问题模板中的该问题A之间的相似度调节系数score1和语义相似度score2;S1.5,通过相似度调节系数score1和语义相似度score2计算获得用户输入的问题Q与问题模板中该问题A的语句相似度score,所述语句相似度score、相似度调节系数score1和语义相似度score2满足公式:score=a1*score1+a2*score2,其中a1+a2=1;S1.6,重复上述步骤S1.3-S1.5,遍历问题模板库中的所有问题,得到用户输入问题Q与问题模板中所有问题的语句相似度score;S1.7,从问题模板中选择与用户输入的问题Q语句相似度score值最大的问题的答案推送给用户。2.根据权利要求1所述的计算方法,其特征在于:所述步骤S1.1中的中文语料库采用的是维基百科的中文语料。3.根据权利要求1所述的计算方法,其特征在于,所述步骤S1.3中先使用LTP句法分析器对问题Q和问题A对应的中文语句做预处理,具体包括如下步骤:S1.3.1,使用LTP句法分析器中的分词模型对所述中文语句进行分词,过滤停用词以及去除无意义词语的操作;S1.3.2,根据分词的结果,使用LTP句法分析器中的词性标注模型对分词后的词语进行词性标注;S1.3.3,根据词性标注的结果,使用LTP句法分析器中的依存句法分析模型对标注词性后的句子进行依存句法分析,得到语义依存树。4.根据权利要求1所述的计算方法,其特征在于,所述步骤S1.4中相似度调节系数s...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。