【技术实现步骤摘要】
文本相似度评估系统及文本相似度评估方法〖
〗本专利技术涉及电子信息及数据处理
,具体涉及一种文本相似度评估系统及文本相似度评估方法。〖
技术介绍
〗文本相似度计算是自然语言处理领域的一个重要的研究课题,根据计算方法的不同可分为基于字符的方法和基于语料库的方法。基于字符的方法主要从两个文本中相同的字符部分考虑相似度,它不考虑文本的语义信息,对无序的字符列表的判断是有效的,但是对文本的语言无效。基于语料库的方法则通过文本的上下文信息挖掘字符的语义信息来判断两个文本的相似度,这类研究主要的代表性工作有wordembdding等直接计算向量相似度的方法和siamesenetwork等构建模型去判断的方法。基于语料库的方法是当前研究的主流方向。基于语料库的方法近些年来发展很快,但是仍然面临着信息挖掘不充分的问题。在很多应用场景中会出现决定两个文本相似程度的关键信息只占文本成分的很小部分,现有的工作更多的是在挖掘全局的语义信息,通过全局的语义信息去判断文本的相似程度,显然并不精确。〖
技术实现思路
〗本专利技术的第一目的是提供一种文本相似度评估系统,旨在在孪生biLSTM网 ...
【技术保护点】
1.一种文本相似度评估系统,其特征在于,包括:语料获取模块,用于输入包含doc1_a和doc1_b两个文本的语料;分词模块,用于将所述文本doc1_a和所述文本doc1_b分别分割成X个词的词序列;词向量训练模块,用于对所述文本doc1_a和所述文本doc1_b分割的词序列进行向量化;孪生biLSTM网络模块,包括biLSTMa网络模块和biLSTMb网络模块,分别用于输入所述文本doc1_a和所述文本doc1_b的每一个词的词向量,对每一个词的词向量进行词级编码,输出所述文本doc1_a和所述文本doc1_b的每个词的编码信息Hai和Hbi,i取值1至X;注意力模块,分别 ...
【技术特征摘要】
1.一种文本相似度评估系统,其特征在于,包括:语料获取模块,用于输入包含doc1_a和doc1_b两个文本的语料;分词模块,用于将所述文本doc1_a和所述文本doc1_b分别分割成X个词的词序列;词向量训练模块,用于对所述文本doc1_a和所述文本doc1_b分割的词序列进行向量化;孪生biLSTM网络模块,包括biLSTMa网络模块和biLSTMb网络模块,分别用于输入所述文本doc1_a和所述文本doc1_b的每一个词的词向量,对每一个词的词向量进行词级编码,输出所述文本doc1_a和所述文本doc1_b的每个词的编码信息Hai和Hbi,i取值1至X;注意力模块,分别为所述编码信息Hai和Hbi提供正则化的权重ai和正则化的权重bi,其中∑ai=1,∑bi=1,并通过公式sa=∑ai*Hai计算得到所述文本doc1_a的注意力向量sa,通过公式sb=∑bi*Hbi计算得到所述文本doc1_b的注意力向量sb;相似概率计算模块,通过所述注意力向量sa和所述注意力向量sb计算所述文本doc1_a和所述文本doc1_b的相似概率p。2.根据权利要求1所述的文本相似度评估系统,其特征在于,所述语料的形式为:doc1_a,doc1_b,sim;其中sim为标签,sim=1表示所述文本doc1_a和文本doc1_b相似,sim=0表示所述文本doc1_a和所述文本doc1_b不相似。3.根据权利要求1所述的文本相似度评估系统,其特征在于,所述注意力模块包括:Tanh函数感知单元,通过公式uai=Tanh(W*Hai+b)对所述编码信息Hai进行计算并输出一个权值uai,通过公式ubi=Tanh(W*Hbi+b)对所述编码信息Hbi进行计算并输出一个权值ubi;softmax函数处理单元,通过公式ai=softmax(uai*uw)计算得到所述文本doc1_a当前词的所述正则化的权重ai,通过公式bi=softmax(ubi*uw)计算得到所述文本doc1_b当前词的所述正则化的权重bi;及加权求和单元,用于完成所述公式sa=∑ai*Hai的计算及所述公式sb=∑bi*Hbi的计算;其中W、uw、b为设定参数或经训练获得的参数。4.根据权利要求3所述的文本相似度评估系统,其特征在于,所述参数W、uw、b为经训练获得的参数;所述文本相似度评估系统还包括参数训练模块,所述参数训练模块通过设置损失函数并不断进行优化,直到所述损失函数收敛,从而确定所述参数W、uw、b。5.根据权利要求1所述的文本相似度评估系统,其特征在于,所述损失函数采用如下的logloss函数或采用均方误差函数,logloss函数如下:其中,N是测试样本总数,M是类的总数,yl,j是二值变量,取值0或1,表示第l个样本是...
【专利技术属性】
技术研发人员:郑权,徐泓洋,张峰,聂颖,
申请(专利权)人:龙马智芯珠海横琴科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。