一种基于注意力的语义文本相似度计算方法技术

技术编号:26763962 阅读:100 留言:0更新日期:2020-12-18 23:32
本发明专利技术公开了一种基于注意力的语义文本相似度计算方法,包括:步骤一:对数据集中的每一对文本对进行预处理,从而得到对应的文本数据样本;步骤二:将所有样本分为训练集和验证集,搭建神经网络并利用训练集样本对该神经网络进行训练,得到用于语义文本相似度计算的网络模型;步骤三:将待计算的文本对经预处理后输入网络模型中,即可得到该文本对的语义相似度计算结果。本发明专利技术设计的神经网络能更有效地提取文本的语义信息,提取两个文本间更细粒度的交互信息;该神经网络使用多个注意力机制能增强两个文本间交互信息中重要信息,提高语义文本相似度计算准确率。

【技术实现步骤摘要】
一种基于注意力的语义文本相似度计算方法
本专利技术属于自然语言处理
,具体涉及一种基于注意力的语义文本相似度计算方法。
技术介绍
语义文本相似度计算是自然语言处理领域的一个重要研究课题,语义文本相似度旨在计算两个句子/文本之间的语义等价程度,它可以应用于许多任务,如机器翻译、释义问题、自动问答、文本分类、信息检索等。目前,在语义文本相似度计算方面已有很多研究成果,可归纳为以下三类:(1)基于字面匹配的语义文本相似度计算方法,比较典型的有基于TF-IDF的语义相似度计算方法,基于TF-IDF的语义文本相似度计算方法是将文本建模成词频向量,运用余弦相似度来衡量文本之间的相似度;这类方法的优点是计算速度快、工作量小,缺点是忽略了词语的语义信息,需要人工设定停用词表。(2)基于潜在语义分析的概率主题语义文本相似度计算方法,比较典型的有基于LDA(LatentDirichletAllocation)的语义文本相似度计算模型,主要思想是利用词语中的共同信息对文本进行主题建模,挖掘出文本中潜在的语义信息,从而计算出文本之间的语义本文档来自技高网...

【技术保护点】
1.一种基于注意力的语义文本相似度计算方法,包括如下步骤:/n(1)获取数据集并对数据集中每条文本进行预处理,从而得到大量数据样本,所述数据集中的文本均为成对组合且每一组均已人工标记是否语义相似;/n(2)将所有数据样本分为训练集和测试集,搭建神经网络并利用训练集对其进行训练,得到语义文本相似度的计算模型;所述神经网络从输入至输出由文本编码层、局部相似性建模层、整体相似性建模层、池化层以及多层感知器依次连接组成;/n(3)将测试集样本输入计算模型中,即可得到一组成对文本的相似度结果。/n

【技术特征摘要】
1.一种基于注意力的语义文本相似度计算方法,包括如下步骤:
(1)获取数据集并对数据集中每条文本进行预处理,从而得到大量数据样本,所述数据集中的文本均为成对组合且每一组均已人工标记是否语义相似;
(2)将所有数据样本分为训练集和测试集,搭建神经网络并利用训练集对其进行训练,得到语义文本相似度的计算模型;所述神经网络从输入至输出由文本编码层、局部相似性建模层、整体相似性建模层、池化层以及多层感知器依次连接组成;
(3)将测试集样本输入计算模型中,即可得到一组成对文本的相似度结果。


2.根据权利要求1所述的语义文本相似度计算方法,其特征在于:所述步骤(1)的具体实现方式为:首先利用Jieba分词工具对数据集中的每一条文本进行分词操作并去除停用词,然后统一输入长度即只截取每条文本的前m个单词,最后基于预训练的n维词向量通过词嵌入方式将每条文本转换为m×n大小的词向量矩阵,m和n均为预设大于1的自然数;最终得到的每一数据样本即为成对组合的两个文本的词向量矩阵。


3.根据权利要求2所述的语义文本相似度计算方法,其特征在于:所述文本编码层由两个并行的编码模块A1和A2组成,若一个数据样本包含的是文本a和文本b的词向量矩阵,则编码模块A1的输入为文本a的词向量矩阵,编码模块A2的输入为文本b的词向量矩阵;编码模块A1和A2结构相同均包含一个卷积层和一个双向门控循环单元,卷积层和双向门控循环单元的输入相同即为所属编码模块的输入,卷积层和双向门控循环单元的输出拼接后作为所属编码模块的输出,卷积层采用400个大小为1的卷积核以及Tanh函数对输入进行卷积操作,双向门控循环单元中的隐藏层大小设置为200。


4.根据权利要求3所述的语义文本相似度计算方法,其特征在于:所述局部相似性建模层由两个并行的建模单元B1和B2组成,建模单元B1和B2结构相同均包含一个软注意力层和一个局部增强层,建模单元B1的软注意力层输出为建模单元B1的软注意力层输出为建模单元B1的局部增强层输出为以及拼接后的结果,建模单元B2的局部增强层输出为以及拼接后的结果,由向量拼接组成,由向量拼接组成,其中:






其中:表示文本a的词向量矩阵经过编码模块A1后的输出结果中对应第i个单词的向量,表示文本b的词向量矩阵经过编码模块A2后的输出结果中对应第j个单词的向量,i、j和k均为自然数,T表示转置。


5.根据权利要求4所述的语义文...

【专利技术属性】
技术研发人员:张华熊张豪
申请(专利权)人:浙江理工大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1