【技术实现步骤摘要】
一种医疗短文本相似度匹配方法
[0001]本专利技术涉及文本匹配领域,尤其涉及一种医疗短文本相似度匹配方法。
技术介绍
[0002]短文本由于内容短小导致语义特征不足,这给短文本表示和相似性度量带来了困难。现阶段常用的关键词搜索和浅层神经网络模型可以辅助完成相似短文本的判别,但因为仍包括人工特征选择的步骤,不具备从海量新冠疫情查询短文本中快速准确计算文本相似度的功能。因此基于自然语言处理技术使用深度学习是处理新冠疫情短文本相似度匹配的一个重要难题。
[0003]短文本语义相似度匹配最简单的方法就是基准方法。这种方法将文本中所有的词向量进行平均计算,将获得的平均向量作为文本的向量。但是这种方法所生成的文本向量表现不稳定,大部分时候准确率较低。
[0004]在基准方法的基础上有研究者提出一种改进方法词移距离,将一个文本中的所有词语与另一个文本中的所有词语进行距离计算,每个词语选择最短距离参与平均计算,所获得的距离平均值即为2段文本的语义相似度。在这之后,陆续有人提出应用主题词来表征文本语义的方法,以及应用文本的词语相对位置信息表征文本相似度的方法。
[0005]随着深度学习技术的快速发展,国内外研究员主要使用卷积神经网络和循环神经网络等模型研究文本相似度计算。最开始的文本相似度模型是基于深度网络的语义模型,该模型将句子映射到低维度向量上,再使用余弦公式计算相似度,该模型在文本匹配任务上取得较好效果,但该模型忽略了文本的语序信息和上下文信息。有研究在有监督的相似度方法里,使用卷积神经网络计算文本相似 ...
【技术保护点】
【技术特征摘要】
1.一种医疗短文本相似度匹配方法,其特征在于,包括以下步骤:S1:构建双塔式的基于BERT的Attention
‑
MultiBiGRU模型;基于BERT的Attention
‑
MultiBiGRU模型依次包括文本词向量表示层、文本匹配特征计算层和文本相似度计算层;S2:将独立的医疗短文本问句分别输入文本词向量表示层,获得医疗短文本问句的词向量表示;S3:将词向量表示输入到文本匹配特征计算层计算;文本匹配特征计算层按照顺序包括多层连接BiGRU计算、注意力计算和池化计算;S4:文本相似度计算层中对独立的医疗短文本问句的文本匹配特征进行聚合计算,计算文本相似度。2.根据权利要求1所述的一种医疗短文本相似度匹配方法,其特征在于,所述的文本词向量表示层采用BERT预训练模型;BERT预训练模型为双向的Transformer结构。3.根据权利要求2所述的一种医疗短文本相似度匹配方法,其特征在于,所述的BERT预训练模型包括两个相同的编码器和解码器;编码器包括自注意力机制和前向传播网络;在第一编码器中位置编码和自注意力层后的向量经过相加与正则化后作为前向传播网络的输入,该输入与前向传播网络的输出进行相加和正则化操作后作为新输入进入第二编码器,第二编码器完成与第一编码器相同操作后输出给解码器;所述的解码器与编码器相比,在输入到前向传播网络前增加注意力机制。4.根据权利要求2或3所述的一种医疗短文本相似度匹配方法,其特征在于,医疗短文本问句的词向量表示的获得过程为:通过分词工具对医疗短文本问句进行中文分词;分词结果作为BERT预训练模型的输入,获取词向量表示;词向量表示由位置嵌入向量、段嵌入向量和词嵌入向量相加而成。5.根据权利要求1所述的一种医疗短文本相似度匹配方法,其特征在于,所述的多层连接BiGRU计算中每层BiGRU均将上一层的输入与本层的输出进行合并后继续向后传递,则有多层连接BiGRU隐藏状态值计算公式为:其中,为t时刻第1层的隐藏状态;为t时刻l
‑
1层的隐藏状态;为t
‑
1时刻1层的隐藏状态。6.根据权利要求1或5所述的一种医疗短文本相似度匹配方法,其特征在于,BiGRU通过2个子层分别计算正向隐藏序列和后向隐藏序列将正向隐藏序列和后向隐藏序列组合起来计算当前隐藏状态和BiGRU的输出,具体计算公式为:
其中,w
t
为t时刻前向隐藏状态权重;v
t
为t时刻反向隐藏状态权重;b
t
为t时刻隐藏层的偏置值;c
tij
为t时刻第i个句子第j个词的向量;GRU计算传递的向量并输出固定维度的向量。7.根据权利要求6所述的一种医疗短文本相似度匹配方法,其特征在于,所述的GRU包括重置门、更新门、计算候选内存内容...
【专利技术属性】
技术研发人员:王辉,
申请(专利权)人:华信咨询设计研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。