【技术实现步骤摘要】
基于孪生神经网络的中文医疗文本信息匹配方法及系统
[0001]本专利技术涉及医疗信息
,特别是涉及一种基于孪生神经网络的中文医疗文本信息匹配方法。
技术介绍
[0002]随着自然语言问答领域的蓬勃发展,医疗问答领域逐渐成为热点之一,越来越多的用户通过互联网上的医疗服务平台进行查询和问诊,同时随着网络信息的快速增长,目前医疗问答领域主要通过搜索引擎提供问题检索服务,基于精确匹配的检索方式不能理解查询的语义容易造成结果的歧义,在文本匹配领域通过监督语料来训练语义匹配模型是一种有效的方法,但是在中文医疗文本领域缺失相应的医疗信息匹配数据,传统的人工监督语料的方法不仅容易更加费时费力,而且容易误判,所以如何快速准确的对中文医疗无监督文本匹配在自然语言处理领域一直是比较有挑战性的问题,涉及到自然语言处理,数据挖掘,机器学习等多个领域的学科技术和方法。
[0003]现有的技术文献中,一般是基于传统的卷积神经网络分类和基于统计的机器学习分类方法,对于无监督的中文医疗文本信息之间的关系依然无法准确的捕获到,同时对于长文本下的中 ...
【技术保护点】
【技术特征摘要】
1.一种基于孪生神经网络的中文医疗文本信息匹配方法,其特征在于,包括如下步骤:S1、基于中文医疗文本语料集构建由问句对组成的训练数据集,其中每一个问句对中含有两个医疗相关的问句并由标签标记两个问句是否属于相同类型;S2、利用BERT模型对所述训练数据集中的问句对中的每一个问句进行编码并转换为句向量;S3、利用经过S2向量化后的所述训练数据集对中文医疗文本信息匹配模型进行训练;所述中文医疗文本信息匹配模型采用孪生神经网络,孪生神经网络中的两个子神经网络均包含级联的四层双向长短期记忆网络层和一层全连接层,两个子神经网络中对应的网络层权值共享;问句对的两个句向量各自输入孪生神经网络的一个子神经网络中,在每一个子神经网络中输入的句向量依次经过四层双向长短期记忆网络层,前一层双向长短期记忆网络层输出的表征向量继续作为下一层双向长短期记忆网络层的输入,最后一层双向长短期记忆网络层输出的表征向量输入全连接层中并输出句向量表示;最后对同属一个问句对的两个句向量表示计算相似度,并根据相似度得分判断问句对中的两个问句是否属于相同类型;S4、将待匹配的两个医疗相关的问句分别利用BERT模型进行编码并转换为句向量,然后输入训练后的中文医疗文本信息匹配模型中,输出两个问句是否属于相同类型的判断结果。2.如权利要求1所述的基于孪生神经网络的中文医疗文本信息匹配方法,其特征在于,所述问句对中两个问句均需要预先去除标点符号,再转换为等长度的句向量。3.如权利要求1所述的基于孪生神经网络的中文医疗文本信息匹配方法,其特征在于,所述中文医疗文本信息匹配模型训练过程中所采用的损失函数为对比损失(Contrastice Loss)。4.如权利要求1所述的基于孪生神经网络的中文医疗文本信息匹配方法,其特征在于,所述相似度为余弦相似度。5.如权利要求1所述的基于孪生神经网络的中文医疗文本信息匹配方法,其特征在于,所述句向量表示的维度为128维。6.一种基于孪生神经网络的中文医...
【专利技术属性】
技术研发人员:黄孝喜,童伟,王荣波,谌志群,姚金良,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。