一种基于疾病领域知识图谱的问答匹配系统技术方案

技术编号:28785477 阅读:30 留言:0更新日期:2021-06-09 11:20
本发明专利技术公开了一种基于疾病领域知识图谱的问答匹配系统,包括预处理模块、命名实体识别模块、实体链接模块及关系匹配模块,本发明专利技术解决了现有技术中通用领域的语义表示模型在疾病领域中语义表示不足,出现实体存在识别边界错误的情况,并且会进一步影响实体链接的效果,最终导致答案准确率较低的问题。最终导致答案准确率较低的问题。最终导致答案准确率较低的问题。

【技术实现步骤摘要】
一种基于疾病领域知识图谱的问答匹配系统


[0001]本专利技术涉及自然语言处理领域,具体涉及一种基于疾病领域知识图谱的问答匹配系统。

技术介绍

[0002]问答系统是自然语言处理领域中常见的一种应用,作为信息检索系统的一种常见的表现形式,其可以通过对用户输入的问题进行分析,借助深度学习等算法从众多信息中迅速获取准确有效的信息返回用户,回答用户的问题,满足用户对快速获取准确信息的需求。
[0003]知识图谱以接近人类认知思维的形式对数据进行组织和理解,为互联网上海量、异构、动态的大数据管理和使用提供了一种优秀的解决方案。知识图谱综合了众多方面的技术和方法,有知识表示、知识抽取(命名实体识别、关系抽取等)、知识融合、知识存储、知识推理、图计算、可视化、语义搜索、知识问答、知识众包等。知识图谱一般遵循RDF三元组数据结构,即(s,p,o)形式,对应主实体subject、关系predicate、尾实体object。知识图谱包含数千万级或者亿级规模实体,以及数十亿或百亿事实(即属性值和与其他实体的关系),这些实体被组织在成千上万由语义体现的客观世本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于疾病领域知识图谱的问答匹配系统,其特征在于,包括:预处理模块,用于针对用户输入的问题进行预处理,记预处理模块输出Q;命名实体识别模块,用于确定实体提及的起始位置和结束位置,预测输出Q中各个字符作为句子实体提及开始位置和结束位置的概率,根据起始位置和结束位置的概率确定实体提及的起始位置和结束位置,该命名实体识别模块使用BERT
domain
进行微调;实体链接模块,用于将实体提及链接到疾病知识图谱中的实体词,并通过该实体词检索在疾病知识图谱中对应的所有关系;关系匹配模块,用于将实体词对应的关系与用户输入问题进行匹配,判断是否与用户问题一致,一致则输出,且使用BERT
domain
进行微调。2.根据权利要求1所述的问答匹配系统,其特征在于,所述预处理包括对用户输入的文字问题使用正则化去除空格及标点符号,并且将字母统一为小写。3.根据权利要求1所述的问答匹配系统,其特征在于,预测输出Q中各个字符作为句子实体提及开始位置和结束位置的概率,确定实体提及,具体为:通过疾病领域预训练后的BERT
domain
模型对预处理模块的输出Q进行编码输出特征向量,该特征向量经过两个Softmax分类层预测每个字符作为实体提及开始位置和结束位置的概率,实体开始位置和结束位置对应的字符串即为实体提及。4.根据权利要求1

3任一项所述的问答匹配系统,其特征在于,获取疾病疾领域的BERT
domain
模型的预训练过程为:首先将临床诊疗文献以及电子病历中疾病名称存为词典文件;然后将临床诊疗文献以及电子病历中的文本内容按找标点符号切分为句子;对切分后的句子使用最大词典匹配法查找句子是否包含了词典文件中的疾病词,若包含该疾病词,则将该疾病词进行遮蔽,即将该疾病词替换为MASK;对于不包含疾病词的句子,则随机遮蔽某个字符,由此构造疾病领域的MLM任务数据集;最后通过MLM任务数据集对BERT模型进行预训练,MLM任务的目标是通过句子的上下文信息预测被替换为MASK的词,从而使得模型学习到句子的双向信息,通过MLM任务获得BERT
domain
模型以及字符向量E
char
。5.根据权利要求3所述的问答匹配系统,其特征在于,所述命名实体识别模块中使用BERT
domain
进行微调,微调是在BERT
domain
的基础上添加面向下游任务的网络参数,并微调整...

【专利技术属性】
技术研发人员:倪妙玲孙庆华王聪
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1