当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于知识图谱的医疗查询扩展方法技术

技术编号:29156639 阅读:36 留言:0更新日期:2021-07-06 22:56
一种基于知识图谱的医疗查询扩展方法。自动问答系统中的查询扩展技术通过向问句中补充扩展信息来减小问答句间的语义差距,从而提高问答系统的准确性。在医疗问答领域,目前的查询扩展方法没有充分结合不同查询意图下医学术语间的共现关联关系与推理关联关系,因此得到的扩展词不够准确。本发明专利技术以医疗知识图谱为扩展词的知识来源,利用医学术语在不同查询意图下的推理关联得到候选扩展词,并结合否定医学术语识别与互信息技术筛选出最终的扩展词,最终提高了医疗问答系统的准确率。

【技术实现步骤摘要】
一种基于知识图谱的医疗查询扩展方法
本专利技术涉及自然语言处理领域,具体涉及问答系统中查询的处理。查询扩展是自动问答系统中的重要环节与关键技术。
技术介绍
随着互联网的快速发展,越来越多患者倾向于通过线上健康社区寻求医疗帮助。然而,急剧增长的问题数量给医生带来了巨大的回复负担。为了缓解医生的工作负担以及满足用户快速得到答案的需求,大量研究者们投身于医疗问答领域的研究。而在医疗问答系统中,问答句间表达方式的不同造成的词不匹配以及问答句间信息量不同造成的语义偏差是影响系统准确率的关键因素。为此,研究者引入查询扩展技术,即通过在查询中补充与查询相关的扩展词,来缩小问答句间的偏差,以提升系统的性能。在当前医疗问答领域,查询扩展方法主要包括基于关键词的查询扩展和基于语义的查询扩展。然而,基于关键词的查询扩展方式仅从统计层面挑选关键词,忽略了查询的语义信息,因此可能会扩展很多不相关的医学实体为原始查询引入“噪声”,从而影响答案选择的质量。基于语义的查询扩展利用医学本体库或医学语义词典来挖掘查询中除表层字面之外的潜在语义,但目前基于语义的查询扩展研究本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的医疗查询扩展方法,其特征在于,包括/n步骤1、对医疗问答对数据集进行预处理;/n步骤2、训练SVM分类器对问句进行查询意图预测;/n步骤3、结合步骤2得到的查询意图从医疗知识图谱中获取与查询相关的候选扩展词;/n步骤4、利用否定医学术语识别技术与互信息技术筛选步骤3中得到的候选扩展词,从而得到最终的扩展词。/n

【技术特征摘要】
1.一种基于知识图谱的医疗查询扩展方法,其特征在于,包括
步骤1、对医疗问答对数据集进行预处理;
步骤2、训练SVM分类器对问句进行查询意图预测;
步骤3、结合步骤2得到的查询意图从医疗知识图谱中获取与查询相关的候选扩展词;
步骤4、利用否定医学术语识别技术与互信息技术筛选步骤3中得到的候选扩展词,从而得到最终的扩展词。


2.如权利要求1所述的基于知识图谱的医疗查询扩展方法,其特征在于,第一步:中文医疗问答对数据集预处理,
1.1整合问答对数据集
删除一些表达不明确、未包含答案、问句或答句包含图片的无效问答对,为了确保数据集的平衡性,有利于后续分类操作,对除疾病诊断类、疾病症状类、疾病治疗类、疾病原因类四大类之外的个别其他类问答对进行删除;将整合好的数据集提供给步骤1.2;
1.2去除停用词
利用停用词词表去除问答对数据集中问句的停用词,包括使用频率高又无实际含义的词汇;去除停用词后的结果提供给步骤1.4;
1.3整合领域词典
通过整合已有的各类医疗实体词典构造医疗领域词典,所述医疗领域词典包括疾病、症状、药物、检查四类;
1.4将领域词典加入jieba分词器的字典,使用jieba分词器对问答对数据集中的问句进行分词;
分词后即完成了步骤1对于问答对数据集的预处理工作,将预处理后的数据集中的问句提供给步骤2、步骤3和步骤4,将领域词典提供给步骤3、步骤4。


3.如权利要求1所述的基于知识图谱的医疗查询扩展方法,其特征在于,第二步:训练SVM分类器为对问句的查询意图进行预测,
2.1标注问句分类标签
对步骤1得到的部分问句进行意图类别标记,若问句的查询意图属于疾病诊断类,标注为0;若问句的查询意图属于疾病治疗类,标注为1;若问句的查询意图属于疾病症状类,标注为2;若问句的查询意图属于诊断加治疗类,标注为3;若问句的查询意图属于疾病原因类,标注为4;标注后的结果提供给步骤2.2;
2.2半监督训练SVM意图分类器
本方法采用自训练的半监督方法训练意图分类器,初始分类器使用对样本不均衡的支持向量机SVM算法;分类器的训练需要用到问句的两个特征(1)TF-IDF特征;(2)问句疑问词特征:
(1)TF-IDF是一种在文本分类中常用的特征向量化的方法,它通过词频(TermFrequency)和逆向文件频率(InverseDocumentFrequency)反映词语在整体语料库中的重要性,计算公式如下:



其中,t代表某个词的词频,N代表文档的总词数,x代表文档总数,w代表该词在w个文档中出现;
(2)统计数据集得到四种类别问句的疑问特征词,使用离散特征编码处理问句,判断问句是否包含某种类别的疑问特征词(值为0或1);
将训练得到的意图分类器提供给步骤2.3;
2.3将待分类的问句输入已训练好的SVM分类器,并将分类结果(即问题的查询意图)提供给步骤3。


4.如权利要求1所述的基于知识图谱的医疗查询扩展方法,其特征在于,第三步:从医疗知识图谱中获取与查询相关的候选扩展词,
3.1医学知识图谱获取
从公开的中文医疗全科知识图谱中抽取标记为儿科科室的三元组,并利用基于BERT的关系抽取方法从39健康网中爬取的儿科问答语料获得儿科医疗实体关系,从而将两者整合出中文儿科知识图谱;将图谱提供给步骤3.4;
3.2统...

【专利技术属性】
技术研发人员:方钰崔雪翟鹏珺
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1