基于词向量自动构建知识库实现辅助诊疗的方法和系统技术方案

技术编号:15691236 阅读:83 留言:0更新日期:2017-06-24 04:16
本发明专利技术涉及一种基于词向量自动构建知识库实现辅助诊疗的方法和系统。其中,该方法可以包括:获取患者描述;利用基于词向量建立的扩充的疾病‑疾病相关因子字典,对患者描述进行关键词匹配,提取患者描述中跟医学相关的词语和表达;检测提取出来的词语和表达是否在标准疾病‑疾病相关因子字典中;基于检测结果,结合根据扩充的疾病‑疾病相关因子字典得到的疾病相关因子对应于疾病的相关性打分,计算疾病的分数;对疾病的分数进行排序;根据排序结果确定疾病。由此,本发明专利技术解决了如何对患者的口语病情描述做出预测的技术问题。

Method and system for automatically constructing knowledge base based on word vector to realize auxiliary diagnosis and treatment

The invention relates to a method and a system for automatically constructing a knowledge base based on word vectors to realize auxiliary diagnosis and treatment. Among them, the method may include obtaining patient description; use expanded word vector the disease disease based on related factors of patients described in the dictionary, keyword matching, extraction of patients with medical related words in the description and expression; and to detect the expression of the extracted words are in the standard disease disease factors based on the dictionary; the detection results obtained, scoring according to the correlation of factors related to disease dictionary based on the expanded disease related factors corresponding to the disease, calculate the disease grades; sort disease score; determine the disease according to the ranking results. Thus, the invention solves the technical problem of how to make a prediction of the spoken condition of the patient.

【技术实现步骤摘要】
基于词向量自动构建知识库实现辅助诊疗的方法和系统
本专利技术实施例涉及数据处理
,尤其是涉及一种基于词向量自动构建知识库实现辅助诊疗的方法和系统。
技术介绍
伴随着互联网医疗领域的诸多医患在线问答网站和手机应用服务的快速发展,海量的患者病情及各类综合信息的口语化描述,以及所对应着的医生诊断结果构成问答对,形成了宝贵的问诊知识库。由于这些记录往往是非结构化数据,而且存在大量口语化描述所导致的非规范医学术语,直接利用这些数据会存在诸多挑战。与此同时,在线问诊的患者病例中有大量重复工作,这对于宝贵的医生人力资源是一种浪费。如果能利用人工智能算法代替医生做出初步的诊断结果,将大大提升问诊效率。这个任务可以总结为:对一个新输入的患者关于自身性别、年龄、症状、疾病史等综合信息的描述,利用语句分析和相关算法,结合预先构建的领域知识图谱,返回一个患者的疾病诊断结果预测。现有的技术方案主要有以下两种方法:1、通过搜索问答库中和患者描述相似度最高的问题,返回所对应的医生诊断结果。这类方法的主要问题是并未真正分析患者描述中出现的疾病信息,文本的相似度并不能完全反映患者病情的相似度,匹配准确度欠佳。2本文档来自技高网...
基于词向量自动构建知识库实现辅助诊疗的方法和系统

【技术保护点】
一种基于词向量自动构建知识库实现辅助诊疗的方法,其特征在于,所述方法包括:获取患者描述;利用基于所述词向量建立的扩充的疾病‑疾病相关因子字典,对所述患者描述进行关键词匹配,提取所述患者描述中跟医学相关的词语和表达;检测提取出来的所述词语和所述表达是否在标准疾病‑疾病相关因子字典中;基于检测结果,结合根据所述扩充的疾病‑疾病相关因子字典得到的疾病相关因子对应于疾病的相关性打分,计算疾病的分数;对所述疾病的分数进行排序;根据排序结果确定疾病。

【技术特征摘要】
1.一种基于词向量自动构建知识库实现辅助诊疗的方法,其特征在于,所述方法包括:获取患者描述;利用基于所述词向量建立的扩充的疾病-疾病相关因子字典,对所述患者描述进行关键词匹配,提取所述患者描述中跟医学相关的词语和表达;检测提取出来的所述词语和所述表达是否在标准疾病-疾病相关因子字典中;基于检测结果,结合根据所述扩充的疾病-疾病相关因子字典得到的疾病相关因子对应于疾病的相关性打分,计算疾病的分数;对所述疾病的分数进行排序;根据排序结果确定疾病。2.根据权利要求1所述的方法,其特征在于,所述扩充的疾病-疾病相关因子字典通过以下方式建立:利用医学信息训练关于疾病-疾病相关因子的词向量嵌入分布式表示模型;基于所述词向量嵌入分布式表示模型,使用距离度量方法对所述标准疾病-疾病相关因子字典进行扩充,建立所述扩充的疾病、疾病相关因子字典。3.根据权利要求2所述的方法,其特征在于,所述利用医学信息训练关于疾病-疾病相关因子的词向量嵌入分布式表示模型,具体包括:获取医学信息训练语料;对所述医学信息训练语料进行清洗;统计在问答库记录中出现的高频表达方式,增大高频表达方式在分词模型中的权重,并进行中文分词,得到训练文本;对所述训练文本进行训练,生成词向量嵌入分布式表示模型。4.根据权利要求2所述的方法,其特征在于,所述疾病相关因子对应于疾病的相关性打分通过以下方式确定:基于所述词向量嵌入分布式表示模型,使用距离度量方法对所述标准疾病-疾病相关因子字典进行扩充,建立替换词表;使用所述扩充的疾病-疾病相关因子字典和所述替换词表,匹配所述医学信息中的疾病-疾病相关因子,计算所述疾病相关因子对应于疾病的相关性打分。5.根据权利要求4所述的方法,其特征在于,所述使用所述扩充的疾病-疾病相关因子字典和所述替换词表,匹配所述医学信息中的疾病-疾病相关因子,计算所述疾病相关因子对应于疾病的相关性打分,具体包括:利用所述扩充的疾病-疾病相关因子字典,对医患问答记录进行关键词的匹配,提取所述医患问答记录中跟医学相关的词语和表达;检测提取出的所述医患问答记录中跟医学相关的所述词语和所述表达是否在所述标准疾病-疾病相关因子字典中;若不在,则根据所述替换词表,将提取出的所述医患问答记录中跟医学相关的所述词语和所述表达归一化到对应的标准表达中;基于所述标准表达,统计疾病及其相关因子共现的频数,得到疾病相关因子和疾病的共现频数记录矩阵;基于所述疾病相关因子和疾病的共现频数记录矩阵,使用非线性变换方法,得到所述疾病相关因子对应于疾病的相关性打分。6.根据权利要求2所述的方法,其特征在于,所述方法包括:基于所述词向量嵌入分布式表示模型,使用距离度量方法对所述标准疾病-疾病相关因子字典进行扩充,建立替换词表;所述检测提取出来的所述词语和所述表达是否在标准疾病-疾病相关因子字典中,具体包括:若未检测到,则根据所述替换词表,将提取出来的所述词语和所述表达归一化到对应的标准表达中,得到标准化疾病相关因子;所述基于检测结果,结合根据所述扩充的疾病-疾病相关因子字典得到的疾病相关因子对应于疾病的相关性打分,计算疾病的分数,具体包括:基于所述标准化疾病相关因子,结合根据所述扩充的疾病-疾病相关因子字典得到的疾病相关因子对应于疾病的相关性打分,计算疾病的分数。7.根据权利要求5所述的方法,其特征在于,所述疾病相关因子对应于疾病的相关性打分通过下式确定:其中,所述Score(i,j)表示所述疾病相关因子对应于疾病的相关性打分;所述P(Di|Fj)表示患有疾病的条件概率;所述Di表示所述疾病;所述Fj表示所述疾病相关因子;所述Ni表示疾病频数,所述Ni=∑jNij,所述Nij表示记录频数。8.根据权利要...

【专利技术属性】
技术研发人员:张文生牛景昊
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1