【技术实现步骤摘要】
基于深度学习和知识图谱获取医学同义词的系统及方法
本专利技术涉及的是一种语义识别领域的技术,具体是一种基于深度学习和知识图谱获取医学同义词的系统及方法。
技术介绍
随着人工智能技术在医疗领域越来越广泛的应用,越来越多的产品使用人机交互的方式来帮助病人进行病情分析,从而提高医生的诊断效率和准确度。主要为获取病人的主诉信息,并对主诉信息进行语义分析,选择合适的流程进行问诊,并得出结论。这其中,对主诉信息的理解主要表现为病人主诉信息中所涉及的医学实体和内部数据库中的标准医学实体的匹配,即寻找医学同义词,这是当前技术的一个主要难点。对于获取同义词问题,现有方法主要是采用word2vec模型和计算余弦相似度,但是word2vec模型是基于上下文相似的词所表达的词义也是相似的这种假设,所以最后得到的相似度只能说明这两个单词在语料中的上下文的相似程度,并不是这两个词的语义相似度。
技术实现思路
本专利技术针对现有技术存在的上述不足,提出一种基于深度学习和知识图谱获取医学同义词的系统及方法,利用主诉中的相关信息在知识图谱中更加准确的定位到同义词,从而获取的同义词准确度有很大的提升。本 ...
【技术保护点】
1.一种基于深度学习和知识图谱获取医学同义词的系统,其特征在于,包括:知识图谱生成模块、词向量计算模块、相似度计算模块以及公共元素统计模块,其中:知识图谱生成模块与公共元素统计模块相连并传输知识图谱信息,词向量计算模块从对输入文本进行分析并识别出医学实体并将词向量信息输出至相似度计算模块,相似度计算模块根据医学实体的词向量信息及其互相之间的相似度得到候选同义词并输出至公共元素统计模块,公共元素统计模块通过统计公共元素的方式从中选出最终同义词。
【技术特征摘要】
1.一种基于深度学习和知识图谱获取医学同义词的系统,其特征在于,包括:知识图谱生成模块、词向量计算模块、相似度计算模块以及公共元素统计模块,其中:知识图谱生成模块与公共元素统计模块相连并传输知识图谱信息,词向量计算模块从对输入文本进行分析并识别出医学实体并将词向量信息输出至相似度计算模块,相似度计算模块根据医学实体的词向量信息及其互相之间的相似度得到候选同义词并输出至公共元素统计模块,公共元素统计模块通过统计公共元素的方式从中选出最终同义词。2.根据权利要求1所述的系统,其特征是,所述的知识图谱信息,通过医学词典和标准术语集构建分词词典和停用词表,结合分词技术和命名实体识别技术对医学文本进行准确分词提取的医学实体和关系构建得到。3.根据权利要求1所述的系统,其特征是,所述的医学实体的词向量信息,通过命名实体识别技术对输入文本进行分析并识别出若干个医学实体,当某个医学实体不存在于标准医学数据集时,定义该实体为中心词A,同时将其他医学实体定义为特征词(C1,C2,C3,…Cm);然后利用通用文本训练通用词向量模型并保留通用词向量模型中的参数;最后利用医学语料集对通用词向量模型的参数进行微调,获得医学实体的词向量信息。4.根据权利要求3所述的系统,其特征是,所述的通用词向量模型为深层双向语言模型,该模型利用该词上下文中其他所有词对应的语义信息获得句子上下文更远距离的语言信息,该深层双向语言模型包括:输入层、中间层以及输出层,其中:中间层为12层Transformer模型,每个词的输入由词向量、分割向量、位置向量组成。5.根据权利要求3所述的系统,其特征是,所述的微调是指:利用通用词向量模型的参数作为初始化参数,并在同一模型中输入医学语料...
【专利技术属性】
技术研发人员:高敏,李国强,孙炜,
申请(专利权)人:上海交通大学,因何科技上海有限责任公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。