病历文本相似度的检索方法、系统及计算机设备技术方案

技术编号:26376383 阅读:25 留言:0更新日期:2020-11-19 23:45
本发明专利技术提供了一种病历文本相似度的检索方法、系统及计算机设备,病历文本相似度的检索方法包括:接收文本信息;对文本信息进行分词处理,生成词语;将词语训练成长文本向量;根据长文本向量在数据库中获取与文本信息相似的病历信息。本发明专利技术提供的病历文本相似度的检索方法,不需要专家参与,而是通过医疗人工智能的方法自动从数据库中挖掘和学习医疗知识,构建相似病历比较的模型,该模型能综合多种类型自由文本的比较结果,能高效、准确地得到相似的病历推荐,与医生人工比较得到的结果高度相符,能给医生提供具有实用价值的临床路径参考结果,有效地解决了医生消耗大量的时间在查阅历史以往病历上面的问题。

【技术实现步骤摘要】
病历文本相似度的检索方法、系统及计算机设备
本专利技术涉及计算机
,具体而言,涉及一种病历文本相似度的检索方法、系统及计算机设备。
技术介绍
目前,电子病历(ElectronicMedicalRecord,EMR)是患者在医疗机构就诊时产生的医疗记录,是医生诊疗经验和模式的载体,它的核心价值体现在辅助诊断方面,为医生提供决策支持。电子病历数据的主要形式有表格、自由文本、图像这三种,其中自由文本主要以非结构化数据的形式呈现。随着医院信息化的发展,医院已经积累了大量非结构化的电子病历自由文本,其中蕴含了大量宝贵的医学和临床信息。随着医疗信息的标准化的提升,自由文本中覆盖了更标准更完整的患者信息。目前国内外有很多学者、机构以及企业致力于基于EMR(电子病历)的辅助诊断系统的研究,其领域可以涉及完整的医疗过程,在优化工作流程、提高工作效率、降低医疗差错、提高医疗质量等方面具有重要作用。国内基于中文EMR(电子病历)的应用研究一方面是针对EMR(电子病历)系统的研发,另一方是基于EMR(电子病历)的临床路径优化和相似EMR(电子病历)搜索。相关技术中,都用到了相似中文病历文本检索这一核心技术,其方法主要是通过关键词或本体模型进行比较,依赖医学专家的知识,而已有的大规模EMR(电子病历)数据本身所蕴含的信息,却没有很好挖掘利用。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此,本专利技术的第一方面提供了一种病历文本相似度的检索方法。本专利技术的第二方面提供了一种病历文本相似度的检索系统。本专利技术的第三方面提供了一种计算机设备。本专利技术的第四方面提供了一种计算机可读存储介质。有鉴于此,本专利技术的第一方面提出了一种病历文本相似度的检索方法,包括:接收文本信息;对文本信息进行分词处理,生成词语;将词语训练成长文本向量;根据长文本向量在数据库中获取与文本信息相似的病历信息。本专利技术提供的病历文本相似度的检索方法,将接收的文本信息进行分词处理,分词包括词的歧义切分,未登录词的识别,可以将疾病、病症和时间切分,分好的词语用于下一步的训练,精确分词决定下一步的准确率,将生成的词语训练成长文本向量,得到对应的长文本数字标识符,进而根据长文本向量在数据库中获取到与文本信息相似的病历信息。通过这种方法检索病历信息,不需要专家参与,而是通过医疗人工智能的方法自动从数据库中挖掘和学习医疗知识,构建相似病历比较的模型,该模型能综合多种类型自由文本的比较结果,能高效、准确地得到相似的病历推荐,与医生人工比较得到的结果高度相符,能给医生提供具有实用价值的临床路径参考结果,有效地解决了医生消耗大量的时间在查阅历史以往病历上面的问题,同时也能够使用这个方法来协助缺乏医学经验的医生,使患者更好的、及时的得到诊断治疗,进而提高临床就诊效率和临床诊断准确率。具体地,本方法的主要处理对象为自由文本中的主诉、现病史、既往史、个人史、家族史和一般检查结果,得到对病人完善的辅助诊断。根据本专利技术提供的上述的病历文本相似度的检索方法,还可以具有以下附加技术特征:在上述技术方案中,优选地,病历文本相似度的检索方法还包括:对文本信息进行分词处理,生成词语的步骤之后,还包括:对词语的词性进行标注处理;根据词语的词性的标注对词语进行分类处理。在该技术方案中,通过命名实体识别应用对文本信息进行预处理,对词语的词性进行标注处理,再根据标注对词语进行分类处理,为句子中的每个词赋予正确的词法标记,为每一个词赋予一个类别。进一步地,命名实体识别应用可以将未登录词准确分割,词性标注主要分为基于规则的和基于统计的方法。具体地,首先使用CRF(条件随机场)算法将长文本切分的词进行词性标注,根据标注好词性的词语作为RNN(循环神经网络)输入,依据词性的类别种类,反馈长文本出现的疾病和病症的词汇分类。在上述任一技术方案中,优选地,对文本信息进行分词处理,生成词语的步骤,具体包括:根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理,生成词语。在该技术方案中,根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理,达到了去除干扰词的效果,同时,使用最大匹配法提高了分词的准确率。在上述任一技术方案中,优选地,将词语训练成长文本向量的步骤,具体包括:将词语训练成词语向量;将词语向量组成长文本向量。在该技术方案中,首先将分好的词语训练成词语向量,再将每句中的词语向量组合形成长文本向量,进而得到病历长文本的数字符号。在上述任一技术方案中,优选地,根据长文本向量在数据库中获取与文本信息相似的病历信息步骤,具体包括:在数据库中获取与文本信息相似的多个长文本,并将多个长文本分别切分成词集合,作为筛选集合;在筛选集合中获取与文本信息进行分词处理后的词语集合相匹配的长文本,并作为优先考虑结果;根据长文本向量计算筛选集合中与文本信息不匹配的词集合和文本信息进行分词处理后的词语集合的关联性;判断关联性是否大于预设阈值;若关联性大于预设阈值,则将与文本信息不匹配的长文本按照关联性的大小正序排列。在该技术方案中,首先使用编辑距离,求解出EMR(电子病历)字面最相似的正序排序,并切分成相应的词集合,使用jaccard(杰卡德)距离在词集合中计算与文本信息完全相匹配的长文本,并将其优先级设置为最高,将不完全匹配的长文本使用余弦距离求得词之间的关联性,设置预设阈值,如果关联性小于预设阈值则关联性为0,可认为无关联,将关联的词距加和正序排序,求解出次优先级长文本匹配。具体地,比如当前长文本分词集合{A,B},与库中的一个集合{C,A},则其经过余弦距离计算之后求得的加权相似距离为:(B·C)/(||B||·||C||)。本专利技术的第二方面,提出了一种病历文本相似度的检索系统,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现:接收文本信息;对文本信息进行分词处理,生成词语;将词语训练成长文本向量;根据长文本向量在数据库中获取与文本信息相似的病历信息。本专利技术提供的病历文本相似度的检索系统,将接收的文本信息进行分词处理,分词包括词的歧义切分,未登录词的识别,可以将疾病、病症和时间切分,分好的词语用于下一步的训练,精确分词决定下一步的准确率,将生成的词语训练成长文本向量,得到对应的长文本数字标识符,进而根据长文本向量在数据库中获取到与文本信息相似的病历信息。通过这种系统检索病历信息,不需要专家参与,而是通过医疗人工智能的方法自动从数据库中挖掘和学习医疗知识,构建相似病历比较的模型,该模型能综合多种类型自由文本的比较结果,能高效、准确地得到相似的病历推荐,与医生人工比较得到的结果高度相符,能给医生提供具有实用价值的临床路径参考结果,有效地解决了医生消耗大量的时间在查阅历史以往病历上面的问题,同时也能够使用这个系统来协助缺乏医学经验的医生,使患者更好的、及时的得到诊断治疗,进而提高临床就诊效率和临床诊断准确率。具体地,本系统的主要处本文档来自技高网...

【技术保护点】
1.一种病历文本相似度的检索方法,其特征在于,包括:/n接收文本信息;/n对所述文本信息进行分词处理,生成词语;/n将所述词语训练成长文本向量;/n根据所述长文本向量在数据库中获取与所述文本信息相似的病历信息。/n

【技术特征摘要】
1.一种病历文本相似度的检索方法,其特征在于,包括:
接收文本信息;
对所述文本信息进行分词处理,生成词语;
将所述词语训练成长文本向量;
根据所述长文本向量在数据库中获取与所述文本信息相似的病历信息。


2.根据权利要求1所述的病历文本相似度的检索方法,其特征在于,所述对所述文本信息进行分词处理,生成词语的步骤之后,还包括:
对所述词语的词性进行标注处理;
根据所述词语的词性的标注对所述词语进行分类处理。


3.根据权利要求1所述的病历文本相似度的检索方法,其特征在于,所述对所述文本信息进行分词处理,生成词语的步骤,具体包括:
根据疾病词典、正则表达式、去除停用词对所述文本信息进行分词处理,生成词语。


4.根据权利要求2所述的病历文本相似度的检索方法,其特征在于,所述将所述词语训练成长文本向量的步骤,具体包括:
将所述词语训练成词语向量;
将所述词语向量组成所述长文本向量。


5.根据权利要求1至4中任一项所述的病历文本相似度的检索方法,其特征在于,所述根据所述长文本向量在数据库中获取与所述文本信息相似的病历信息步骤,具体包括:
在所述数据库中获取与所述文本信息相似的多个长文本,并将所述多个长文本分别切分成词集合,作为筛选集合;
在所述筛选集合中获取与所述文本信息进行分词处理后的词语集合相匹配的长文本,并作为优先考虑结果;
根据所述长文本向量计算所述筛选集合中与所述文本信息不匹配的词集合和所述文本信息进行分词处理后的词语集合的关联性;
判断所述关联性是否大于预设阈值;
若所述关联性大于所述预设阈值,则将与所述文本信息不匹配的长文本按照关联性的大小正序排列。


6.一种病历文本相似度的检索系统,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现:
接收文本信息;
对所述文本信息进行分词处理,生成词语;
将所述词语训练成长文本向量;
根据所述长文本向量在数据库中获取与所述...

【专利技术属性】
技术研发人员:郭士成王琦
申请(专利权)人:北大医疗信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1