一种基于分词技术的病历关键信息提取模型制造技术

技术编号:21548115 阅读:40 留言:0更新日期:2019-07-06 21:34
本发明专利技术专利名为:一种基于分词技术的病历关键信息提取模型。所属的技术领域为人工智能自然语言处理与医疗学科交叉,通过将病历的文本信息预处理,处理成连续无空格的文本形式,然后对病历进行分词处理。利用字符匹配技术,对病历分词后的结果进行比对,然后寻找到需要的关键词,从而确定关键词所在的句子。定位到词所在的句子后,寻找关键词后的第一个词;如果是描述性的关键信息,则根据词库中描述性词可能的概率来确定。本发明专利技术利用自然语言处理技术中的分词技术,检索技术,匹配技术提供一种基于分词技术的病历关键信息提取模型,能够将病历文本分词化,同时提取需要的关键信息,为疾病的专家系统,知识图谱,疾病智能决策模型提供智能化提取的关键信息作为决策基础。

A Key Information Extraction Model of Medical Record Based on Word Segmentation Technology

【技术实现步骤摘要】
一种基于分词技术的病历关键信息提取模型
本专利技术涉及一种关键信息提取模型,特别涉及一种基于分词技术的病历关键信息提取模型。
技术介绍
分词是将连续的字序列按照一定的规范重新组合成词序列的过程,中文分词是将一个汉字序列分成一个一个的单独的词。在分词的
技术介绍
中,中文分词方法一般有以下三类:基于词典匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于词典(字符串匹配、机械分词法)匹配的分词方法是按照一定的策略将待分析的汉字串与一个机器词典进行词条匹配,若在词典中找到某个字符串,则匹配成功。其次是基于理解的分词方法,通过让计算机模拟人对句子的理解,达到识别词的效果。目前基于理解的分词方法可以用深度学习中自然语言处理的方法来实现。基于统计的分词方法是在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语切分的规律,实现对未知文本的切分。最大熵分词方法、最大概率分词方法等。关键信息检索,主要是基于文本及语义的相似匹配问题。两个文本之间的相似度达到一定要求后,匹配为需要检索的关键信息。基于VSM(VectorSpaceModel)的余弦相似度算法来评价两个文本间的相识度。余弦相似度,又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。两个空间向量之间的夹角越小,我们就认为这两个向量越吻合。使用词袋one-hot的方式,就是形成一个词的字典集,然后将文本中的词投射到词袋中,对应的位置用出现的频次填充,没有的填充零。此外,TF-IDF(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。
技术实现思路
为了能够将病历信息更大程度的应用在疾病的智能决策中,我们提出了一种基于分词技术的病历关键信息提取模型,目的是为了能够将病历中影响疾病的关键信息提取出来,从而能够更方便的服务于疾病的智能决策系统、知识图谱的构建、专家系统的构建等,。本专利技术所采用的技术方案如下:一种基于分词技术的病历关键信息提取模型,包括以下部分:A、对病历信息进行分词处理;B、对关键信息(词)进行检索;C、利用近邻原理对所检索信息词前后词对比后进行信息提取。部分A中,所述的对病历信息进行分词处理是指:将病历的文本信息预处理,处理成连续无空格的文本形式,然后对病历进行分词处理。在分词处理前,应当建立分词词库,以建立关键信息提取的标准。部分B中,所述的对关键信息(词)进行检索是:利用字符匹配技术,对病历分词后的结果进行比对,然后寻找到需要的关键词,从而确定关键词所在的句子。关键词所在的句子的确立,是根据词的前后标点符号来的。部分C中,所述的利用近邻原理对所检索信息词前后词对比后进行信息提取是指:通过将病历分词之后,结果就会得到很多独立的词,再通过部分B所述的检索需要的病历信息,定位到词所在的句子后,寻找关键词后的第一个词;如果关键词后为标点符号,则向前取一个词;如果是描述性的关键信息,则根据词库中描述性词可能的概率来确定。本专利技术提供的技术方案带来的有益效果是:在专家系统、知识图谱、疾病智能决策模型需求量日益增长的情况下,对于病历信息的知识化、向量化处理是极为重要的。本专利技术提供一种基于分词技术的病历关键信息提取模型,能够将病历文本分词化,同时提取需要的关键信息,为疾病的专家系统,知识图谱,疾病智能决策模型提供智能化提取的关键信息作为决策基础。附图说明为了更清楚地说明本专利技术的技术方案,下面将对
技术实现思路
中所需要使用的附图作简要地介绍。图1为本专利技术的一种基于分词技术的病历关键信息提取模型的技术架构。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术实施方式作进一步地详细描述。实施例一病历部分如下:体格检查:T36.6℃,P102次/分,R22次/分,Bp104/81mmHg发育正常,营养良好,神志清楚,自主体位,正常面容,查体合作。全身皮肤粘膜中度黄染。全身浅表淋巴结未触及肿大。结膜无充血、无苍白,巩膜中度黄染,角膜正常,瞳孔等大同圆,对光调节反射正常。根据部分A中所述,先将病历分词:“体格检查”“:”“T”“36.6”“℃”“,”“P”“102”“次/分”,“R”“22”“次/分”“,”“Bp”“104/81”“mmHg”“发育”“正常”“,”“营养”“良好”“,”“神志”“清楚”“,”“自主”“体位”“,”“正常”“面容”“,”“查体”“合作”“。”“全身皮肤”“粘膜”“中度黄染”“。”“全身”“浅表”“淋巴结”“未触及”“肿大”“。”“结膜”“无充血”“、”“无苍白”“,”“巩膜”“中度”“黄染”“,”“角膜”“正常”“,”“瞳孔”“等大同圆”“,”“对”“光调节”“反射正常”“。”其次将对关键信息检索:关键信息(词):“T”,“P”,“R”,“粘膜”,“体位”根据所述部分B中,检索关键词后定位到原句中,是标点符号中间的部分。即:“T”“36.6”“℃”,“P”“102”“次/分”,“R”“22”“次/分”,“全身皮肤”“粘膜”“中度黄染”,“自主”“体位”。最后根据所述部分C中,选取关键词下一个词,即“102”“22”“中度黄染”,其中“体位”一词后面是标点符号,则取前面一词,即“自主”。通过此即可提取病历的关键信息。本文档来自技高网
...

【技术保护点】
1.一种基于分词技术的病历关键信息提取模型,包括以下部分:A、对病历信息进行分词处理;B、对关键信息(词)进行检索;C、利用近邻原理对所检索信息词前后词对比后进行信息提取。

【技术特征摘要】
1.一种基于分词技术的病历关键信息提取模型,包括以下部分:A、对病历信息进行分词处理;B、对关键信息(词)进行检索;C、利用近邻原理对所检索信息词前后词对比后进行信息提取。2.根据权利要求1所述的一种基于分词技术的病历关键信息提取模型,其特征在于,所述的部分A中,所述的对病历信息进行分词处理是指:将病历的文本信息预处理,处理成连续无空格的文本形式,然后对病历进行分词处理。在分词处理前,应当建立分词词库,以建立关键信息提取的标准。3.根据权利要求1所述的一种基于分词技术的病历关键信息提取模型,其特征在于,所述的部分B中,所述的对关键信息(词)...

【专利技术属性】
技术研发人员:庞善臣丁桐翟雪王淑玉李艳青
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1