一种基于分词技术的病历关键信息提取模型制造技术

技术编号：21548115 阅读：40 留言：0更新日期：2019-07-06 21:34

本发明专利技术专利名为：一种基于分词技术的病历关键信息提取模型。所属的技术领域为人工智能自然语言处理与医疗学科交叉，通过将病历的文本信息预处理，处理成连续无空格的文本形式，然后对病历进行分词处理。利用字符匹配技术，对病历分词后的结果进行比对，然后寻找到需要的关键词，从而确定关键词所在的句子。定位到词所在的句子后，寻找关键词后的第一个词；如果是描述性的关键信息，则根据词库中描述性词可能的概率来确定。本发明专利技术利用自然语言处理技术中的分词技术，检索技术，匹配技术提供一种基于分词技术的病历关键信息提取模型，能够将病历文本分词化，同时提取需要的关键信息，为疾病的专家系统，知识图谱，疾病智能决策模型提供智能化提取的关键信息作为决策基础。

A Key Information Extraction Model of Medical Record Based on Word Segmentation Technology

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分词技术的病历关键信息提取模型
本专利技术涉及一种关键信息提取模型，特别涉及一种基于分词技术的病历关键信息提取模型。
技术介绍
分词是将连续的字序列按照一定的规范重新组合成词序列的过程，中文分词是将一个汉字序列分成一个一个的单独的词。在分词的
技术介绍
中，中文分词方法一般有以下三类：基于词典匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于词典(字符串匹配、机械分词法)匹配的分词方法是按照一定的策略将待分析的汉字串与一个机器词典进行词条匹配，若在词典中找到某个字符串，则匹配成功。其次是基于理解的分词方法，通过让计算机模拟人对句子的理解，达到识别词的效果。目前基于理解的分词方法可以用深度学习中自然语言处理的方法来实现。基于统计的分词方法是在给定大量已经分词的文本的前提下，利用统计机器学习模型学习词语切分的规律，实现对未知文本的切分。最大熵分词方法、最大概率分词方法等。关键信息检索，主要是基于文本及语义的相似匹配问题。两个文本之间的相似度达到一定要求后，匹配为需要检索的关键信息。基于VSM(VectorSpaceModel)的余弦相似度算法来评价两个文本间的相识度。余弦相似度，又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。两个空间向量之间的夹角越小，我们就认为这两个向量越吻合。使用词袋one-hot的方式，就是形成一个词的字典集，然后将文本中的词投射到词袋中，对应的位置用出现的频次填充，没有的填充零。此外，TF-IDF(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘...

【技术保护点】
1.一种基于分词技术的病历关键信息提取模型，包括以下部分：A、对病历信息进行分词处理；B、对关键信息(词)进行检索；C、利用近邻原理对所检索信息词前后词对比后进行信息提取。

【技术特征摘要】
1.一种基于分词技术的病历关键信息提取模型，包括以下部分：A、对病历信息进行分词处理；B、对关键信息(词)进行检索；C、利用近邻原理对所检索信息词前后词对比后进行信息提取。2.根据权利要求1所述的一种基于分词技术的病历关键信息提取模型，其特征在于，所述的部分A中，所述的对病历信息进行分词处理是指：将病历的文本信息预处理，处理成连续无空格的文本形式，然后对病历进行分词处理。在分词处理前，应当建立分词词库，以建立关键信息提取的标准。3.根据权利要求1所述的一种基于分词技术的病历关键信息提取模型，其特征在于，所述的部分B中，所述的对关键信息(词)...

【专利技术属性】
技术研发人员：庞善臣，丁桐，翟雪，王淑玉，李艳青，
申请(专利权)人：中国石油大学华东，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人