一种电子病历高质短语抽取方法技术

技术编号：15299764 阅读：134 留言：0更新日期：2017-05-12 01:59

本发明专利技术涉及一种电子病历高质短语抽取方法，属于大数据检索技术领域，该方法分为频繁短语挖掘、短语质量评估、短语切分和先验短语集更新四个阶段。首先进行频繁短语挖掘，基于频度统计，当短语出现频度大于阈值时，认为该短语频繁；然后，根据先验短语集对生成的频繁短语候选进行短语质量评估；接着，根据评估出的短语质量值进行短语切分，并修正错误的原始频率估计；最后，将切分结果中的高质短语加入先验短语集，完成高质短语抽取及先验短语集更新，以便在下次短语切分时，达到更好的切分效果。本方法能够有效抽取电子病历中的高质短语，抽取出的短语是病历中的常用词汇，且符合医生的使用习惯。

High quality phrase extraction method for electronic medical record

The invention relates to an electronic medical record high quality phrase extraction method, which belongs to the technical field of big data retrieval, the method of mining frequent phrases quality assessment, phrase segmentation and prior phrase set update four stages. Firstly, frequent mining, based on frequency statistics, when the phrase frequency is larger than the threshold, that the phrase is frequent; then, according to the prior set phrases to generate candidate frequent phrases for phrase quality evaluation; then, according to the assessment of the quality value of short phrase language segmentation, and revised the original frequency error estimation; finally. The segmentation results in high quality phrases with prior phrase set, complete with high quality phrase extraction and prior phrase set update, so that the next phrase segmentation, achieve better segmentation effect. The method can effectively extract high-quality phrases in electronic medical records, and the phrases extracted are commonly used words in medical records, and conform to the doctor's habits.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大数据检索
，特别涉及在口腔健康数据服务平台中一种电子病历高质短语抽取的方法。
技术介绍
随着互联网的高速发展和社会信息化步伐的加快，各行业的数据迅猛发展，人类已经步入大数据时代。对大数据的处理和分析，可以从中挖掘出有价值的信息，进而有效解决特定领域的问题。在医疗健康领域，“互联网+”概念的提出，使医疗信息化进程的不断推进，电子病历的使用正逐渐普及，电子记录的科研价值与应用价值也不断凸显出来。对电子病历进行高效准确的检索，可以为数据分析、决策支持等工作奠定良好的基础。在各大医院，由于就诊患者众多，且每名患者就诊次数一般为两到三次甚至更多，电子病历数量为海量级。若能在很短的时间内，从海量电子病历中准确检索出所需的信息，将为医学领域带来极大的贡献。现有的检索系统主要为基于词库的关键词匹配和基于本体的语义查询。基于词库的关键词匹配为精确检索，检索出的结果包含与输入关键词完全匹配的内容；基于本体的语义查询为模糊检索，检索出的结果包含输入关键词的近义词、同义词等。在我国，检索系统目前主要采用第一种基于词库的关键词匹配方式，词库来源为术语词典和经验。由于文本数据的复杂性，目前最常使用的对文档中所有出现的内容建立检索的方式是使用倒排索引技术。倒排索引，即对文档中的每个词，建立“词-文档”映射序列，当输入待检索词时，系统会定位到含有该词的文档并排序显示，以达到检索效果。已开放源代码的Lucene框架可用来直接建立倒排索引。电子病历的全文检索效果往往依赖于中文分词是否精准。中文分词是将语句切分成能够表达完整语义的一个个词语。已有完整的中文分词工具可供直...
一种电子病历高质短语抽取方法

【技术保护点】
一种电子病历高质短语抽取的方法，其特征在于，该方法分为频繁短语挖掘、短语质量评估、短语切分和先验短语集更新四个阶段；具体包括以下步骤：1)频繁短语挖掘包括以下步骤：1‑1)数据预处理：采用Jieba分词组件对电子病历进行中文分词处理，得到一系列词语；1‑2)基于原始频度，根据以往经验设定频度阈值，当词语的原始频度大于阈值时，认为该词语是频繁的；1‑3)将频繁词语组合成短语，当短语的原始频度大于阈值时，则该短语是频繁的；频繁的词语和短语，共同构成候选频繁短语；2)短语质量评估包括以下步骤：2‑1)对候选频繁短语选取点互信息PMI，K‑L散度，倒排文档频率IDF，以及停止词出现的频率次数和出现在引号、括号中的短语频次五个特征作为每个候选频繁短语的特征；2‑2)根据提取的五个特征，采用K‑means方法对候选频繁短语进行聚类，将所有候选频繁短语聚为300类；2‑3)在每个聚类中挑选一个候选频繁短语，根据先验短语集对候选频繁短语进行打标处理，打标为“0”或“1”分值，1表示该短语既是候选频繁短语，又存在于先验短语集中；否则打标为0；2‑4)使用已打标候选频繁短语训练随机森林分类模型：从已打标的...

【技术特征摘要】
1.一种电子病历高质短语抽取的方法，其特征在于，该方法分为频繁短语挖掘、短语质量评估、短语切分和先验短语集更新四个阶段；具体包括以下步骤：1)频繁短语挖掘包括以下步骤：1-1)数据预处理：采用Jieba分词组件对电子病历进行中文分词处理，得到一系列词语；1-2)基于原始频度，根据以往经验设定频度阈值，当词语的原始频度大于阈值时，认为该词语是频繁的；1-3)将频繁词语组合成短语，当短语的原始频度大于阈值时，则该短语是频繁的；频繁的词语和短语，共同构成候选频繁短语；2)短语质量评估包括以下步骤：2-1)对候选频繁短语选取点互信息PMI，K-L散度，倒排文档频率IDF，以及停止词出现的频率次数和出现在引号、括号中的短语频次五个特征作为每个候选频繁短语的特征；2-2)根据提取的五个特征，采用K-means方法对候选频繁短语进行聚类，将所有候选频繁短语聚为300类；2-3)在每个聚类中挑选一个候选频繁短语，根据先验短语集对候选频繁短语进行打标处理，打标为“0”或“1”分值，1表示该短语既是候选频繁短语，又存在于先验短语集中；否则打标为0；2-4)使用已打标候选频繁短语训练随机森林分类模型：从已打标的候选频繁短语中，每次随机挑选100个短语，再对挑选的每个短语随机挑选1至4个特征生成一棵决策树；当生成规定数目的决策树时，由这些决策树...

【专利技术属性】
技术研发人员：尚昭，金涛，王建民，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人