面向大规模医疗文本挖掘的中文分词和命名实体识别系统技术方案

技术编号：26377631 阅读：33 留言：0更新日期：2020-11-19 23:46

本发明专利技术提供一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统，涉及数据处理技术领域。本发明专利技术首先构建词典；基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果中的歧义集；基于CRF模型对歧义集再次分词；基于word2vec和分词后的文本获取词向量，将词向量输入到叠层BiLSTM‑CRF模型中，通过叠层BiLSTM‑CRF模型的第一层对词向量进行实体标注，实体标注后的词向量加入词性特征构成输入特征集，通过叠层BiLSTM‑CRF模型第二层对输入特征集进行复杂命名实体识别。本发明专利技术有效解决了提出了基于词典的CRF分词，利用CRF实现自动消除歧义，改善歧义词的分词效果，提高了叠层BiLSTM‑CRF模型输入词向量的准确度，从而降低引入分词错误，实现提高命名实体识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
面向大规模医疗文本挖掘的中文分词和命名实体识别系统
本专利技术涉及数据处理
，具体涉及一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统。
技术介绍
随着医学领域的不断发展，医疗文本数据的积累也越来越多，针对这些医疗文本数据进行有效挖掘使之造福于社会大众成为研究热点。医疗文本，以电子病历为代表，包含大量丰富的医疗信息，是实现辅助诊疗、疾病预防和健康管理等的重要资源。为更好利用电子病历需对其中的非结构化信息进行结构化处理，其中病历的分词是该过程的基础，而命名实体识别则是该过程的重点和难点。电子病历的命名实体识别主要是指从电子病历的描述性文本中识别出如疾病名称、治疗方法、药物等临床实体。目前深度学习中的BiLSTM-CRF模型是应用于电子病历命名实体识别的主流模型。BiLSTM-CRF模型在表示层使用字符向量或词向量作为输入，经过一个BiLSTM网络对每个词语在上下文中的抽象特征表示进行自动学习，将提取的文本特征传输到CRF层进行序列标注，其中BiLSTM网络即模型隐藏层内包含有两个方向的网络结构，一种是按从左...

【技术保护点】
1.一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统，其特征在于，包括：/n词典构建模块，用于获取常用词汇和医学相关词汇，构建词典；/n文本粗分模块，用于基于所述词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果，所述粗分结果包括歧义集；/nCRF分词模块，用于基于预先设置的CRF模型对所述歧义集再次分词；/n命名实体识别模块，用于基于word2vec和分词后的文本获取词向量，将词向量输入到叠层BiLSTM-CRF模型中，通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注，实体标注后的词向量加入词性特征构成输入特征集，通过叠层BiLSTM-CRF模型第二层对输入特征集进行...

【技术特征摘要】
1.一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统，其特征在于，包括：
词典构建模块，用于获取常用词汇和医学相关词汇，构建词典；
文本粗分模块，用于基于所述词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果，所述粗分结果包括歧义集；
CRF分词模块，用于基于预先设置的CRF模型对所述歧义集再次分词；
命名实体识别模块，用于基于word2vec和分词后的文本获取词向量，将词向量输入到叠层BiLSTM-CRF模型中，通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注，实体标注后的词向量加入词性特征构成输入特征集，通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。

2.如权利要求1所述的面向大规模医疗文本挖掘的中文分词和命名实体识别系统，其特征在于，所述基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果，包括：
(1)、加载停词表，切分文本；
(2)、对切分后的文本从左往右提取不超过词典中最大长度的词作为匹配字段；
(3)、查询词典库并进行匹配，若存在与所述匹配字段相符的字段则将这个所述匹配字段作为一个词切分出来；否则将这个匹配字段的最后一个字符去掉，余下的字符串作为新的匹配字段，重新进行匹配；
(4)、循环进行减少字符的操作，直到匹配字段字数为零为止；
(5)、重复算法匹配过程，将文本切分完成为止，得到切分序列S1；
(6)、对切分后的文本从右往左提取不超过词典中最大长度的词作为匹配字段；再执行(3)～(5)获得S2；
(7)、对切分序列S1和S2，逐项扫描；若第i项有S1[i]＝S2[i]且第i+1项有S1[i+1]＝S2[i+1]，则检测是否lS1[i]＝lS1[i+1]＝2且lS1[i]∩lS1[i+1]＝1，如是则加入歧义集反之不加；若第i项有S1[i]≠S2[i]，则加入歧义集。

3.如权利要求1所述的面向大规模医疗文本挖掘的中文分词和命名实体识别系统，其特征在于，所述基于预先设置的CRF模型对所述歧义集再次分词，包括：
向CRF模型输入歧义集，利用维特比算法进行预测获得分词结果。

4.如权利要求1～3任一所述的面向大规模医疗文本挖掘的中文分词和命名实体识别系统，其特征在于，所述预先设置的CRF模型的设置过程包括：
在条件随机场中，给定输入观测序列X的条件下输出标记序列Y的概率为：

式中:

表示在输入X字符序列下输出序列Y的所有可能结果的概率之和，为归一化因子；
定义优化目标函数：

式中：
p(Y|X)表示在输入字符序列为X的条件下输出...

【专利技术属性】
技术研发人员：顾东晓，周晨，王晓玉，赵树平，杨雪洁，苏凯翔，赵旺，姚晗，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人