基于中医古籍文献的中医命名实体识别方法及识别系统技术方案

技术编号：21892214 阅读：37 留言：0更新日期：2019-08-17 14:37

本发明专利技术提供了一种基于中医古籍文献的中医命名实体识别方法及系统，用以解决中医命名实体的识别问题。所述方法在获取中医古籍文献语料的基础上进行数据清理，再进行语言模型预训练；通过对语料进行序列标注，形成后续模型的训练集；基于序列标注的模型训练集，将语言模型作为编码层，将神经网络结构作为解码层，训练序列标注模型，从而基于序列标注模型进行中医命名实体识别。本发明专利技术结合现有的语言训练模型，如Google提出的语言模型预训练方法bert，基于小样本训练集节省了人工标注的成本，提高了识别效果及准确率，易操作，实现对中医古籍文献，尤其是中医古籍医案的有效和全面利用，为中医领域研究打下了良好的基础。

Named Entity Recognition Method and Recognition System of Traditional Chinese Medicine Based on Ancient Chinese Medical Books and Documents

全部详细技术资料下载

【技术实现步骤摘要】
基于中医古籍文献的中医命名实体识别方法及识别系统
本专利技术属于信息处理与中医文献领域，具体涉及一种基于中医古籍文献的中医命名实体识别方法及识别系统。
技术介绍
传统中医学博大精深，中医的传播一方面通过老一辈医疗工作者的直接经验传递，另一方面是文献。在中医文献中，保存了大量的中医古籍医案，其中包含了众多的名老中医经验和诊疗方法。这里提到的中医古籍医案就是指古代中医治疗疾病时对病人有关的症状、病因、方剂、用药等做的连续记录。其中，中医命名实体就是指中医古籍医案中对病人疾病进行阐述重现的症状、方剂、用药等信息实体。为了更好的利用包括中医古籍医案在内的中医文献，中医命名实体识别是中医领域相关研究的重要前提。当前命名实体识别在一些常见的实体类型(如人名、地名、机构名等)上的研究已经获得了很好的结果，基本都接近了人工标注水平。然而，中医古籍文献与其他文献在用词和语法上都有很大的不同，具有自己的特色，现有技术中的命名实体识别方法应用到中医古籍医案上，无法得到理想的效果。同时中医古籍医案中存在很多比较棘手的文法现象，导致人工标注也变得困难与昂贵，进一步加大了中医命名实体识别的难...

【技术保护点】
1.一种基于中医古籍文献的中医命名实体识别方法，其特征在于，所述方法包括如下步骤：步骤S1，获取中医古籍医案语料；步骤S2，对步骤S1获取的所述待处理的中医古籍医案语料进行数据清理；步骤S3，基于步骤S2得到的中医古籍医案语料，进行面向中医古籍医案语料的语言模型预训练；步骤S4，基于步骤S2所获得的清理后的中医古籍医案语料，对所述语料进行序列标注，形成后续模型的训练集；步骤S5，基于步骤S4得到的序列标注的模型训练集，将步骤S3的语言模型作为编码层，将预设的神经网络结构作为解码层，训练相应的序列标注模型；步骤S6，基于步骤S5训练得到的序列标注模型，对中医古籍医案进行实体识别。

【技术特征摘要】
1.一种基于中医古籍文献的中医命名实体识别方法，其特征在于，所述方法包括如下步骤：步骤S1，获取中医古籍医案语料；步骤S2，对步骤S1获取的所述待处理的中医古籍医案语料进行数据清理；步骤S3，基于步骤S2得到的中医古籍医案语料，进行面向中医古籍医案语料的语言模型预训练；步骤S4，基于步骤S2所获得的清理后的中医古籍医案语料，对所述语料进行序列标注，形成后续模型的训练集；步骤S5，基于步骤S4得到的序列标注的模型训练集，将步骤S3的语言模型作为编码层，将预设的神经网络结构作为解码层，训练相应的序列标注模型；步骤S6，基于步骤S5训练得到的序列标注模型，对中医古籍医案进行实体识别。2.根据权利要求1所述的中医命名实体识别方法，其特征在于，所述步骤S1获取中医古籍医案语料，具体包括以下步骤：步骤S11，利用光学字符识别对已有的纸质版中医古籍医案书籍进行扫描识别，形成电子文本语料；步骤S12，利用开源网络爬虫从网络上抓取没有纸质版书籍的中医古籍医案语料；步骤S13，将步骤S11和步骤S12获取到的语料文本进行对比、合并，最终形成统一的待处理的中医古籍医案语料。3.根据权利要求1所述的中医命名实体识别方法，其特征在于，所述步骤S2对待处理的中医古籍医案语料进行数据清理，具体包括以下步骤：步骤S21，校正错别字；步骤S22，过滤无关语句。4.根据权利要求1所述的中医命名实体识别方法，其特征在于，步骤S3中所述语言模型预训练，具体包括以下步骤：步骤S31，下载语言模型预训练中文语言训练的源码；步骤S32，人工整理中医古籍医案涉及到的字表，与源码中的中文字表对比，切分出中医领域的生僻字表；步骤S33，以生僻字表中的字符代替源码中使用频率低的字符的方式，将所述生僻字表与中文字表合并，并保证中文字表的长度不变；步骤S34，对步骤S2清理后的中医古籍医案语料中的段落进行分段，预设段落长度阈值和/或段落包含句子数量阈值，将大于所述段落长度阈值和/或段落包含句子数量阈值的段落文本，作为语言训练模型的训练语料；步骤S35，利用按字符分隔的分词规则替换源码中的分词方法，基于中文语言训练模型，以所下载的语言模型预训练方法在所述步骤S34中的语言训练模型的训练语料上进行面向中医古籍医案的语言模型预训练。5.根据权利要求1所述的中医命名实体识别方法，其特征在于，步骤S3，所述语言模型预训练，采用Google的语言模型预训练方法bert。6.根据权利要求5所述的中医命名实体识别方法，其特征在于，所述...

【专利技术属性】
技术研发人员：张德政，杨石兵，贾麒，谢永红，夏超，栗辉，
申请(专利权)人：北京科技大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人