一种中医古籍命名实体识别方法、装置、设备和存储介质制造方法及图纸

技术编号：38938460 阅读：40 留言：0更新日期：2023-09-25 09:39

本发明专利技术公开了一种中医古籍命名实体识别方法、装置、设备和存储介质。其中，该方法包括：先基于预处理后的中文古籍语料进行第一阶段的语言模型预训练，在中文古籍预训练模型的基础上，基于预处理后的中医古籍语料进行第二阶段的语言模型预训练，得到中医古籍预训练模型；将预处理后的中医古籍语料上传至数据标注平台，以供专业人士对预处理后的中医古籍语料进行预标注；基于预标注后的数据对待训练的命名实体识别模型进行初步训练，通过至少引入一次新数据对初步训练后的命名实体识别模型进行更新，以得到目标命名实体识别模型。本发明专利技术的技术方案，解决了中医古籍中经典名方的关键信息的考证问题，提高对中医古籍文献命名实体识别的准确度。识别的准确度。识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种中医古籍命名实体识别方法、装置、设备和存储介质

[0001]本专利技术实施例涉及信息处理
，尤其涉及一种中医古籍命名实体识别方法、装置、设备和存储介质。

技术介绍

[0002]经典名方的制剂简化注册成为目前新药研发的热点之一，其中，关键信息考证是经典名方开发利用的关键性、源头性问题。
[0003]然而，由于中医药具有独特的理论体系，海量的中医典籍和几千年的人用经验中蕴藏着不为我们所知的大量信息。经典名方的关键信息具有时间跨度长、变迁多、数据量大、存储形式多样化、高价值性等特征。人工智能(Artificial Intelligence，AI)的意义不仅在于掌握庞大的数据信息，而且在于对这些数据进行专业化处理，应用的关键在于提高对数据的“加工”能力，通过人工智能高效准确地“加工”挖掘数据的“价值”。
[0004]但传统中医药典数据与现代文本训练数据存在较大的写作风格与用词的差异，现有的自然语言处理常用训练集并不能很好的适用于中医古籍。此外，中医古籍的成书时间跨度很大，相互之间也存在显著的风格差异。若采用...

【技术保护点】

【技术特征摘要】
1.一种中医古籍命名实体识别方法，其特征在于，包括：S1、获取包含中医古籍的中文古籍原始语料；S2、对所述中文古籍原始语料进行数据预处理，以得到预处理后的中文古籍语料和中医古籍语料；S3、先基于预处理后的中文古籍语料进行第一阶段的语言模型预训练，得到中文古籍预训练模型，在所述中文古籍预训练模型的基础上，基于预处理后的中医古籍语料进行第二阶段的语言模型预训练，得到中医古籍预训练模型；S4、将预处理后的中医古籍语料上传至数据标注平台，以供专业人士对所述预处理后的中医古籍语料进行预标注，以得到预标注后的训练数据集；S5、基于所述训练数据集对待训练的命名实体识别模型进行初步训练，以得到初步训练后的命名实体识别模型；S6、在初步训练后的命名实体识别模型的基础上，通过至少引入一次新数据对所述初步训练后的命名实体识别模型进行更新，以得到目标命名实体识别模型。2.根据权利要求1所述的方法，其特征在于，所述S2具体包括：对所述中文古籍原始语料进行数据预处理，以得到预处理后的中文古籍语料；从所述预处理后的中文古籍语料中筛选出中医古籍语料作为预处理后的中医古籍语料。3.根据权利要求1所述的方法，其特征在于，所述S3具体包括：基于所述预处理后的中文古籍语料，通过拷贝方式模拟动态掩码，按照句子长度的一定比例进行掩码操作；基于经掩码操作的中文古籍语料进行第一阶段的语言模型预训练，得到中文古籍预训练模型；基于所述预处理后的中医古籍语料，通过拷贝的方式模拟动态掩码，按照句子长度一定比例进行掩码操作；基于所述中文古籍预训练模型权重，以及经掩码操作的中医古籍掩码语料，进行第二阶段的语言模型预训练，得到中医古籍预训练模型。4.根据权利要求1所述的方法，其特征在于，所述S4具体包括：从预处理后的中医古籍语料中确定用于预标注的目标中医古籍语料；将所述目标中医古籍语料上传至所述数据标注平台，以供专业人士根据实体识别种类和序列标注形式对所述目标中医古籍语料中的每个字符进行预标注，从而得到预标注后的训练数据集。5.根据权利要求1所述的方法，其特征在于，所述S5具体包括：在所述中医古籍预训练模型的基础上，结合双向长短期记忆网络模型、实体边界分类模型和实体类型分类模型，构建待训练的命名实体识别模型；基于所述训练数据集对所述待训练的命名实体识别模型进行初步训练，以得到初步训...

【专利技术属性】
技术研发人员：谭红胜，陈扬斌，陆志伟，董昌盛，赵东峰，徐威，
申请(专利权)人：苏州复变医疗科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人