一种中医药文本关键信息的智能抽取方法技术

技术编号:36692456 阅读:25 留言:0更新日期:2023-02-27 20:01
本发明专利技术属于文本处理领域,具体涉及一种中医药文本关键信息的智能抽取方法,包括将待识别的中医药文本数据输入到训练好的实体片段识别模型中,预测中医药文本中实体的位置;将待识别的中医药文本数据以及对应的实体位置信息输入到实体类别识别模型,预测中医药文本中实体的类别;其中,所述实体片段识别模型采用BIO标记法结合Bert+CRF模型架构;所述实体类别识别模型采用原型网络结构,通过本发明专利技术能够准确地识别出中医药文本中的实体位置信息以及实体所属的类别。以及实体所属的类别。以及实体所属的类别。

【技术实现步骤摘要】
一种中医药文本关键信息的智能抽取方法


[0001]本专利技术属于文本处理领域,具体涉及一种中医药文本关键信息的智能抽取方法。

技术介绍

[0002]实体识别技术是自然语言处理领域中一项关键的技术,是其他自然语言处理应用的基础,旨在从文本中抽取人们所关注的实体片段,例如人名、机构名、地名等。目前,针对中文命名实体识别在一定条件下已经取得较好的性能。
[0003]随着自然语言处理技术的深入应用,以及社会各行业的发展。文本的种类也越来越多,比如广播对话、电视新闻、网络博客等。在不同的领域所定义的命名实体也不尽相同。然而,在中医药命名实体识别领域中,还面临着巨大的挑战。
[0004]为了使中医药分类识别模型的效果更好,信息提取更加的准确,再信息提取模型的训练过程中需要大量的高质量标注数据,而对中医药领域的数据标注门槛较高,需要很多专业知识,普通人无法完成,标注代价昂贵;因此,如何利用有限的数据训练出效果更好的信息提取模型是目前亟待解决的问题。

技术实现思路

[0005]为了解决
技术介绍
中存在的问题,本专利技术提供一种中医本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种中医药文本关键信息的智能抽取方法,其特征在于,包括:将待识别的中医药文本数据输入到训练好的实体片段识别模型中,预测中医药文本中实体的位置;将待识别的中医药文本数据以及对应的实体位置信息输入到训练好的实体类别识别模型,预测中医药文本中实体的类别;其中,所述实体片段识别模型采用BIO标记法结合Bert+CRF模型架构;所述实体类别识别模型采用原型网络结构;对实体片段识别模型和实体类别识别模型进行训练的过程包括:S1:获取原始中医药文本数据,采用全词掩盖策略对原始中医药文本数据进行继续预训练得到中医药文本的预训练模型M;S2:采用基于语义聚类的分层抽样法抽取部分原始中医药文本进行人工标注生成具有标签信息的训练样本集,所述标签信息包括:原始中医药文本中实体的位置信息和原始中医药文本中实体的类别信息;S3:根据中医药文本的预训练模型M、训练样本集和训练样本的标签信息利用反向传播机制对实体片段识别模型进行训练;S4:根据中医药文本的预训练模型M、训练样本集和训练样本的标签信息利用反向传播机制对实体类别识别模型进行训练。2.根据权利要求1所属的一种中医药文本关键信息的智能抽取方法,其特征在于,所述采用全词掩盖策略对原始中医药文本数据进行继续预训练包括:S11:使用Jieba分词中的隐马尔科夫分词模型对原始中医药文本进行分词;S12:采用全词掩盖策略将原始中医药文本中20%的词语替换为等长度的“[MASK]”标记得到x
*
;S13:将x
*
输入到中文预训练模型Bert

WWM,采用MLM任务继续预训练,得到中医药文本的预训练模型M。3.根据权利要求1所属的一种中医药文本关键信息的智能抽取方法,其特征在于,所述采用基于语义聚类的分层抽样法抽取部分原始中医药文本进行人工标注生成具有标签信息的训练样本集包括:S21:使用USE获取原始中医药文本的语义特征;S22:将每个原始中医药文本的语义特征输入到K

mea...

【专利技术属性】
技术研发人员:王进林兴何晓莲刘彬孙开伟
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1