一种文本信息快速抽取方法、装置、设备及存储介质制造方法及图纸

技术编号:37156098 阅读:44 留言:0更新日期:2023-04-06 22:17
本发明专利技术公开了一种文本信息快速抽取方法、装置、设备及存储介质,涉及人工智能技术。本发明专利技术采用预训练后的编码器网络作为编码器,采用第一指针网络和第二指针网络作为解码层,获取目标文本信息抽取模型,基于目标文本信息抽取模型进行文本信息抽取,能够提升文本信息抽取模型的训练和推理速度,实现快速地从文本中抽取信息。取信息。取信息。

【技术实现步骤摘要】
一种文本信息快速抽取方法、装置、设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本信息快速抽取方法、装置、设备及存储介质。

技术介绍

[0002]文本中通常存在一些有价值的信息,如何将文本中的重要信息抽取出来,是NLP(Natural Language Processing,自然语言处理)领域内的一个比较热门的方向。早期的NER(Named Entity Recognition,命名实体识别)系统通常依赖于人工制定的规则以及领域内的字典,这种基于规则和字典的方法局限性明显,难以扩展到其他领域而且维护的人力成本很高。随着深度学习的发展,越来越多的研究者尝试使用深度模型的学习能力来解决NER问题。
[0003]现有的文本信息抽取方法主要采用BLSTM(Bidirectional Long Short

term Memory,双向长短时记忆网络)和CRF(Conditional Random Field,条件随机场)模型实现。该模型首先采用BLSTM获取待抽取文本的上下文信息,然后利用CRF对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本信息快速抽取方法,其特征在于,包括:获取目标文本信息抽取模型;通过所述目标文本信息抽取模型的编码器网络对待抽取文本数据进行语义编码处理,得到所述待抽取文本数据中的语义编码特征;通过所述目标文本信息抽取模型的第一指针网络对所述语义编码特征进行第一语义解码处理,生成包含有所述待抽取文本数据中所有信息的语义类别的开始列表;通过所述目标文本信息抽取模型的第二指针网络对所述语义编码特征进行第二语义解码处理,生成包含有所述待抽取文本数据中所有信息的语义类别的结束列表;结合所述开始列表和所述结束列表,从所述待抽取文本数据中抽取出目标信息。2.如权利要求1所述的文本信息快速抽取方法,其特征在于,所述获取目标文本信息抽取模型,具体包括:对收集的所有语料数据进行预处理,得到样本数据集,并将所述样本数据集划分为训练数据集、验证数据集和测试数据集;采用预训练后的编码器网络作为编码器,采用第一指针网络和第二指针网络作为解码层,建立第一文本信息抽取模型;根据所述训练数据集训练所述第一文本信息抽取模型,对所述编码器网络的参数进行微调,得到第二文本信息抽取模型;在当前训练轮次的累计训练次数达到预设训练次数阈值时,根据所述验证数据集验证所述当前训练轮次下各个所述第二文本信息抽取模型,得到各个所述第二文本信息抽取模型的评估指标值;在累计训练轮数达到预设训练轮数阈值时,选择评估指标值最大的所述第二文本信息抽取模型作为第三文本信息抽取模型,并根据所述测试数据集测试所述第三文本信息抽取模型,得到所述第三文本信息抽取模型的评估指标值;在所述第三文本信息抽取模型的评估指标值达到预设评估指标阈值时,将所述第三文本信息抽取模型作为所述目标文本信息抽取模型。3.如权利要求2所述的文本信息快速抽取方法,其特征在于,所述对收集的所有语料数据进行预处理,得到样本数据集,具体为:根据预先定义的分句策略,分别对每一所述语料数据进行分句处理,得到若干个分词数据;对所有所述分词数据进行去重处理,得到若干个样本数据,将所有所述样本数据作为所述样本数据集。4.如权利要求2所述的文本信息快速抽取方法,其特征在于,所述将所述样本数据集划分为训练数据集、验证数据集和测试数据集,具体为:采用BIO标注体系,分别对所述样本数据集中的每一样本数据进行标注,得到各个所述样本数据的标签;根据预设的数据分配比例,将所述样本数据集划分为所述训练数据集、所述验证数据集和所述测试数据集。5.如权利要求2所述的文本...

【专利技术属性】
技术研发人员:姜焰宁义双宁可
申请(专利权)人:金蝶软件中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1