一种文本信息快速抽取方法、装置、设备及存储介质制造方法及图纸

技术编号:37156098 阅读:27 留言:0更新日期:2023-04-06 22:17
本发明专利技术公开了一种文本信息快速抽取方法、装置、设备及存储介质,涉及人工智能技术。本发明专利技术采用预训练后的编码器网络作为编码器,采用第一指针网络和第二指针网络作为解码层,获取目标文本信息抽取模型,基于目标文本信息抽取模型进行文本信息抽取,能够提升文本信息抽取模型的训练和推理速度,实现快速地从文本中抽取信息。取信息。取信息。

【技术实现步骤摘要】
一种文本信息快速抽取方法、装置、设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本信息快速抽取方法、装置、设备及存储介质。

技术介绍

[0002]文本中通常存在一些有价值的信息,如何将文本中的重要信息抽取出来,是NLP(Natural Language Processing,自然语言处理)领域内的一个比较热门的方向。早期的NER(Named Entity Recognition,命名实体识别)系统通常依赖于人工制定的规则以及领域内的字典,这种基于规则和字典的方法局限性明显,难以扩展到其他领域而且维护的人力成本很高。随着深度学习的发展,越来越多的研究者尝试使用深度模型的学习能力来解决NER问题。
[0003]现有的文本信息抽取方法主要采用BLSTM(Bidirectional Long Short

term Memory,双向长短时记忆网络)和CRF(Conditional Random Field,条件随机场)模型实现。该模型首先采用BLSTM获取待抽取文本的上下文信息,然后利用CRF对信息抽取标签之间的条件转移概率进行建模。在大规模预训练语言模型出现后,BLSTM逐渐被替换为预训练语言模型,比如BERT(Bidirectional Encoder Representation from Transformers,Google提出的预训练语言模型),并采用BERT作为编码器,获取待抽取文本的语义信息,最后使用CRF抽取文本中的信息。现有的文本信息抽取方法都需要利用CRF对信息抽取标签之间的条件转移概率进行建模,使得模型的训练和推理速度受到很大影响,难以快速地从文本中抽取信息。

技术实现思路

[0004]为了克服现有技术的缺陷,本专利技术提供一种文本信息快速抽取方法、装置、设备及存储介质,能够提升文本信息抽取模型的训练和推理速度,实现快速地从文本中抽取信息。
[0005]为了解决上述技术问题,第一方面,本专利技术一实施例提供一种文本信息快速抽取方法,包括:
[0006]获取目标文本信息抽取模型;
[0007]通过所述目标文本信息抽取模型的编码器网络对待抽取文本数据进行语义编码处理,得到所述待抽取文本数据中的语义编码特征;
[0008]通过所述目标文本信息抽取模型的第一指针网络对所述语义编码特征进行第一语义解码处理,生成包含有所述待抽取文本数据中所有信息的语义类别的开始列表;
[0009]通过所述目标文本信息抽取模型的第二指针网络对所述语义编码特征进行第二语义解码处理,生成包含有所述待抽取文本数据中所有信息的语义类别的结束列表;
[0010]结合所述开始列表和所述结束列表,从所述待抽取文本数据中抽取出目标信息。
[0011]进一步地,所述获取目标文本信息抽取模型,具体包括:
[0012]对收集的所有语料数据进行预处理,得到样本数据集,并将所述样本数据集划分
为训练数据集、验证数据集和测试数据集;
[0013]采用预训练后的编码器网络作为编码器,采用第一指针网络和第二指针网络作为解码层,建立第一文本信息抽取模型;
[0014]根据所述训练数据集训练所述第一文本信息抽取模型,对所述编码器网络的参数进行微调,得到第二文本信息抽取模型;
[0015]在当前训练轮次的累计训练次数达到预设训练次数阈值时,根据所述验证数据集验证所述当前训练轮次下各个所述第二文本信息抽取模型,得到各个所述第二文本信息抽取模型的评估指标值;
[0016]在累计训练轮数达到预设训练轮数阈值时,选择评估指标值最大的所述第二文本信息抽取模型作为第三文本信息抽取模型,并根据所述测试数据集测试所述第三文本信息抽取模型,得到所述第三文本信息抽取模型的评估指标值;
[0017]在所述第三文本信息抽取模型的评估指标值达到预设评估指标阈值时,将所述第三文本信息抽取模型作为所述目标文本信息抽取模型。
[0018]进一步地,所述对收集的所有语料数据进行预处理,得到样本数据集,具体为:
[0019]根据预先定义的分句策略,分别对每一所述语料数据进行分句处理,得到若干个分词数据;
[0020]对所有所述分词数据进行去重处理,得到若干个样本数据,将所有所述样本数据作为所述样本数据集。
[0021]进一步地,所述将所述样本数据集划分为训练数据集、验证数据集和测试数据集,具体为:
[0022]采用BIO标注体系,分别对所述样本数据集中的每一样本数据进行标注,得到各个所述样本数据的标签;
[0023]根据预设的数据分配比例,将所述样本数据集划分为所述训练数据集、所述验证数据集和所述测试数据集。
[0024]进一步地,所述第二文本信息抽取模型或所述第三文本信息抽取模型的评估指标值为:
[0025][0026]其中,TP为所述第二文本信息抽取模型或所述第三文本信息抽取模型正确预测的目标信息数量,FP为所述第二文本信息抽取模型或所述第三文本信息抽取模型错误预测的目标信息数量,FN为所述第二文本信息抽取模型或所述第三文本信息抽取模型遗漏预测的目标信息数量。
[0027]进一步地,所述结合所述开始列表和所述结束列表,从所述待抽取文本数据中抽取出目标信息,具体为:
[0028]对于所述开始列表,遍历所述待抽取文本数据中每一信息的语义类别,在当前信息的语义类别属于实体类别时,从所述结束列表中查找所述当前信息的匹配信息,将所述当前信息所在的位置与所述匹配信息所在的位置之间的信息作为一个所述目标信息,从所述待抽取文本数据中抽取出所述目标信息;
[0029]其中,所述匹配信息是位置在所述当前信息所在的位置之后、且语义类别与所述当前信息的语义类别相同的信息
[0030]进一步地,所述语义类别包括非实体类别和若干种实体类别。
[0031]第二方面,本专利技术一实施例提供一种文本信息快速抽取装置,包括:
[0032]目标模型获取模块,用于获取目标文本信息抽取模型;
[0033]语义编码处理模块,用于通过所述目标文本信息抽取模型的编码器网络对待抽取文本数据进行语义编码处理,得到所述待抽取文本数据中的语义编码特征;
[0034]第一语义解码处理模块,用于通过所述目标文本信息抽取模型的第一指针网络对所述语义编码特征进行第一语义解码处理,生成包含有所述待抽取文本数据中所有信息的语义类别的开始列表;
[0035]第二语义解码处理模块,用于通过所述目标文本信息抽取模型的第二指针网络对所述语义编码特征进行第二语义解码处理,生成包含有所述待抽取文本数据中所有信息的语义类别的结束列表;
[0036]目标信息抽取模块,用于结合所述开始列表和所述结束列表,从所述待抽取文本数据中抽取出目标信息。
[0037]第三方面,本专利技术一实施例提供一种文本信息快速抽取设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述存储器与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本信息快速抽取方法,其特征在于,包括:获取目标文本信息抽取模型;通过所述目标文本信息抽取模型的编码器网络对待抽取文本数据进行语义编码处理,得到所述待抽取文本数据中的语义编码特征;通过所述目标文本信息抽取模型的第一指针网络对所述语义编码特征进行第一语义解码处理,生成包含有所述待抽取文本数据中所有信息的语义类别的开始列表;通过所述目标文本信息抽取模型的第二指针网络对所述语义编码特征进行第二语义解码处理,生成包含有所述待抽取文本数据中所有信息的语义类别的结束列表;结合所述开始列表和所述结束列表,从所述待抽取文本数据中抽取出目标信息。2.如权利要求1所述的文本信息快速抽取方法,其特征在于,所述获取目标文本信息抽取模型,具体包括:对收集的所有语料数据进行预处理,得到样本数据集,并将所述样本数据集划分为训练数据集、验证数据集和测试数据集;采用预训练后的编码器网络作为编码器,采用第一指针网络和第二指针网络作为解码层,建立第一文本信息抽取模型;根据所述训练数据集训练所述第一文本信息抽取模型,对所述编码器网络的参数进行微调,得到第二文本信息抽取模型;在当前训练轮次的累计训练次数达到预设训练次数阈值时,根据所述验证数据集验证所述当前训练轮次下各个所述第二文本信息抽取模型,得到各个所述第二文本信息抽取模型的评估指标值;在累计训练轮数达到预设训练轮数阈值时,选择评估指标值最大的所述第二文本信息抽取模型作为第三文本信息抽取模型,并根据所述测试数据集测试所述第三文本信息抽取模型,得到所述第三文本信息抽取模型的评估指标值;在所述第三文本信息抽取模型的评估指标值达到预设评估指标阈值时,将所述第三文本信息抽取模型作为所述目标文本信息抽取模型。3.如权利要求2所述的文本信息快速抽取方法,其特征在于,所述对收集的所有语料数据进行预处理,得到样本数据集,具体为:根据预先定义的分句策略,分别对每一所述语料数据进行分句处理,得到若干个分词数据;对所有所述分词数据进行去重处理,得到若干个样本数据,将所有所述样本数据作为所述样本数据集。4.如权利要求2所述的文本信息快速抽取方法,其特征在于,所述将所述样本数据集划分为训练数据集、验证数据集和测试数据集,具体为:采用BIO标注体系,分别对所述样本数据集中的每一样本数据进行标注,得到各个所述样本数据的标签;根据预设的数据分配比例,将所述样本数据集划分为所述训练数据集、所述验证数据集和所述测试数据集。5.如权利要求2所述的文本...

【专利技术属性】
技术研发人员:姜焰宁义双宁可
申请(专利权)人:金蝶软件中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1