一种基于LSTM模型的信息抽取方法、装置及电子设备制造方法及图纸

技术编号:34766435 阅读:19 留言:0更新日期:2022-08-31 19:18
本发明专利技术公开了一种基于LSTM模型的信息抽取方法、装置及电子设备,方法包括:获取训练样本,对所述训练样本进行文本预处理,生成预处理好的训练文本和对应的标注序列;构建基于注意力机制的LSTM模型,基于所述预处理好的训练文本和对应的标注序列,对基于注意力机制的LSTM模型进行训练,生成目标LSTM模型;获取待提取事件文本,对所述待提取事件文本进行预处理,生成预处理后的目标文本;将所述目标文本输入所述目标LSTM模型,根据所述目标LSTM模型的输出,得到抽取后的结构化文本。本发明专利技术实施例基于LSTM模型,提高了模型的语义信息理解能力,从而提高了现券成交的信息抽取准确率。从而提高了现券成交的信息抽取准确率。从而提高了现券成交的信息抽取准确率。

【技术实现步骤摘要】
一种基于LSTM模型的信息抽取方法、装置及电子设备


[0001]本专利技术涉及数据处理
,尤其涉及一种基于LSTM模型的信息抽取方法、装置及电子设备。

技术介绍

[0002]现券交易是金融固收领域中最常见的一种的交易。在现券交易的文本理解中经常出现一词多义的情况,看到消息的交易者在不了解全部信息的情况下时常也会被对方发送的信息中存在的一词多义弄混淆,因此模型更会如此。在现券成交中常会出现以下语料:“A债019865.SH 2000W 3.65 YY证券发XX 银行”和“卖出B债109765.SH 1000W 3.45XX银行发ZZ证券”。在上述两条语料中“发”的含义并不相同,第一个“发”是“卖出”的意思,第二个“发”是“请求”的意思,非金融专业人员都不一定能懂两个语料中“发”的意思,因此模型在没有先验知识的情况下并不一定能学习好这两种情况。
[0003]现有的解决一词多义的方法主要有两种。第一种是通过大模型通过大量的数据进行学习的,比如BERT、Roberta、XLM

Robert等,这些模型拥有一亿以上的参数量,使得模型即使在没有外部先验知识的情况下也能够尽可能地学习到一词多义。第二种是通过添加外部先验知识,把一个词语的多种意思进行融合输入到模型中,使得模型能够利用合适的语义对文本信息进行学习,从而能够正确地学习文本信息的语义信息,提高模型的准确率。
[0004]现在的大模型都是基于预训练模型进行构建的,预训练模型如BERT、 Robert、XLM

Roberta等模型都是参数量巨大的模型。这种参数量巨大的模型在实际工业任务上在某些情况下并不适用,公司或许并没有充足的计算资源可以搭建参数量巨大的模型。因此需要考虑轻量级的模型。
[0005]其次,则是在轻量级的模型上引入外部先验知识,即引入一个词语的多种意思的词向量。但是现有的引入外部先验知识的模型非常粗暴,直接通过多个词向量进行相加或者拼接,没有考虑在本文中的词语更偏向于哪个意思。
[0006]因此现有技术中对现券成交信息进行识别时,对多义词的识别效果较差,造成现券成交信息识别效率低。
[0007]因此,现有技术还有待于改进和发展。

技术实现思路

[0008]鉴于上述现有技术的不足,本专利技术提供了一种基于LSTM模型的信息抽取方法、装置及电子设备,旨在解决现有技术中对现券成交信息进行识别时,对多义词的识别效果较差,造成现券成交信息识别效率低的问题。
[0009]本专利技术的技术方案如下:
[0010]本专利技术第一实施例提供了一种基于LSTM模型的信息抽取方法,方法包括:
[0011]获取训练样本,对所述训练样本进行文本预处理,生成预处理好的训练文本和对应的标注序列;
[0012]构建基于注意力机制的LSTM模型,基于所述预处理好的训练文本和对应的标注序列,对基于注意力机制的LSTM模型进行训练,生成目标LSTM模型;
[0013]获取待提取事件文本,对所述待提取事件文本进行预处理,生成预处理后的目标文本;
[0014]将所述目标文本输入所述目标LSTM模型,根据所述目标LSTM模型的输出,得到抽取后的结构化文本。
[0015]进一步地,所述获取训练样本,对所述训练样本进行文本预处理,生成预处理好的训练文本和对应的标注序列,包括:
[0016]获取训练样本,将训练样本中的标注信息和文本进行分离;
[0017]将文本内容转换成字符级别的词向量;
[0018]将标注信息转换为对应的标注序列。
[0019]进一步地,所述将文本内容转换成字符级别的词向量,包括:
[0020]获取文本内容中的词语,将词语转换成字符级别的词向量;
[0021]获取词语的起始字位置和结束字位置;
[0022]将所述词向量、词语的起始字位置和结束字位置进行存储。
[0023]进一步地,所述获取文本内容中的词语,将词语转换成字符级别的词向量,还包括:
[0024]获取文本内容中的词语,对词语的语义种类进行识别;
[0025]若词语的语义种类为一种,则将词语进行编码,转换成字符级别的词向量;
[0026]若词语的语义种类为大于一种,则将词语的每种语义对应的词向量信息进行融合后,生成字符级别的词向量。
[0027]进一步地,所述将词语的各种语义对应的词向量信息进行融合后,生成字符级别的词向量,包括:
[0028]获取词语的每种语义对应的词向量的权重系数;
[0029]根据所述权重系数对词向量信息进行融合后,生成字符级别的词向量。
[0030]进一步地,所述构建基于注意力机制的LSTM模型,基于所述预处理好的训练文本和对应的标注序列,对基于注意力机制的LSTM模型进行训练,生成目标LSTM模型,包括:
[0031]构建基于注意力机制的LSTM模型,所述LSTM模型包括LSTM细胞、输入门、遗忘门和输出门组成;
[0032]将词向量输入LSTM模型,并通过LSTM细胞对词语的起始字位置和结束字位置之间进行拼接;
[0033]根据拼接结果对基于注意力机制的LSTM模型进行训练,生成目标LSTM 模型。
[0034]进一步地,所述构建基于注意力机制的LSTM模型,基于所述预处理好的训练文本和对应的标注序列,对基于注意力机制的LSTM模型进行训练,生成目标LSTM模型,包括:
[0035]构建基于注意力机制的LSTM模型,所述LSTM模型包括LSTM细胞、输入门、遗忘门和输出门组成;
[0036]将词向量输入LSTM模型,并通过LSTM细胞对词语的起始字位置和结束字位置之间进行拼接;
[0037]通过拼接结果获取对应的词语,获取词语的语义种类,获取各种语义所占的权重
系数;
[0038]根据所述权重系数对的LSTM模型进行训练,生成目标LSTM模型。
[0039]本专利技术的另一实施例提供了一种基于LSTM模型的信息抽取装置,装置包括:
[0040]样本预处理模块,用于获取训练样本,对所述训练样本进行文本预处理,生成预处理好的训练文本和对应的标注序列;
[0041]模型训练模块,用于构建基于注意力机制的LSTM模型,基于所述预处理好的训练文本和对应的标注序列,对基于注意力机制的LSTM模型进行训练,生成目标LSTM模型;
[0042]待提取文本预处理模块,用于获取待提取事件文本,对所述待提取事件文本进行预处理,生成预处理后的目标文本;
[0043]信息抽取模块,用于将所述目标文本输入所述目标LSTM模型,根据所述目标LSTM模型的输出,得到抽取后的结构化文本。
[0044]本专利技术的另一实施例提供了一种电子设备,所述电子设备包括至少一个处理器;以及,
[0045]与所述至少一个处理器通信连接的存储器;其中,
[0046]所述存储器存储有可被所述至少一个处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于LSTM模型的信息抽取方法,其特征在于,所述方法包括:获取训练样本,对所述训练样本进行文本预处理,生成预处理好的训练文本和对应的标注序列;构建基于注意力机制的LSTM模型,基于所述预处理好的训练文本和对应的标注序列,对基于注意力机制的LSTM模型进行训练,生成目标LSTM模型;获取待提取事件文本,对所述待提取事件文本进行预处理,生成预处理后的目标文本;将所述目标文本输入所述目标LSTM模型,根据所述目标LSTM模型的输出,得到抽取后的结构化文本。2.根据权利要求1所述的方法,其特征在于,所述获取训练样本,对所述训练样本进行文本预处理,生成预处理好的训练文本和对应的标注序列,包括:获取训练样本,将训练样本中的标注信息和文本进行分离;将文本内容转换成字符级别的词向量;将标注信息转换为对应的标注序列。3.根据权利要求2所述的方法,其特征在于,所述将文本内容转换成字符级别的词向量,包括:获取文本内容中的词语,将词语转换成字符级别的词向量;获取词语的起始字位置和结束字位置;将所述词向量、词语的起始字位置和结束字位置进行存储。4.根据权利要求3所述的方法,其特征在于,所述获取文本内容中的词语,将词语转换成字符级别的词向量,还包括:获取文本内容中的词语,对词语的语义种类进行识别;若词语的语义种类为一种,则将词语进行编码,转换成字符级别的词向量;若词语的语义种类为大于一种,则将词语的每种语义对应的词向量信息进行融合后,生成字符级别的词向量。5.根据权利要求3所述的方法,其特征在于,所述将词语的各种语义对应的词向量信息进行融合后,生成字符级别的词向量,包括:获取词语的每种语义对应的词向量的权重系数;根据所述权重系数对词向量信息进行融合后,生成字符级别的词向量。6.根据权利要求5所述的方法,其特征在于,所述构建基于注意力机制的LSTM模型,基于所述预处理好的训练文本和对应的标注序列,对基于注意力机制的LSTM模型进行训练,生成目标LSTM模型,包括:构建基于注意力机制的LSTM模型,所述LSTM模型包括LSTM细胞、输入门、遗忘门和输出门组成;将词向量输入LSTM模型,并通...

【专利技术属性】
技术研发人员:林远平甘伟超邹鸿岳周靖宇
申请(专利权)人:北京快确信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1