一种基于LSTM模型的信息抽取方法、装置及电子设备制造方法及图纸

技术编号：34766435 阅读：19 留言：0更新日期：2022-08-31 19:18

本发明专利技术公开了一种基于LSTM模型的信息抽取方法、装置及电子设备，方法包括：获取训练样本，对所述训练样本进行文本预处理，生成预处理好的训练文本和对应的标注序列；构建基于注意力机制的LSTM模型，基于所述预处理好的训练文本和对应的标注序列，对基于注意力机制的LSTM模型进行训练，生成目标LSTM模型；获取待提取事件文本，对所述待提取事件文本进行预处理，生成预处理后的目标文本；将所述目标文本输入所述目标LSTM模型，根据所述目标LSTM模型的输出，得到抽取后的结构化文本。本发明专利技术实施例基于LSTM模型，提高了模型的语义信息理解能力，从而提高了现券成交的信息抽取准确率。从而提高了现券成交的信息抽取准确率。从而提高了现券成交的信息抽取准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于LSTM模型的信息抽取方法、装置及电子设备

[0001]本专利技术涉及数据处理
，尤其涉及一种基于LSTM模型的信息抽取方法、装置及电子设备。

技术介绍

[0002]现券交易是金融固收领域中最常见的一种的交易。在现券交易的文本理解中经常出现一词多义的情况，看到消息的交易者在不了解全部信息的情况下时常也会被对方发送的信息中存在的一词多义弄混淆，因此模型更会如此。在现券成交中常会出现以下语料：“A债019865.SH 2000W 3.65 YY证券发XX 银行”和“卖出B债109765.SH 1000W 3.45XX银行发ZZ证券”。在上述两条语料中“发”的含义并不相同，第一个“发”是“卖出”的意思，第二个“发”是“请求”的意思，非金融专业人员都不一定能懂两个语料中“发”的意思，因此模型在没有先验知识的情况下并不一定能学习好这两种情况。
[0003]现有的解决一词多义的方法主要有两种。第一种是通过大模型通过大量的数据进行学习的，比如BERT、Roberta、XLM
‑
Robert等，这些模型拥有一亿以上的参数量，使得模型即使在没有外部先验知识的情况下也能够尽可能地学习到一词多义。第二种是通过添加外部先验知识，把一个词语的多种意思进行融合输入到模型中，使得模型能够利用合适的语义对文本信息进行学习，从而能够正确地学习文本信息的语义信息，提高模型的准确率。
[0004]现在的大模型都是基于预训练模型进行构建的，预训练模型如BERT、 Robert、XLM
‑
Ro...

【技术保护点】

【技术特征摘要】
1.一种基于LSTM模型的信息抽取方法,其特征在于,所述方法包括：获取训练样本，对所述训练样本进行文本预处理，生成预处理好的训练文本和对应的标注序列；构建基于注意力机制的LSTM模型，基于所述预处理好的训练文本和对应的标注序列，对基于注意力机制的LSTM模型进行训练，生成目标LSTM模型；获取待提取事件文本，对所述待提取事件文本进行预处理，生成预处理后的目标文本；将所述目标文本输入所述目标LSTM模型，根据所述目标LSTM模型的输出，得到抽取后的结构化文本。2.根据权利要求1所述的方法，其特征在于，所述获取训练样本，对所述训练样本进行文本预处理，生成预处理好的训练文本和对应的标注序列，包括：获取训练样本，将训练样本中的标注信息和文本进行分离；将文本内容转换成字符级别的词向量；将标注信息转换为对应的标注序列。3.根据权利要求2所述的方法，其特征在于，所述将文本内容转换成字符级别的词向量，包括：获取文本内容中的词语，将词语转换成字符级别的词向量；获取词语的起始字位置和结束字位置；将所述词向量、词语的起始字位置和结束字位置进行存储。4.根据权利要求3所述的方法，其特征在于，所述获取文本内容中的词语，将词语转换成字符级别的词向量，还包括：获取文本内容中的词语，对词语的语义种类进行识别；若词语的语义种类为一种，则将词语进行编码，转换成字符级别的词向量；若词语的语义种类为大于一种，则将词语的每种语义对应的词向量信息进行融合后，生成字符级别的词向量。5.根据权利要求3所述的方法，其特征在于，所述将词语的各种语义对应的词向量信息进行融合后，生成字符级别的词向量，包括：获取词语的每种语义对应的词向量的权重系数；根据所述权重系数对词向量信息进行融合后，生成字符级别的词向量。6.根据权利要求5所述的方法，其特征在于，所述构建基于注意力机制的LSTM模型，基于所述预处理好的训练文本和对应的标注序列，对基于注意力机制的LSTM模型进行训练，生成目标LSTM模型，包括：构建基于注意力机制的LSTM模型，所述LSTM模型包括LSTM细胞、输入门、遗忘门和输出门组成；将词向量输入LSTM模型，并通...

【专利技术属性】
技术研发人员：林远平，甘伟超，邹鸿岳，周靖宇，
申请(专利权)人：北京快确信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人