结构化信息的生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号：25439093 阅读：18 留言：0更新日期：2020-08-28 22:27

本申请公开了一种结构化信息的生成方法、装置、电子设备和存储介质，涉及自然语言处理领域的信息处理领域。具体实现方案为：获取源文本序列；将源文本序列输入行为‑评价模型，以生成源文本序列对应的结构化信息，其中，行为‑评价模型包括行为子模型和评价子模型，行为子模型用于根据输入的源文本序列生成源文本序列对应的结构化信息，评价子模型用于对行为子模型进行训练。由此，通过行为‑评价模型根据输入的源文本序列，直接生成对应的结构化信息，实现了端到端的信息抽取，解决了开放领域信息抽取时训练模型标注的成本高的技术问题，有效提高了结构化信息抽取的效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
结构化信息的生成方法、装置、电子设备和存储介质
本申请涉及自然语言处理领域的信息处理领域，尤其涉及一种结构化信息的生成方法、装置、电子设备和存储介质。
技术介绍
在各个行业中，普遍存在以自然语言记录的文本，通常把这类文本定义为非结构化文本，如财务报表、新闻、病历等等。目前，在舆情分析、传播分析、数据平台服务等应用场景都存在结构化信息抽取的需求，即从非结构化文本中提取需要的结构化字段，如，从财务报表中提取公司名称、从新闻中提取袭击事件的地点、从病历中提取患者的情况，等等。信息抽取包括垂直领域信息抽取和开放领域信息抽取。现有的结构化信息抽取方法主要针对垂直领域进行信息抽取，并且在对垂直领域进行优化建模时，需要对训练样本集进行标注。但是，由于开放领域数据较多，使得对开放领域的样本进行标注的成本高，并不能使得模型达到很好的效果，从而导致模型对开放领域信息进行结构化信息抽取时，存在准确率低的问题。
技术实现思路
本申请提供了一种用于结构化信息的生成方法的方法、装置、电子设备和存储介质。本申请第一方面实施例提供了一种结构化信息的生成方法，包括：获取源文本序列；将所述源文本序列输入行为-评价模型，以生成所述源文本序列对应的结构化信息，其中，所述行为-评价模型包括行为子模型和评价子模型，所述行为子模型用于根据输入的所述源文本序列生成所述源文本序列对应的结构化信息，所述评价子模型用于对所述行为子模型进行训练。本申请第二方面实施例提供了一种结构化信息的生成装置，包括：获取模块，用于获取...

【技术保护点】
1.一种结构化信息的生成方法，其特征在于，所述方法包括：/n获取源文本序列；/n将所述源文本序列输入行为-评价模型，以生成所述源文本序列对应的结构化信息，其中，所述行为-评价模型包括行为子模型和评价子模型，所述行为子模型用于根据输入的所述源文本序列生成所述源文本序列对应的结构化信息，所述评价子模型用于对所述行为子模型进行训练。/n

【技术特征摘要】
1.一种结构化信息的生成方法，其特征在于，所述方法包括：
获取源文本序列；
将所述源文本序列输入行为-评价模型，以生成所述源文本序列对应的结构化信息，其中，所述行为-评价模型包括行为子模型和评价子模型，所述行为子模型用于根据输入的所述源文本序列生成所述源文本序列对应的结构化信息，所述评价子模型用于对所述行为子模型进行训练。

2.如权利要求1所述的结构化信息的生成方法，其特征在于，所述将所述源文本序列输入行为-评价模型，以生成所述源文本序列对应的结构化信息之前，还包括：
获取多个训练样本；每一个所述训练样本中包括样本文本序列和所述样本文本序列所对应的样本结构化信息；
将所述多个训练样本输入所述行为子模型以生成预测结构化信息；
将所述预测结构化信息和所述样本结构化信息输入所述评价子模型，以生成评价值；以及
根据所述评价值对所述评价子模型进行训练。

3.如权利要求2所述的结构化信息的生成方法，其特征在于，所述评价子模型包括编码器和解码器；所述将所述预测结构化信息和所述样本结构化信息输入所述评价子模型以生成评价值，包括：
将所述样本结构化信息输入所述编码器，以及将所述预测结构化信息输入所述解码器，以生成预测质量得分；
根据所述预测结构化信息和所述样本结构化信息生成奖励得分；
根据所述预测质量得分和所述奖励得分生成所述评价值。

4.如权利要求3所述的结构化信息的生成方法，其特征在于，所述根据所述待评价结构化信息和所述样本结构化信息生成奖励得分，包括：
根据所述样本结构化信息和所述预测结构化信息生成所述预测结构化信息之中每个序列位置的相似性得分；
根据所述每个序列位置的相似性得分生成所述预测结构化信息的奖励得分，其中，所述序列位置的奖励得分为当前序列位置的相似性得分与上一个序列位置的相似性得分之差。

5.如权利要求3所述的结构化信息的生成方法，其特征在于，所述评价子模型的损失函数为：

其中，为所述预测质量得分，为所述奖励得分，T为所述样本结构化信息对应的序列长度，N为采样的数量，和分别为第t序列位置的单词和第γ序列位置的单词，为第1至第t-1序列位置的单词，Yn为所述样本结构化信息，n、γ、t均为正整数。

6.如权利要求3所述的结构化信息的生成方法，其特征在于，所述方法还包括：
根据所述预测质量得分对所述行为子模型的参数进行梯度更新。

7.如权利要求6所述的结构化信息的生成方法，其特征在于，通过以下公式对所述行为子模型的参数进行梯度更新，

其中，为先进方程，其中，
其中，为所述预测质量得分，θ为待训练参数，为单词表，a和b均为所述单词表中的单词，T为所述样本结构化信息对应的序列长度，N为采样的数量，为第1至第t-1序列位置的单词，Yn为所述样本结构化信息，π为所述行为子模型，n和t均为正整数。

8.如权利要求2所述的结构化信息的生成方法，其特征在于，所述将所述多个训练样本输入所述行为子模型以生成预测结构化信息之后，还包括：
获取所述预测结构化信息之中每个序列位置的概率；
确定所述概率小于预设概率阈值的序列位置时，则在所述概率小于预设概率阈值的序列位置处按照所述序列位置对应预测结果进行扩展；
从所述序列位置开始使用所述行为子模型进行预测，以重新生成预测结构化信息；以及
根据重新生成的预测结构化信息对所述奖励得分进行更新。

9.一种结构化信息的生成装置，其特征在于，所述装置包括：
获取模块，用于获取源文本序列；
生成模块，用于将所述源文本序列输入行为-评价模型，以生成所述源文本序列对应的结构化信息，其中，所述行为-评价模型包括行为子模型和评价子模...

【专利技术属性】
技术研发人员：李旭，刘桂良，孙明明，李平，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人