结构化信息的生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:25439093 阅读:18 留言:0更新日期:2020-08-28 22:27
本申请公开了一种结构化信息的生成方法、装置、电子设备和存储介质,涉及自然语言处理领域的信息处理领域。具体实现方案为:获取源文本序列;将源文本序列输入行为‑评价模型,以生成源文本序列对应的结构化信息,其中,行为‑评价模型包括行为子模型和评价子模型,行为子模型用于根据输入的源文本序列生成源文本序列对应的结构化信息,评价子模型用于对行为子模型进行训练。由此,通过行为‑评价模型根据输入的源文本序列,直接生成对应的结构化信息,实现了端到端的信息抽取,解决了开放领域信息抽取时训练模型标注的成本高的技术问题,有效提高了结构化信息抽取的效率和准确率。

【技术实现步骤摘要】
结构化信息的生成方法、装置、电子设备和存储介质
本申请涉及自然语言处理领域的信息处理领域,尤其涉及一种结构化信息的生成方法、装置、电子设备和存储介质。
技术介绍
在各个行业中,普遍存在以自然语言记录的文本,通常把这类文本定义为非结构化文本,如财务报表、新闻、病历等等。目前,在舆情分析、传播分析、数据平台服务等应用场景都存在结构化信息抽取的需求,即从非结构化文本中提取需要的结构化字段,如,从财务报表中提取公司名称、从新闻中提取袭击事件的地点、从病历中提取患者的情况,等等。信息抽取包括垂直领域信息抽取和开放领域信息抽取。现有的结构化信息抽取方法主要针对垂直领域进行信息抽取,并且在对垂直领域进行优化建模时,需要对训练样本集进行标注。但是,由于开放领域数据较多,使得对开放领域的样本进行标注的成本高,并不能使得模型达到很好的效果,从而导致模型对开放领域信息进行结构化信息抽取时,存在准确率低的问题。
技术实现思路
本申请提供了一种用于结构化信息的生成方法的方法、装置、电子设备和存储介质。本申请第一方面实施例提供了一种结构化信息的生成方法,包括:获取源文本序列;将所述源文本序列输入行为-评价模型,以生成所述源文本序列对应的结构化信息,其中,所述行为-评价模型包括行为子模型和评价子模型,所述行为子模型用于根据输入的所述源文本序列生成所述源文本序列对应的结构化信息,所述评价子模型用于对所述行为子模型进行训练。本申请第二方面实施例提供了一种结构化信息的生成装置,包括:获取模块,用于获取源文本序列;生成模块,用于将所述源文本序列输入行为-评价模型,以生成所述源文本序列对应的结构化信息,其中,所述行为-评价模型包括行为子模型和评价子模型,所述行为子模型用于根据输入的所述源文本序列生成所述源文本序列对应的结构化信息,所述评价子模型用于对所述行为子模型进行训练。本申请第三方面实施例提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面实施例的结构化信息的生成方法。本申请第四方面实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行第一方面实施例的结构化信息的生成方法。上述申请中的一个实施例具有如下优点或有益效果:通过获取源文本序列,将源文本序列输入行为-评价模型,以生成源文本序列对应的结构化信息,其中,行为-评价模型包括行为子模型和评价子模型,行为子模型用于根据输入的源文本序列生成源文本序列对应的结构化信息,评价子模型用于对行为子模型进行训练。由此,通过行为-评价模型根据输入的源文本序列,直接生成对应的结构化信息,实现了端到端的信息抽取,解决了开放领域信息抽取时训练模型标注的成本高的技术问题,有效提高了结构化信息抽取的效率和准确率。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1为本申请实施例一提供的结构化信息的生成方法的流程示意图;图2为本申请实施例二提供的结构化信息的生成方法的流程示意图;图3为本申请实施例提供的结构化信息的生成方法的示例图;图4为本申请实施例三提供的结构化信息的生成装置的结构示意图;图5是用来实现本申请实施例的结构化信息的生成方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。信息抽取任务是从非结构化的自然语言语句中抽取结构化信息,比如实体、实体之间的关系等等。信息抽取包括垂直领域信息抽取任务和开放领域信息抽取任务,垂直领域信息抽取任务是在一个已定义的刚要系统中进行信息抽取工作,常常采用一些监督学习或者弱监督学习的方法从文本中挖掘预先定义好的实体集合中实体之间的关系。而开放领域信息抽取工作则不存在这个预先定义的刚要系统,通常着重于挖掘自然语言语句中蕴含的知识,以及表达知识的方法,并从开放领域自然语句中提取实体以及实体之间的关系,可以称这种实体以及实体间关系为自然语言中蕴含的事实。这些事实在很多任务中是非常有价值的,比如:文本摘要、阅读理解、词相似度、基于知识的问答系统。但是,相关技术中的信息抽取模型采用模式匹配的方法,如,人工定义的模式,启发式学习等,这些模式匹配方法并不适用于开放领域,不利于模型的扩展,并且需要很多人工干预,存在人力成本高的缺点。此外,现有的信息抽取模型大多是针对垂直领域进行信息抽取,在对开放领域信息进行结构化信息抽取时,存在准确率低的问题。针对上述现有的技术问题,本申请提出了一种结构化信息的生成方法,通过获取源文本序列;将源文本序列输入行为-评价模型,以生成源文本序列对应的结构化信息,其中,行为-评价模型包括行为子模型和评价子模型,行为子模型用于根据输入的源文本序列生成源文本序列对应的结构化信息,评价子模型用于对行为子模型进行训练。由此,通过行为-评价模型根据输入的源文本序列,直接生成对应的结构化信息,实现了端到端的信息抽取,解决了开放领域信息抽取时训练模型标注的成本高的技术问题,有效提高了结构化信息抽取的效率和准确率。下面参考附图描述本申请实施例的结构化信息的生成方法、装置、电子设备和存储介质。图1为本申请实施例一提供的结构化信息的生成方法的流程示意图。本申请实施例以该结构化信息的生成方法被配置于结构化信息的生成装置中来举例说明,该结构化信息的生成装置可以应用于任一电子设备中,以使该电子设备可以执行结构化信息的生成功能。其中,电子设备可以为个人电脑(PersonalComputer,简称PC)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统的硬件设备。如图1所示,该结构化信息的生成方法,可以包括以下步骤:步骤S101,获取源文本序列。其中,源文本序列,是指用自然语言记录的非结构化的文本。例如,个人简历、病人病历、新闻,等等。在一种可能的情况下,源文本序列,可以为用户输入的文本序列,例如,用户手动输入的非结构化源文本序列,或者通过语音的方式输入的非结构化源文本序列,等等,本申请实施例中对用户输入源文本序列的方式不做限定。在另一种可能的情况下,源文本序列,还可以为从服务器端下载的文本。例如,从医院的病历管理系统里下载病人的病历。需要说明的是,源文本序列中包本文档来自技高网...

【技术保护点】
1.一种结构化信息的生成方法,其特征在于,所述方法包括:/n获取源文本序列;/n将所述源文本序列输入行为-评价模型,以生成所述源文本序列对应的结构化信息,其中,所述行为-评价模型包括行为子模型和评价子模型,所述行为子模型用于根据输入的所述源文本序列生成所述源文本序列对应的结构化信息,所述评价子模型用于对所述行为子模型进行训练。/n

【技术特征摘要】
1.一种结构化信息的生成方法,其特征在于,所述方法包括:
获取源文本序列;
将所述源文本序列输入行为-评价模型,以生成所述源文本序列对应的结构化信息,其中,所述行为-评价模型包括行为子模型和评价子模型,所述行为子模型用于根据输入的所述源文本序列生成所述源文本序列对应的结构化信息,所述评价子模型用于对所述行为子模型进行训练。


2.如权利要求1所述的结构化信息的生成方法,其特征在于,所述将所述源文本序列输入行为-评价模型,以生成所述源文本序列对应的结构化信息之前,还包括:
获取多个训练样本;每一个所述训练样本中包括样本文本序列和所述样本文本序列所对应的样本结构化信息;
将所述多个训练样本输入所述行为子模型以生成预测结构化信息;
将所述预测结构化信息和所述样本结构化信息输入所述评价子模型,以生成评价值;以及
根据所述评价值对所述评价子模型进行训练。


3.如权利要求2所述的结构化信息的生成方法,其特征在于,所述评价子模型包括编码器和解码器;所述将所述预测结构化信息和所述样本结构化信息输入所述评价子模型以生成评价值,包括:
将所述样本结构化信息输入所述编码器,以及将所述预测结构化信息输入所述解码器,以生成预测质量得分;
根据所述预测结构化信息和所述样本结构化信息生成奖励得分;
根据所述预测质量得分和所述奖励得分生成所述评价值。


4.如权利要求3所述的结构化信息的生成方法,其特征在于,所述根据所述待评价结构化信息和所述样本结构化信息生成奖励得分,包括:
根据所述样本结构化信息和所述预测结构化信息生成所述预测结构化信息之中每个序列位置的相似性得分;
根据所述每个序列位置的相似性得分生成所述预测结构化信息的奖励得分,其中,所述序列位置的奖励得分为当前序列位置的相似性得分与上一个序列位置的相似性得分之差。


5.如权利要求3所述的结构化信息的生成方法,其特征在于,所述评价子模型的损失函数为:



其中,为所述预测质量得分,为所述奖励得分,T为所述样本结构化信息对应的序列长度,N为采样的数量,和分别为第t序列位置的单词和第γ序列位置的单词,为第1至第t-1序列位置的单词,Yn为所述样本结构化信息,n、γ、t均为正整数。


6.如权利要求3所述的结构化信息的生成方法,其特征在于,所述方法还包括:
根据所述预测质量得分对所述行为子模型的参数进行梯度更新。


7.如权利要求6所述的结构化信息的生成方法,其特征在于,通过以下公式对所述行为子模型的参数进行梯度更新,

其中,为先进方程,其中,
其中,为所述预测质量得分,θ为待训练参数,为单词表,a和b均为所述单词表中的单词,T为所述样本结构化信息对应的序列长度,N为采样的数量,为第1至第t-1序列位置的单词,Yn为所述样本结构化信息,π为所述行为子模型,n和t均为正整数。


8.如权利要求2所述的结构化信息的生成方法,其特征在于,所述将所述多个训练样本输入所述行为子模型以生成预测结构化信息之后,还包括:
获取所述预测结构化信息之中每个序列位置的概率;
确定所述概率小于预设概率阈值的序列位置时,则在所述概率小于预设概率阈值的序列位置处按照所述序列位置对应预测结果进行扩展;
从所述序列位置开始使用所述行为子模型进行预测,以重新生成预测结构化信息;以及
根据重新生成的预测结构化信息对所述奖励得分进行更新。


9.一种结构化信息的生成装置,其特征在于,所述装置包括:
获取模块,用于获取源文本序列;
生成模块,用于将所述源文本序列输入行为-评价模型,以生成所述源文本序列对应的结构化信息,其中,所述行为-评价模型包括行为子模型和评价子模...

【专利技术属性】
技术研发人员:李旭刘桂良孙明明李平
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1