一种观点对象抽取方法及装置制造方法及图纸

技术编号:36801341 阅读:16 留言:0更新日期:2023-03-08 23:46
本申请提供了一种观点对象抽取方法及装置,包括:获取待处理语料,所述待处理语料包括多个语料片段和多个语料描述,所述多个语料描述分别与所述多个语料片段相对应;基于第一预训练模型,抽取所述待处理语料中的至少一个观点片段;基于第二预训练模型,结合所述至少一个观点片段和所述多个语料描述,抽取至少一个观点对象,所述至少一个观点对象分别与至少一个所述观点片段相对应。通过该方法可以通过两步式的深度模型提取观点片段和观点对象,主观性参与较少,灵活度高,提高了提取的观点片段和观点对象的准确性。和观点对象的准确性。和观点对象的准确性。

【技术实现步骤摘要】
一种观点对象抽取方法及装置


[0001]本申请涉及数据处理的
,特别是涉及观点对象抽取方法及装置。

技术介绍

[0002]机器阅读理解能够解决传统的检索式问答最后一公里的难题,也就是精准定位答案。传统的检索式问答通常是用户在输入一个问题之后,从海量的文档集中检索出若干候选文档,并对这些若干候选文档做段落切分和排序,最后以段落为单位作为答案直接反馈给用户。但是通常这样的段落还包含了较多的冗余信息,因此我们希望使用观点片段及观点对象抽取的技术,进一步提升机器的阅读理解能力。
[0003]传统的观点提取只能提取观点片段,并且需要人为的定义关键词特征,再通过启发式规则一步一步学习观点提取技术。这样,观点提取的过程不仅需要大量人工参与,主观性较强,而且不同阅读者之间的理解有偏差会导致启发式规则设计有漏洞,提取的观点片段和观点对象的准确性较低,较为死板,且无法提取具体的观点对象。
[0004]因此,如何提高观点抽取的准确性,是本领域技术人员亟需解决的技术问题。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种观点对象抽取方法及装置,旨在提高观点抽取的准确性。
[0006]第一方面,本申请实施例提供了一种观点对象抽取方法,包括:
[0007]获取待处理语料,所述待处理语料包括多个语料片段和多个语料描述,所述多个语料描述分别与所述多个语料片段相对应;
[0008]基于第一预训练模型,抽取所述待处理语料中的至少一个观点片段;
[0009]基于第二预训练模型,结合所述至少一个观点片段和所述多个语料描述,抽取至少一个观点对象,所述至少一个观点对象分别与至少一个所述观点片段相对应。
[0010]可选的,所述观点对象抽取方法还包括:
[0011]获取待训练语料,所述待训练语料包括多个训练语料片段和多个训练语料描述,所述多个训练语料描述分别与所述多个训练语料片段相对应;
[0012]标注所述待训练语料中的观点片段和观点对象,得到标注数据,每个所述训练语料片段、所述训练语料描述、所述待训练语料中的观点片段和观点对象分别对应;
[0013]利用所述标注数据训练第一初始模型,得到所述第一预训练模型;
[0014]利用所述标注数据训练第二初始模型,得到所述第二预训练模型。
[0015]可选的,所述第一初始模型包括以BERT+BiLSTM+CRF为主体框架的模型,所述第二初始模型为以BERT为主体框架的模型。
[0016]可选的,所述以BERT为主体框架的模型,包括:
[0017][0018]其中,C
S
表示第i个字为观点对象起始位置的概率,e是自然对数的底数,S为起始向量,H
i
为第i个字的表征信息,H
j
为第j个字的表征信息,j为观点对象结束位置在与所述观点对象结束位置对应的观点片段中的字数序号;
[0019][0020]其中,C
E
表示第i个字为观点对象结束位置的概率,e是自然对数的底数,E为结束向量,H
i
为第i个字的表征信息,H
j
为第j个字的表征信息,j为观点对象结束位置在与所述观点对象结束位置对应的观点片段中的字数序号。
[0021]可选的,在所述基于第一预训练模型,抽取所述待处理语料中的至少一个观点片段之后,所述观点对象抽取方法还包括:
[0022]利用BIO标注法,标注所述至少一个观点片段。
[0023]第二方面,本申请实施例提供了一种观点对象抽取装置,包括:
[0024]获取模块,用于获取待处理语料,所述待处理语料包括多个语料片段和多个语料描述,所述多个语料描述分别与所述多个语料片段相对应;
[0025]第一抽取模块,用于基于第一预训练模型,抽取所述待处理语料中的至少一个观点片段;
[0026]第二抽取模块,用于基于第二预训练模型,结合所述至少一个观点片段和所述多个语料描述,抽取至少一个观点对象,所述至少一个观点对象分别与至少一个所述观点片段相对应。
[0027]可选的,所述观点对象抽取装置还包括:
[0028]训练获取模块,用于获取待训练语料,所述待训练语料包括多个训练语料片段和多个训练语料描述,所述多个训练语料描述分别与所述多个训练语料片段相对应;
[0029]训练标注模块,用于标注所述待训练语料中的观点片段和观点对象,得到标注数据,每个所述训练语料片段、所述训练语料描述、所述待训练语料中的观点片段和观点对象分别对应;
[0030]第一训练模块,用于利用所述标注数据训练第一初始模型,得到所述第一预训练模型;
[0031]第二训练模块,用于利用所述标注数据训练第二初始模型,得到所述第二预训练模型。
[0032]可选的,所述观点对象抽取装置还包括:
[0033]标注模块,用于利用BIO标注法,标注所述至少一个观点片段。
[0034]第三方面,本申请实施例提供了一种设备,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行前述第一方面任一项所述的观点对象抽取方法。
[0035]第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面任一项所述的观点对象抽取方法。
[0036]本申请实施例提供了一种观点对象抽取方法及装置,在执行所述方法时,先获取待处理语料,所述待处理语料包括多个语料片段和多个语料描述,所述多个语料描述分别
与所述多个语料片段相对应,后基于第一预训练模型,抽取所述待处理语料中的至少一个观点片段,最后基于第二预训练模型,结合所述至少一个观点片段和所述多个语料描述,抽取至少一个观点对象,所述至少一个观点对象分别与至少一个所述观点片段相对应。这样,通过该方法可以通过两步式的深度模型提取观点片段和观点对象,主观性参与较少,灵活度高,提高了提取的观点片段和观点对象的准确性。
附图说明
[0037]为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1为本申请实施例提供的观点对象抽取方法的一种方法流程图;
[0039]图2为本申请实施例提供的观点对象抽取方法的另一种方法流程图;
[0040]图3为本申请实施例提供的观点对象抽取装置的一种结构示意图。
具体实施方式
[0041]传统的观点提取只能提取观点片段,并且需要人为的定义关键词特征,再通过启发式规则一步一步学习观点提取技术。这样,观点提取的过程不仅需要大量人工参与,主观性较强,而且不同阅读者之间的理解有偏差会导致启发式规则设计有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种观点对象抽取方法,其特征在于,所述方法包括:获取待处理语料,所述待处理语料包括多个语料片段和多个语料描述,所述多个语料描述分别与所述多个语料片段相对应;基于第一预训练模型,抽取所述待处理语料中的至少一个观点片段;基于第二预训练模型,结合所述至少一个观点片段和所述多个语料描述,抽取至少一个观点对象,所述至少一个观点对象分别与至少一个所述观点片段相对应。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取待训练语料,所述待训练语料包括多个训练语料片段和多个训练语料描述,所述多个训练语料描述分别与所述多个训练语料片段相对应;标注所述待训练语料中的观点片段和观点对象,得到标注数据,每个所述训练语料片段、所述训练语料描述、所述待训练语料中的观点片段和观点对象分别对应;利用所述标注数据训练第一初始模型,得到所述第一预训练模型;利用所述标注数据训练第二初始模型,得到所述第二预训练模型。3.根据权利要求2所述的方法,其特征在于,所述第一初始模型包括以BERT+BiLSTM+CRF为主体框架的模型,所述第二初始模型为以BERT为主体框架的模型。4.根据权利要求3所述的方法,其特征在于,所述以BERT为主体框架的模型,包括:其中,C
S
表示第i个字为观点对象起始位置的概率,e是自然对数的底数,S为起始向量,H
i
为第i个字的表征信息,H
j
为第j个字的表征信息,j为观点对象结束位置在与所述观点对象结束位置对应的观点片段中的字数序号;其中,C
E
表示第i个字为观点对象结束位置的概率,e是自然对数的底数,E为结束向量,H
i
为第i个字的表征信息,H
j
为第j个字的表征信息,j为观点对象结束位置在与所述观点对象结束位置对应的观点...

【专利技术属性】
技术研发人员:宋瑞林
申请(专利权)人:太保科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1