一种观点对象抽取方法及装置制造方法及图纸

技术编号：36801341 阅读：16 留言：0更新日期：2023-03-08 23:46

本申请提供了一种观点对象抽取方法及装置，包括：获取待处理语料，所述待处理语料包括多个语料片段和多个语料描述，所述多个语料描述分别与所述多个语料片段相对应；基于第一预训练模型，抽取所述待处理语料中的至少一个观点片段；基于第二预训练模型，结合所述至少一个观点片段和所述多个语料描述，抽取至少一个观点对象，所述至少一个观点对象分别与至少一个所述观点片段相对应。通过该方法可以通过两步式的深度模型提取观点片段和观点对象，主观性参与较少，灵活度高，提高了提取的观点片段和观点对象的准确性。和观点对象的准确性。和观点对象的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种观点对象抽取方法及装置

[0001]本申请涉及数据处理的
，特别是涉及观点对象抽取方法及装置。

技术介绍

[0002]机器阅读理解能够解决传统的检索式问答最后一公里的难题，也就是精准定位答案。传统的检索式问答通常是用户在输入一个问题之后，从海量的文档集中检索出若干候选文档，并对这些若干候选文档做段落切分和排序，最后以段落为单位作为答案直接反馈给用户。但是通常这样的段落还包含了较多的冗余信息，因此我们希望使用观点片段及观点对象抽取的技术，进一步提升机器的阅读理解能力。
[0003]传统的观点提取只能提取观点片段，并且需要人为的定义关键词特征，再通过启发式规则一步一步学习观点提取技术。这样，观点提取的过程不仅需要大量人工参与，主观性较强，而且不同阅读者之间的理解有偏差会导致启发式规则设计有漏洞，提取的观点片段和观点对象的准确性较低，较为死板，且无法提取具体的观点对象。
[0004]因此，如何提高观点抽取的准确性，是本领域技术人员亟需解决的技术问题。

技术实现思路

[0005]有鉴于此，本申请实施例提供了一种观点对象抽取方法及装置，旨在提高观点抽取的准确性。
[0006]第一方面，本申请实施例提供了一种观点对象抽取方法，包括：
[0007]获取待处理语料，所述待处理语料包括多个语料片段和多个语料描述，所述多个语料描述分别与所述多个语料片段相对应；
[0008]基于第一预训练模型，抽取所述待处理语料中的至少一个观点片段；
[0009]基于第二预训练模型...

【技术保护点】

【技术特征摘要】
1.一种观点对象抽取方法，其特征在于，所述方法包括：获取待处理语料，所述待处理语料包括多个语料片段和多个语料描述，所述多个语料描述分别与所述多个语料片段相对应；基于第一预训练模型，抽取所述待处理语料中的至少一个观点片段；基于第二预训练模型，结合所述至少一个观点片段和所述多个语料描述，抽取至少一个观点对象，所述至少一个观点对象分别与至少一个所述观点片段相对应。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取待训练语料，所述待训练语料包括多个训练语料片段和多个训练语料描述，所述多个训练语料描述分别与所述多个训练语料片段相对应；标注所述待训练语料中的观点片段和观点对象，得到标注数据，每个所述训练语料片段、所述训练语料描述、所述待训练语料中的观点片段和观点对象分别对应；利用所述标注数据训练第一初始模型，得到所述第一预训练模型；利用所述标注数据训练第二初始模型，得到所述第二预训练模型。3.根据权利要求2所述的方法，其特征在于，所述第一初始模型包括以BERT+BiLSTM+CRF为主体框架的模型，所述第二初始模型为以BERT为主体框架的模型。4.根据权利要求3所述的方法，其特征在于，所述以BERT为主体框架的模型，包括：其中，C
S
表示第i个字为观点对象起始位置的概率，e是自然对数的底数，S为起始向量，H
i
为第i个字的表征信息，H
j
为第j个字的表征信息，j为观点对象结束位置在与所述观点对象结束位置对应的观点片段中的字数序号；其中，C
E
表示第i个字为观点对象结束位置的概率，e是自然对数的底数，E为结束向量，H
i
为第i个字的表征信息，H
j
为第j个字的表征信息，j为观点对象结束位置在与所述观点对象结束位置对应的观点...

【专利技术属性】
技术研发人员：宋瑞林，
申请(专利权)人：太保科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人