数据标注、生成方法、模型训练方法、设备和介质技术

技术编号:37672049 阅读:11 留言:0更新日期:2023-05-26 04:34
本说明书实施方式提供了一种数据标注方法、生成方法、模型训练方法、设备和介质。所述方法可以包括:获取待标注样本,所述待标注样本包括至少一个文本,所述文本包含至少一个事件,其中,每个文本包括至少一个文本语句;识别每个文本中的文本语句得到识别结果,若识别结果包括待标注信息,则根据所述待标注信息对对应的文本语句进行标注,所述待标注信息包括信息类型以及论元,所述信息类型为文本语句针对事件表达的观点类型,所述论元包括所述观点对应的目标事件和/或所述观点涉及的文本的实体信息。实现提升针对事件相关文本的内容提取的全面性。全面性。全面性。

【技术实现步骤摘要】
数据标注、生成方法、模型训练方法、设备和介质


[0001]本说明书中实施方式关于自然语言处理领域,尤其涉及一种数据标注、生成方法、模型训练方法、设备和介质。

技术介绍

[0002]目前,随着互联网技术的发展,社会大众已经习惯于通过计算机设备浏览网页页面。网页页面可以向用户提供图片、视频或文字等内容资源。
[0003]由于,每天都会有大量的信息在网络上传播。为了可以较为快速的了解某主题相关的信息,便需要针对网络上文章进行搜集整理,以及信息提取。如此,得到的加工后的信息数据可以便于使用者较为快速的了解该主题的相关信息。现有技术中,主要基于实体的情感分析,进行信息提取,得到三元组形式表示,(“实体”,”极性”,”情感词”)。例如:“这家酒店很整洁,但就是太贵了”这句话中,可以抽取三元组信息如下:(“酒店”,“积极”,“很整洁”),(“酒店”,“消极”,“太贵”)。
[0004]然而,在一些情况下,对于一些事件来说,如果仅仅抽取到一些相关实体的正向或负向的情感分析,抽取到的信息数据难以全面表达一个事件。

技术实现思路

[0005]本说明书中多个实施方式提供一种数据标注、生成方法、模型训练方法、设备和介质。实现提升针对事件相关文本的内容提取的全面性。
[0006]本说明书的一个实施方式提供一种数据标注方法,应用于数据标注系统,所述方法包括:获取待标注样本,所述待标注样本包括至少一个文本,所述文本包括至少一个事件,其中,每个文本包括至少一个文本语句;识别每个文本中的文本语句得到识别结果,若识别结果包括待标注信息,则根据所述待标注信息对对应的文本语句进行标注;所述待标注信息包括信息类型以及论元,所述信息类型为文本语句针对事件表达的观点类型,所述论元包括所述观点对应的目标事件和/或所述观点涉及的文本的实体信息。
[0007]本说明书的一个实施方式提供一种数据生成方法,可以包括:获取事件相关文本和事件描述数据;其中,所述事件描述数据用于描述发生的事件;所述事件相关文本与所述事件相关;所述事件相关文本包括多个文本语句;根据所述事件描述数据,识别出所述文本语句中表达观点的观点语句;确定所述观点语句对应的论元;将所述观点语句和对应的论元相绑定,生成信息数据。
[0008]本说明书的一个实施方式提供一种文本处理模型的训练方法,所述文本处理模型包括观点提取模型和论元识别模型,所述方法包括:接收多个第一样本数据和多个第二样本数据,所述第一样本数据包括事件描述数据和文本语句,所述第二样本数据包括观点语句、所述观点语句对应的文本段落、以及所述观点语句对应的论元,所述第一样本数据和所述第二样本数据包括相同的观点语句;其中,至少部分文本语句为表达观点的观点语句,所述事件描述数据用于描述发生的事件;基于所述第一样本数据训练所述观点提取模型;其
中,所述观点提取模型用于根据所述事件描述数据,提取出文本语句中的观点语句;基于所述第二样本数据训练所述论元识别模型;其中,所述论元识别模型用于根据所述文本段落识别与所述观点语句对应的论元。
[0009]本说明书的一个实施方式提供一种信息数据生成装置,包括:获取单元,用于获取事件相关文本和事件描述数据;其中,所述事件描述数据用于描述发生的事件;所述事件相关文本与所述事件相关;所述事件相关文本包括多个文本语句;观点识别单元,用于根据所述事件描述数据,识别出所述文本语句中表达观点的观点语句;论元确定单元,用于确定所述观点语句对应的论元;绑定单元,用于将所述观点语句和对应的论元相绑定,生成信息数据。
[0010]本说明的一个实施方式提供一种样本数据标注装置,包括:样本获取单元,用于获取待标注样本,所述待标注样本包括至少一个文本,所述文本包含至少一个事件,其中,每个文本包括至少一个文本语句;标注单元,用于识别每个文本中的文本语句得到识别结果,若识别结果包括待标注信息,则根据所述待标注信息对对应的文本语句进行标注,所述待标注信息包括信息类型以及论元,所述信息类型为文本语句针对事件表达的观点类型,所述论元包括所述观点对应的目标事件和/或所述观点涉及的文本的实体信息。
[0011]本说明书的一个实施方式提供一种文本处理模型的训练装置,所述文本处理模型包括观点提取模型和论元识别模型,所述训练装置包括:接收单元,用于接收多个第一样本数据和多个第二样本数据,所述第一样本数据包括事件描述数据、文本语句和与所述文本语句对应的论元,所述第二样本数据包括观点语句、所述观点语句对应的文本段落、以及所述观点语句对应的论元,所述第一样本数据和所述第二样本数据包括相同的观点语句;其中,至少部分文本语句为表达观点的观点语句;所述事件描述数据用于描述发生的事件;观点模型训练单元,用于基于所述第一样本数据训练所述观点提取模型;其中,所述观点提取模型用于根据所述事件描述数据,识别所述文本语句中的观点语句;论元模型训练单元,用于基于所述第二样本数据训练所述论元识别模型;其中,所述论元识别模型用于确定与所述观点语句对应的论元。
[0012]本说明书的一个实施方式提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述任一项所述的方法。
[0013]本说明书的一个实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述任一项所述的方法。
[0014]本说明书提供的多个实施方式,基于针对事件的事件描述数据在事件相关文章中提取出观点语句,并在观点语句中提取出论元。如此,实现了基于事件的信息数据提取,不再是仅仅关注了实体的情感分析,而是关注了与事件相关的事件相关文章中提出的观点和观点的论元,如此可以较为全面的表述一个事件。可以让使用者较为快速的了解事件的情况,以及可能的影响。
附图说明
[0015]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0016]图1为本说明书的一个实施方式提供的数据处理系统的示意图。
[0017]图2为本说明书的一个实施方式提供的基于事件的信息数据生成方法的流程示意图。
[0018]图3为本说明书的一个实施方式提供的样本数据标注方法的流程示意图。
[0019]图4为本说明书的一个实施方式提供的数据生成模型的训练方法的流程示意图。
[0020]图5为本说明书的一个实施方式提供的信息数据生成装置的模块示意图。
[0021]图6为本说明书的一个实施方式提供的样本数据标注装置的模块示意图。
[0022]图7为本说明书的一个实施方式提供的信息数据生成模型的训练装置的模块示意图。
[0023]图8为本说明书的一个实施方式提供的一种计算机设备的架构示意图。
具体实施方式
[0024]信息抽取是指从自然语言文本中,抽取出特定的信息,以提升信息的归类和整理。如此,可以便于进一步的使用。
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法,应用于数据标注系统,其特征在于,包括:获取待标注样本,所述待标注样本包括至少一个文本,所述文本包含至少一个事件,其中,每个文本包括至少一个文本语句;识别每个文本中的文本语句得到识别结果,若识别结果包括待标注信息,则根据所述待标注信息对对应的文本语句进行标注,所述待标注信息包括信息类型以及论元,所述信息类型为文本语句针对事件表达的观点类型,所述论元包括所述观点对应的目标事件和/或所述观点涉及的文本的实体信息。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述事件的事件描述数据;其中,所述事件描述数据用于描述发生的事件;将表达所述事件的观点的文本语句、所述事件描述数据和所述观点对应的论元组合成样本数据。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:基于所述观点的信息类型,将所述样本数据划分多个样本数据集;其中,所述多个样本数据集用于分别训练数据生成模型。4.一种信息数据的生成方法,其特征在于,包括:获取事件相关文本和事件描述数据;其中,所述事件描述数据用于描述发生的事件;所述事件相关文本与所述事件相关;所述事件相关文本包括多个文本语句;根据所述事件描述数据,识别出所述文本语句中表达观点的观点语句;确定所述观点语句对应的论元;将所述观点语句和对应的论元相绑定,生成信息数据。5.根据权利要求4所述的方法,其特征在于,所述论元包括以下至少之一:所述观点语句所表达的观点针对的事件对应的事件表述;或,在所述观点语句所表达的观点为针对事件的相关事件的情况下,所述论元为所述相关事件的相关事件表述;或,所述观点语句所表达的观点涉及的实体对应的实体信息。6.根据权利要求4所述的方法,其特征在于,所述根据所述事件描述数据...

【专利技术属性】
技术研发人员:丁隆耀蒋宁肖冰李宽吕乐宾
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1