一种三元组抽取方法、装置、可读存储介质及电子设备制造方法及图纸

技术编号:31094462 阅读:17 留言:0更新日期:2021-12-01 13:02
本公开提供了一种三元组抽取方法、装置、可读存储介质及计算设备,该方法能够提高三元组抽取的效率和准确性,方法包括:获取文本数据;确定所述文本数据包含的实体的属性;根据所述文本数据和所述属性,确定所述文本数据包含的所述属性的属性值和所述属性值的分类信息;根据所述属性、所述属性的属性值和所述属性值的分类信息,生成三元组。生成三元组。生成三元组。

【技术实现步骤摘要】
一种三元组抽取方法、装置、可读存储介质及电子设备


[0001]本专利技术涉及人工智能
,尤其涉及一种三元组抽取方法、装置、可读存储介质及电子设备。

技术介绍

[0002]从文本中抽取三元组有广泛的应用需求。以实体、属性以及观点三元组为例,在舆情系统构建中,企业和商家需要挖掘用户的评论的信息,根据用户评论改善产品;除此之外,对于一段文本来说,一般的情感分类只能得知该文本的情感极性,并不能确定文本该情感倾向是针对哪个实体;另外,企业和商家一般需要通过用户评论是针对商品的哪方面的评价进而针对性的改善商品的质量。因此,从评论文本抽取实体、属性以及观点是十分必要的。传统的方法主要是利用管道的方式先通过命名实体识别识别出实体,然后利用规则抽取观点信息,再通过实体与观点匹配的方式得到实体、属性与观点的信息。

技术实现思路

[0003]根据本公开的一方面,提供了一种三元组抽取方法,包括:获取文本数据;确定所述文本数据包含的实体的属性;根据所述文本数据和所述属性,确定所述文本数据包含的所述属性的属性值和所述属性值的分类信息;根据所述属性、所述属性的属性值和属性值的分类信息,生成三元组。
[0004]根据本公开的另一方面,提供了一种三元组抽取装置,包括:数据获取单元,用于获取文本数据;数据处理单元,用于确定所述文本数据包含的实体的属性;根据所述文本数据和所述属性,确定所述文本数据包含的所述属性的属性值和所述属性值的分类信息;根据所述属性、所述属性的属性值和属性值的分类信息,生成三元组。
[0005]根据本公开的另一方面,提供了一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述的三元组抽取方法。
[0006]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述的三元组抽取方法。
[0007]根据本公开的另一方面,提供了一种计算机程序产品,所述计算机程序在被处理器执行上述的三元组抽取方法。
[0008]本申请实施例中提供的一个或多个技术方案,实现了(属性、属性值、属性值的分类信息)的三元组自动抽取,并且,将三元组抽取分成两个阶段,第一个阶段抽取属性,第二
个阶段同步抽取属性的属性值和属性值的分类信息,能够提高三元组的抽取的准确性和效率。
附图说明
[0009]在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:图1示出了根据本公开示例性实施例的三元组抽取方法的流程图;图2示出了根据本公开示例性实施例的基于第一网络模型的三元组抽取方法的流程图;图3示出了根据本公开示例性实施例的第一网络模型训练流程图;图4示出了根据本公开示例性实施例的第二网络模型训练流程图;图5示出了根据本公开示例性实施例的第三网络模型训练流程图;图6示出了根据本公开具体实施例的三元组抽取方法的流程图;图7示出了根据本公开具体实施例的二元组抽取原理示意图;图8示出了根据本公开具体实施例的训练数据标注示意图;图9示出了根据本公开具体实施例的又一训练数据标注示意图;图10示出了根据本公开具体实施例的网络模型训练示意图;图11示出了根据本公开示例性实施例的三元组抽取装置的示意性框图;图12示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0010]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0011]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0012]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0013]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0014]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0015]以下参照附图描述本公开的方案。
[0016]参见图1,本公开提供的一种三元组抽取方法包括:步骤S110、获取文本数据。
[0017]文本数据的获取来源可以是各类网站、APP、书籍等等。例如,可以从某个问答类APP中获取问答信息,或者,从某个社交网站中获取舆情信息。
[0018]获取的原始文本数据包含大量的文本内容,其中既包括需要抽取的关键信息,也包括一些与抽取目标无关的信息。例如,某一条原始文本数据的内容是:今天在XX地点试驾了某型号汽车,性能很好;如果要了解某型号汽车的评价情况,“性能”“很好”是需要抽取的关键信息。从文本数据中抽取的关键信息通过结构化数据存储,通常表现为三元组的形式。
[0019]三元组由“实体”、“属性”、“关系”、“类型”、“值”等字段组成;其中,实体是对客观个体的抽象,一个人、一部电影、一句话都可以看作是一个实体,实体具有不同的属性;类、型是对具有相同特点或属性的实体集合的抽象,关系是实体与实体之间关系的抽象,值则是对于实体、属性等字段的具体描述。三元组具有多种类型,常见的三元组包含(实体、关系、实体)三元组,(实体、属性、属性值)三元组,(属性、属性值、属性值分类)三元组等等。例如,(实体、关系、实体)三元组的示例可以是(小明、同事、小强);(实体、属性、属性值)三元组的示例可以是(某某汽车、性能、很好);(属性、属性值、属性值分类)三元组的示例可以是(性能、很好、正向),其中,“正向”是对“很好”的分类结果。
[0020]本公开提供的三元组抽取方法主要应用于三元组为(属性、属性值、属性值分类)的场景,因此,本步骤所获取的文本数据中,应当包含属性、属性值和属性值分类的信息。
[0021]随后,在步骤S120中,确定文本数据包含的实体的属性。
[0022]在获取到文本数据后,可以采用多种方式抽取实体的属性。具体地,可以采用训练好的神经网络模型抽取属性,先将文本数据输入神经网络模型后,由神经网络模型输出实体的属性;又或者,根据高频名词、名词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种三元组抽取方法,其特征在于,包括:获取文本数据;确定所述文本数据包含的实体的属性;根据所述文本数据和所述属性,确定所述文本数据包含的所述属性的属性值和所述属性值的分类信息;根据所述属性、所述属性的属性值和属性值的分类信息,生成三元组。2.如权利要求1所述的方法,其特征在于,确定所述文本数据包含的实体的属性,包括:确定所述文本数据包含的一个或多个属性;根据所述文本数据和所述属性,确定所述文本数据包含的所述属性的属性值和属性值的分类信息,包括:当确定所述文本数据包含一个属性时,根据所述文本数据和所述一个属性,分别确定所述文本数据包含的至少一组与所述一个属性对应的属性值和属性值的分类信息;当确定所述文本数据包含多个属性时,根据所述文本数据和所述多个属性中的一个属性,分别确定所述文本数据包含的至少一组与所述多个属性中的一个属性对应的属性值和属性值的分类信息。3.如权利要求1所述的方法,其特征在于,根据所述文本数据和所述属性,确定所述文本数据包含的所述属性的属性值和所述属性值的分类信息,包括:获取所述文本数据的编码特征,以及,获取所述属性的编码特征;将所述文本数据的编码特征和所述属性的编码特征输入预先训练的第一网络模型,获取所述第一网络模型输出的所述属性的属性值和所述属性值的分类信息。4.如权利要求3所述的方法,其特征在于,训练所述第一网络模型,包括:获取训练文本;确定所述训练文本中包含的实体的至少一个属性,以及,与每一属性对应的至少一组属性值和属性值的分类信息;根据所述训练文本包含的至少一组属性值和属性值的分类信息对所述训练文本进行至少一轮标注;依次根据每一轮标注后的训练文本,以及与标注后的训练文本对应的一个属性对所述第一网络模型作监督训练。5.如权利要求4所述的方法,其特征在于,根据所述训练文本包含的一组属性值和属性值的分类信息对所述训练文本进行一轮标注,包括:根据所述训练文本包含的属性值的起始位置和属性值的分类信息对所述训练文本进行标注,其中,所述训练文本中的属性值的起始位置以外的全部位置被标注第一预设值,所述训练文本中的属性值的起始位置被标注第二预设值;根据所述训练文本包含的属性值的结束位置和属性值的分类信息对所述训练文本进行标注,其中,所述训练文本中的属性值的结束位置以外的全部位置被标注第一预设值,所述训练文本中的属性值的结束位置被标注第二预设值;其中,所述第二预设值用于指示所述属性值的分类信息,且所述第二预设值的取值范围不包含所述第一预设值。
6.如权利要求3所述的方法,其特征在于,所述第一网络模型包括BiLSTM模型,所述BiLSTM模型包括两个分类器,分别用于输出属性值的起始位置、属性值的分类信息,以及输出属性值的结束位置、属性值的分类信息。7.如权利要求3所述的方法,其特征在于,确定所述文本数据包含的实体的属性,包括:获取所述文本数据的编码特征;将所述文本数据的编码特征输入预先训练的第二网络模型,获取所述第二网络模型输出的所述文本数据包含的实体的属性。8.如权利要求7所述的方法,其特征在于,训练所述第二网络模型,包括:获取训练文本;确定所述训练文本中包含的实体的至少一个属性;根据所述训练文本包含的至少一个属性对所述训练文本进行至少一轮标注;依次根据每一轮标注后的训练文本,对所述第二网络模型作监督训练。9.如权利要求8所述的方法,其特征在于,根据所述训练文本包含的一个属性对所述训练文本进行一轮标注,包括:根据所述训练文本包含的属性的起始位置对所述训练文本进行标注,其中,所述训练文本中的属性的起始位置...

【专利技术属性】
技术研发人员:丁林林刘勇陈晓倩
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1