【技术实现步骤摘要】
一种三元组抽取方法、装置、可读存储介质及电子设备
[0001]本专利技术涉及人工智能
,尤其涉及一种三元组抽取方法、装置、可读存储介质及电子设备。
技术介绍
[0002]从文本中抽取三元组有广泛的应用需求。以实体、属性以及观点三元组为例,在舆情系统构建中,企业和商家需要挖掘用户的评论的信息,根据用户评论改善产品;除此之外,对于一段文本来说,一般的情感分类只能得知该文本的情感极性,并不能确定文本该情感倾向是针对哪个实体;另外,企业和商家一般需要通过用户评论是针对商品的哪方面的评价进而针对性的改善商品的质量。因此,从评论文本抽取实体、属性以及观点是十分必要的。传统的方法主要是利用管道的方式先通过命名实体识别识别出实体,然后利用规则抽取观点信息,再通过实体与观点匹配的方式得到实体、属性与观点的信息。
技术实现思路
[0003]根据本公开的一方面,提供了一种三元组抽取方法,包括:获取文本数据;确定所述文本数据包含的实体的属性;根据所述文本数据和所述属性,确定所述文本数据包含的所述属性的属性值和所述属性值的分类信息;根据所述属性、所述属性的属性值和属性值的分类信息,生成三元组。
[0004]根据本公开的另一方面,提供了一种三元组抽取装置,包括:数据获取单元,用于获取文本数据;数据处理单元,用于确定所述文本数据包含的实体的属性;根据所述文本数据和所述属性,确定所述文本数据包含的所述属性的属性值和所述属性值的分类信息;根据所述属性、所述属性的属性值和属性值的分类信息,生成三元组。
[0005] ...
【技术保护点】
【技术特征摘要】
1.一种三元组抽取方法,其特征在于,包括:获取文本数据;确定所述文本数据包含的实体的属性;根据所述文本数据和所述属性,确定所述文本数据包含的所述属性的属性值和所述属性值的分类信息;根据所述属性、所述属性的属性值和属性值的分类信息,生成三元组。2.如权利要求1所述的方法,其特征在于,确定所述文本数据包含的实体的属性,包括:确定所述文本数据包含的一个或多个属性;根据所述文本数据和所述属性,确定所述文本数据包含的所述属性的属性值和属性值的分类信息,包括:当确定所述文本数据包含一个属性时,根据所述文本数据和所述一个属性,分别确定所述文本数据包含的至少一组与所述一个属性对应的属性值和属性值的分类信息;当确定所述文本数据包含多个属性时,根据所述文本数据和所述多个属性中的一个属性,分别确定所述文本数据包含的至少一组与所述多个属性中的一个属性对应的属性值和属性值的分类信息。3.如权利要求1所述的方法,其特征在于,根据所述文本数据和所述属性,确定所述文本数据包含的所述属性的属性值和所述属性值的分类信息,包括:获取所述文本数据的编码特征,以及,获取所述属性的编码特征;将所述文本数据的编码特征和所述属性的编码特征输入预先训练的第一网络模型,获取所述第一网络模型输出的所述属性的属性值和所述属性值的分类信息。4.如权利要求3所述的方法,其特征在于,训练所述第一网络模型,包括:获取训练文本;确定所述训练文本中包含的实体的至少一个属性,以及,与每一属性对应的至少一组属性值和属性值的分类信息;根据所述训练文本包含的至少一组属性值和属性值的分类信息对所述训练文本进行至少一轮标注;依次根据每一轮标注后的训练文本,以及与标注后的训练文本对应的一个属性对所述第一网络模型作监督训练。5.如权利要求4所述的方法,其特征在于,根据所述训练文本包含的一组属性值和属性值的分类信息对所述训练文本进行一轮标注,包括:根据所述训练文本包含的属性值的起始位置和属性值的分类信息对所述训练文本进行标注,其中,所述训练文本中的属性值的起始位置以外的全部位置被标注第一预设值,所述训练文本中的属性值的起始位置被标注第二预设值;根据所述训练文本包含的属性值的结束位置和属性值的分类信息对所述训练文本进行标注,其中,所述训练文本中的属性值的结束位置以外的全部位置被标注第一预设值,所述训练文本中的属性值的结束位置被标注第二预设值;其中,所述第二预设值用于指示所述属性值的分类信息,且所述第二预设值的取值范围不包含所述第一预设值。
6.如权利要求3所述的方法,其特征在于,所述第一网络模型包括BiLSTM模型,所述BiLSTM模型包括两个分类器,分别用于输出属性值的起始位置、属性值的分类信息,以及输出属性值的结束位置、属性值的分类信息。7.如权利要求3所述的方法,其特征在于,确定所述文本数据包含的实体的属性,包括:获取所述文本数据的编码特征;将所述文本数据的编码特征输入预先训练的第二网络模型,获取所述第二网络模型输出的所述文本数据包含的实体的属性。8.如权利要求7所述的方法,其特征在于,训练所述第二网络模型,包括:获取训练文本;确定所述训练文本中包含的实体的至少一个属性;根据所述训练文本包含的至少一个属性对所述训练文本进行至少一轮标注;依次根据每一轮标注后的训练文本,对所述第二网络模型作监督训练。9.如权利要求8所述的方法,其特征在于,根据所述训练文本包含的一个属性对所述训练文本进行一轮标注,包括:根据所述训练文本包含的属性的起始位置对所述训练文本进行标注,其中,所述训练文本中的属性的起始位置...
【专利技术属性】
技术研发人员:丁林林,刘勇,陈晓倩,
申请(专利权)人:北京世纪好未来教育科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。