一种文本数据的处理方法、装置、设备及介质制造方法及图纸

技术编号:23558613 阅读:38 留言:0更新日期:2020-03-25 04:06
本发明专利技术关于一种文本数据的处理方法、装置、设备及介质,用以提高属性值标注的准确性和效率,降低人工成本,并避免错误累积。所述文本数据的处理方法,包括:基于预先确定的用于表征目标文本中属性顺序的属性向量序列,将所述目标文本转换为文本向量序列;将所述文本向量序列输入用于标注文本中词语属性的序列标注模型,以标签的形式对所述目标文本中每个词语的属性进行标注,其中,所述属性为所述目标文本中主语对应实体的实体属性。

A text data processing method, device, equipment and medium

【技术实现步骤摘要】
一种文本数据的处理方法、装置、设备及介质
本专利技术涉及自然语言处理
,尤其涉及一种文本数据的处理方法、装置、设备及介质。
技术介绍
在大规模涌现人工智能技术与应用的环境下,用三元组形式表示知识,是构成知识图谱的基础,也是推动人工智能技术发展的强大驱动力。一条三元组形式表示的知识(例如,张三,出生日期,1979年1月18日)表达了实体“张三”的“出生日期”属性,三元组的三个部分分别被称作主语、谓语、宾语。介绍性的文章通常围绕同一个主语实体进行描述,并密集地介绍关于主语实体的大量属性。如何从介绍性文章的自然语言叙述中抽取出结构化表示的属性值(即知识三元组)对于知识获取和知识应用都是至关重要的技术。现有技术一规则法是常见的属性抽取方法,通过人工经验或算法从语料中总结出描述属性值常用的自然语言句式,抽象成规则模板,然后从数据集中抽取出与规则模板匹配的属性值。例如“<person>出生(于|在)<date>”是一条定义人物出生日期的规则(模板),当发现句子“张三出生于1979年1月18日”与该规则(模板)匹配,即可抽取出属性三元组(张三,出生日期,1979年1月18日)。采用上述规则法进行属性抽取时,对人工的依赖程度较大,因为发部分使用规则方法的系统还是依靠人工编写规则(模板),缺少自动化,并且人工成本高。其次,泛化能力差,句子只有与规则模板严格匹配才能从中抽取属性值,若模板中没有编辑句末语气词,那么只要句子尾部多一个语气词就无法再与模板匹配。另外,若覆盖更多句式时,需要大量的规则模板,当模板集合量变得庞大,就会出现难以理解和维护的问题,以及模板之间可能产生冲突与冗余等问题。现有技术二关系分类法也是常见的属性抽取方法,关系分类法是一类方法的统称,流程具体如下概括:首先通过命名实体识别(NamedEntityRecognition,NER)技术识别出句子中的实体,常见的实体类型有人物、地名、时间、组织名等。然后,对于包含两个及以上实体的句子,将句中的两个实体作为候选实体对,构建特征向量,输入机器学习模型对两个实体间的关系进行分类。例如,句子“张三出生于1979年1月18日”可以识别出人物实体“张三”和时间实体“1979年1月18日”,特征向量可以是神经网络(NeuralNetwork)学到的词向量(WordEmbedding)序列,也可以是人工设计的特征构成的向量,例如,[候选实体间的距离,候选实体中有几个人物实体,候选实体中有几个时间实体,候选实体之间是否存在“出生于”这几个字],对应的特征向量就是[5,1,1,1]。机器学习模型可选传统的分类模型(例如,决策树,支持向量机等)或深度学习模型(例如,卷积神经网络、循环神经网络等),对关系进行二分类(例如,实体间是出生日期关系,实体间不是出生日期关系)或多分类(例如,实体间不存在任何关系,实体间是出生日期关系,实体间是出生地点关系,实体间是父子关系等)。采用上述关系分类法进行属性抽取时,宾语必须是NER模型可以识别到的实体,如果模型识别不到某一类实体,那么和这一类实体相关的关系就都无法检测出来。并且,NER过程会有错误积累,如果出现识别错误,那么关系分类的结果必然是错误的,如果采取传统机器学习模型,也需要提取特征,特征中能够包含的信息依赖于人工的经验。
技术实现思路
本专利技术提供一种文本数据的处理方法、装置、设备及介质,用以提高属性值标注的准确性和效率,降低人工成本,并避免错误累积。第一方面,本专利技术实施例提供一种文本数据的处理方法,包括:基于预先确定的用于表征目标文本中属性顺序的属性向量序列,将目标文本转换为文本向量序列;将文本向量序列输入用于标注文本中词语属性的序列标注模型,以标签的形式对目标文本中每个词语的属性进行标注,其中,属性为目标文本中主语对应实体的实体属性。在一种可能的方式中,本专利技术实施例提供的上述方法,还包括:从标注标签后的目标文本中提取目标主语、目标属性的标签和目标属性的属性值,生成包含目标主语、目标属性的标签、目标属性的属性值的三元组,目标主语为目标文本中的主语,目标属性为任一属性。在一种可能的方式中,本专利技术实施例提供的上述方法中,基于预先确定的用于表征目标文本中属性顺序的属性向量序列,将目标文本转换为文本向量序列,包括:对目标文本进行分词处理,并将目标文本中的每个词语转换为词向量,得到目标文本的词向量序列;将词向量序列输入第一循环神经网络,基于第一循环神经网络的输出确定目标文本的中间向量序列;基于中间向量序列与属性向量序列,确定中间向量序列中目标向量对应的对偶向量,目标向量为中间向量序列中任一向量;将目标向量与目标向量对应的对偶向量拼接,得到拼接结果;将拼接结果输入全连接神经网络,得到目标向量的文本向量;依据每个目标向量在中间向量序列中的顺序,对目标向量对应的文本向量排序,得到目标文本的文本向量序列。在一种可能的方式中,本专利技术实施例提供的上述方法中,基于中间向量序列与属性向量序列,确定中间向量序列中目标向量对应的对偶向量,包括:基于中间向量序列与属性向量序列,确定注意力矩阵;基于注意力矩阵,确定目标向量对应的对偶向量。在一种可能的方式中,本专利技术实施例提供的上述方法中,基于中间向量序列与属性向量序列,确定注意力矩阵,包括:计算中间向量序列中每一向量,与属性向量序列中每一向量的内积,作为预设矩阵中的元素,并对预设矩阵进行归一化处理,得到注意力矩阵。在一种可能的方式中,本专利技术实施例提供的上述方法中,基于注意力矩阵,确定目标向量对应的对偶向量,包括:将目标向量与属性向量序列中每一向量的内积,确定为属性向量序列中每一向量对应的权值;计算属性向量序列中每一向量与对应权值乘积的加权和,得到目标向量的对偶向量。在一种可能的方式中,本专利技术实施例提供的上述方法中,将目标向量与目标向量对应的对偶向量拼接,包括:在目标向量的最后一个元素之后,添加目标向量对应的对偶向量中的全部元素;或者,将目标向量与目标向量对应的对偶向量作差运算,生成对应的差向量,在目标向量的最后一个元素之后,添加差向量中的全部元素;或者,将目标向量对应的与目标向量对应的对偶向量作同或运算,生成对应的同或向量,在目标向量的最后一个元素之后,添加同或向量中的全部元素。在一种可能的方式中,本专利技术实施例提供的上述方法中,预先确定的属性向量序列采用如下方式确定:根据预设属性问题集,确定包含目标主语的目标属性问题集,目标属性问题集是将预设属性问题集中的主语替换为目标主语得到的,目标主语为目标文本中的主语,目标属性为任一属性;确定目标属性问题集中每一问题的问题向量,利用目标属性问题集中全部问题的问题向量,生成目标属性问题向量集;对目标属性问题向量集进行池化操作,生成目标属性向量;基于预设属性顺序,对所本文档来自技高网
...

【技术保护点】
1.一种文本数据的处理方法,其特征在于,包括:/n基于预先确定的用于表征目标文本中属性顺序的属性向量序列,将所述目标文本转换为文本向量序列;/n将所述文本向量序列输入用于标注文本中词语属性的序列标注模型,以标签的形式对所述目标文本中每个词语的属性进行标注,其中,所述属性为所述目标文本中主语对应实体的实体属性。/n

【技术特征摘要】
1.一种文本数据的处理方法,其特征在于,包括:
基于预先确定的用于表征目标文本中属性顺序的属性向量序列,将所述目标文本转换为文本向量序列;
将所述文本向量序列输入用于标注文本中词语属性的序列标注模型,以标签的形式对所述目标文本中每个词语的属性进行标注,其中,所述属性为所述目标文本中主语对应实体的实体属性。


2.根据权利要求1所述的方法,其特征在于,还包括:
从标注标签后的目标文本中提取目标主语、目标属性的标签和所述目标属性的属性值,生成包含所述目标主语、所述目标属性的标签、所述目标属性的属性值的三元组,所述目标主语为所述目标文本中的主语,所述目标属性为任一属性。


3.根据权利要求1所述的方法,其特征在于,所述基于预先确定的用于表征目标文本中属性顺序的属性向量序列,将所述目标文本转换为文本向量序列,包括:
对所述目标文本进行分词处理,并将所述目标文本中的每个词语转换为词向量,得到所述目标文本的词向量序列;
将所述词向量序列输入第一循环神经网络,基于所述第一循环神经网络的输出确定所述目标文本的中间向量序列;
基于所述中间向量序列与所述属性向量序列,确定所述中间向量序列中目标向量对应的对偶向量,所述目标向量为所述中间向量序列中任一向量;
将所述目标向量与所述目标向量对应的对偶向量拼接,得到拼接结果;
将所述拼接结果输入全连接神经网络,得到所述目标向量的文本向量;
依据每个目标向量在所述中间向量序列中的顺序,对目标向量对应的文本向量排序,得到所述目标文本的文本向量序列。


4.根据权利要求3所述的方法,其特征在于,所述基于所述中间向量序列与所述属性向量序列,确定所述中间向量序列中目标向量对应的对偶向量,包括:
基于所述中间向量序列与所述属性向量序列,确定注意力矩阵;
基于所述注意力矩阵,确定所述目标向量对应的对偶向量。


5.根据权利要求4所述的方法,其特征在于,所述基于所述中间向量序列与所述属性向量序列,确定注意力矩阵,包括:
计算所述中间向量序列中每一向量,与所述属性向量序列中每一向量的内积,作为预设矩阵中的元素,并对所述预设矩阵进行归一化处理,得到注意力矩阵。


6.根据权利要求4所述的方法,其特征在于,所述基于所述注意力矩阵,确定所述目标向量对应的对偶向量,包括:
将目标向量与所述属性向量序列中每一向量的内积,确定为所述属性向量序列中每一向量对应的权值;
计算所述属性向量序列中每一向量与对应权值乘积的加权和,得到所述目标向量的对偶向量。


7.根据权利要求3所述的方法,其特征在于,所述将所述目标向量与所述目标向量对应的对偶向量拼接,包括:
在所述目标向量的最后一个元素之后,添加所述目标向量对应的对偶向量中的全部元素;或者,
将所述目标向量与所述目标向量对应的对偶向量作差运算,生成对应的差向量,在所述目标向量的最后一个元素之后,添加所述差向量中的全部元素;或者,
将所述目标向量对应的与所述目标向量对应的对偶向量作同或运算,生成对应的同或向量,在所述目标向量的最后一个元素之后,添加所述同或向量中的全部元素。

【专利技术属性】
技术研发人员:高丛苏少炜陈孝良常乐
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1