一种文本数据的处理方法、装置、设备及介质制造方法及图纸

技术编号：23558613 阅读：56 留言：0更新日期：2020-03-25 04:06

本发明专利技术关于一种文本数据的处理方法、装置、设备及介质，用以提高属性值标注的准确性和效率，降低人工成本，并避免错误累积。所述文本数据的处理方法，包括：基于预先确定的用于表征目标文本中属性顺序的属性向量序列，将所述目标文本转换为文本向量序列；将所述文本向量序列输入用于标注文本中词语属性的序列标注模型，以标签的形式对所述目标文本中每个词语的属性进行标注，其中，所述属性为所述目标文本中主语对应实体的实体属性。

A text data processing method, device, equipment and medium

全部详细技术资料下载

【技术实现步骤摘要】
一种文本数据的处理方法、装置、设备及介质
本专利技术涉及自然语言处理
，尤其涉及一种文本数据的处理方法、装置、设备及介质。
技术介绍
在大规模涌现人工智能技术与应用的环境下，用三元组形式表示知识，是构成知识图谱的基础，也是推动人工智能技术发展的强大驱动力。一条三元组形式表示的知识(例如，张三，出生日期，1979年1月18日)表达了实体“张三”的“出生日期”属性，三元组的三个部分分别被称作主语、谓语、宾语。介绍性的文章通常围绕同一个主语实体进行描述，并密集地介绍关于主语实体的大量属性。如何从介绍性文章的自然语言叙述中抽取出结构化表示的属性值(即知识三元组)对于知识获取和知识应用都是至关重要的技术。现有技术一规则法是常见的属性抽取方法，通过人工经验或算法从语料中总结出描述属性值常用的自然语言句式，抽象成规则模板，然后从数据集中抽取出与规则模板匹配的属性值。例如“<person>出生(于|在)<date>”是一条定义人物出生日期的规则(模板)，当发现句子“张三出生于1979年1...

【技术保护点】
1.一种文本数据的处理方法，其特征在于，包括：/n基于预先确定的用于表征目标文本中属性顺序的属性向量序列，将所述目标文本转换为文本向量序列；/n将所述文本向量序列输入用于标注文本中词语属性的序列标注模型，以标签的形式对所述目标文本中每个词语的属性进行标注，其中，所述属性为所述目标文本中主语对应实体的实体属性。/n

【技术特征摘要】
1.一种文本数据的处理方法，其特征在于，包括：
基于预先确定的用于表征目标文本中属性顺序的属性向量序列，将所述目标文本转换为文本向量序列；
将所述文本向量序列输入用于标注文本中词语属性的序列标注模型，以标签的形式对所述目标文本中每个词语的属性进行标注，其中，所述属性为所述目标文本中主语对应实体的实体属性。

2.根据权利要求1所述的方法，其特征在于，还包括：
从标注标签后的目标文本中提取目标主语、目标属性的标签和所述目标属性的属性值，生成包含所述目标主语、所述目标属性的标签、所述目标属性的属性值的三元组，所述目标主语为所述目标文本中的主语，所述目标属性为任一属性。

3.根据权利要求1所述的方法，其特征在于，所述基于预先确定的用于表征目标文本中属性顺序的属性向量序列，将所述目标文本转换为文本向量序列，包括：
对所述目标文本进行分词处理，并将所述目标文本中的每个词语转换为词向量，得到所述目标文本的词向量序列；
将所述词向量序列输入第一循环神经网络，基于所述第一循环神经网络的输出确定所述目标文本的中间向量序列；
基于所述中间向量序列与所述属性向量序列，确定所述中间向量序列中目标向量对应的对偶向量，所述目标向量为所述中间向量序列中任一向量；
将所述目标向量与所述目标向量对应的对偶向量拼接，得到拼接结果；
将所述拼接结果输入全连接神经网络，得到所述目标向量的文本向量；
依据每个目标向量在所述中间向量序列中的顺序，对目标向量对应的文本向量排序，得到所述目标文本的文本向量序列。

4.根据权利要求3所述的方法，其特征在于，所述基于所述中间向量序列与所述属性向量序列，确定所述中间向量序列中目标向量对应的对偶向量，包括：
基于所述中间向量序列与所述属性向量序列，确定注意力矩阵；
基于所述注意力矩阵，确定所述目标向量对应的对偶向量。

5.根据权利要求4所述的方法，其特征在于，所述基于所述中间向量序列与所述属性向量序列，确定注意力矩阵，包括：
计算所述中间向量序列中每一向量，与所述属性向量序列中每一向量的内积，作为预设矩阵中的元素，并对所述预设矩阵进行归一化处理，得到注意力矩阵。

6.根据权利要求4所述的方法，其特征在于，所述基于所述注意力矩阵，确定所述目标向量对应的对偶向量，包括：
将目标向量与所述属性向量序列中每一向量的内积，确定为所述属性向量序列中每一向量对应的权值；
计算所述属性向量序列中每一向量与对应权值乘积的加权和，得到所述目标向量的对偶向量。

7.根据权利要求3所述的方法，其特征在于，所述将所述目标向量与所述目标向量对应的对偶向量拼接，包括：
在所述目标向量的最后一个元素之后，添加所述目标向量对应的对偶向量中的全部元素；或者，
将所述目标向量与所述目标向量对应的对偶向量作差运算，生成对应的差向量，在所述目标向量的最后一个元素之后，添加所述差向量中的全部元素；或者，
将所述目标向量对应的与所述目标向量对应的对偶向量作同或运算，生成对应的同或向量，在所述目标向量的最后一个元素之后，添加所述同或向量中的全部元素。

【专利技术属性】
技术研发人员：高丛，苏少炜，陈孝良，常乐，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人