数据处理方法、识别方法、装置及计算设备制造方法及图纸

技术编号：28559909 阅读：13 留言：0更新日期：2021-05-25 17:54

本申请实施例提供一种数据处理方法、识别方法、装置及计算设备。其中，将训练文本切分获得的多个元素分别表示为节点；其中，所述元素由单字或多字组成；将多个不同类型的词典分别表示为节点；以节点之间的关联关系表征节点之间的边，构建第一图形；利用所述第一图形及为所述多个元素分别标注的训练标签，训练文本识别模型；利用所述文本识别模型可以识别获得待处理文本中的特征词，本申请实施例提供的技术方案提高了文本表达准确度，提高了模型训练准确度，提高了文本识别准确度。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、识别方法、装置及计算设备
本申请实施例涉及计算机应用
，尤其涉及一种数据处理方法、装置及移动终端。
技术介绍
序列标注问题是自然语言处理中的常见问题，通过序列标注可以解决分词、命名实体识别、关键词提取等问题。所谓序列标注是指对序列中的每个元素打上标签集合中的某个类型的标签，并进行模型训练，使得模型可以实现待处理序列中元素标签的识别。在自然语言处理中，序列即可以是指通过对文本进行分词或者分字切分形成的多个元素构成，序列标注问题本质上也即是文本识别问题。以命名实体识别为例，即可以实现文本中的不同命名实体类型的命名实体词的识别。由于序列标注问题中的标签依赖于人工标注，为了提高模型准确度，提高文本识别准确度，可以在模型中引入外部知识，用来作为标注数据的补充，词典是外部知识的一种，每个词典存储一个标签类型对应的词语。而如何在模型中引入词典，以有效提高模型准确度成为目前需要解决的技术问题。
技术实现思路
本申请实施例提供一种数据处理方法、装置及计算设备，用以解决现有技术中模型准确度低，文本识别准确低的技术问题。第一方面，本申请实施例中提供了一种数据处理方法，包括：将训练文本切分获得的多个元素分别表示为节点；其中，所述元素由单字或多字组成；将多个不同类型的词典分别表示为节点；以节点之间的关联关系表征节点之间的边，构建第一图形；利用所述第一图形以及为所述多个元素分别标注的训练标签，训练文本识别模型。第二方面，本申请实施例中提供了一...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：/n将训练文本切分获得的多个元素分别表示为节点；其中，所述元素由单字或多字组成；/n将多个不同类型的词典分别表示为节点；/n以节点之间的关联关系表征节点之间的边，构建第一图形；/n利用所述第一图形以及为所述多个元素分别标注的训练标签，训练文本识别模型。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：
将训练文本切分获得的多个元素分别表示为节点；其中，所述元素由单字或多字组成；
将多个不同类型的词典分别表示为节点；
以节点之间的关联关系表征节点之间的边，构建第一图形；
利用所述第一图形以及为所述多个元素分别标注的训练标签，训练文本识别模型。

2.根据权利要求1所述的方法，其特征在于，所述利用所述第一图形及所述多个元素分别标注的训练标签，训练文本识别模型包括：
将所述第一图形输入文本识别模型，经由所述文本识别模型进行编码获得所述多个元素的特征向量；
基于所述多个元素的特征向量以及所述多个元素分别标注的训练标签，训练所述文本识别模型。

3.根据权利要求2所述的方法，其特征在于，所述文本识别模型用于基于待处理文本建立的第二图形，对所述待处理文本进行识别以确定所述待处理文本中的特征词。

4.根据权利要求2所述的方法，其特征在于，所述基于所述多个元素的特征向量以及所述多个元素分别标注的标签，训练所述文本识别模型包括：
将所述多个元素分别标注的训练标签作为所述文本识别模型的输出结果，并并基于所述多个元素的特征向量，训练所述文本识别模型。

5.根据权利要求4所述的方法，其特征在于，所述文本识别模型包括图形编码网络及文本识别网络；
所述将所述第一图形输入文本识别模型，经由所述文本识别模型进行编码获得所述多个元素的特征向量包括：
将所述第一图形作为所述文本识别模型的输入数据，经由所述图形编码网络对所述第一图形进行编码以获得所述多个元素的特征向量；
所述将所述多个元素分别标注的训练标签作为所述文本识别模型的输出结果，并基于所述多个元素的特征向量，训练所述文本识别模型包括：
将所述多个元素的特征向量作为所述文本识别网络的输入数据，所述为所述多个元素分别标注的训练标签作为所述文本识别网络的输出结果，训练所述文本识别模型的训练，以获得所述图形编码网络的模型参数以及所述文本识别网络的模型参数。

6.根据权利要求5所述的方法，其特征在于，将所述第一图形作为所述文本识别模型的输入数据，经由所述图形编码网络型对所述第一图形进行编码以获得所述多个元素的特征向量包括：
将所述第一图形作为所述文本识别模型的输入数据，经由所述图形编码网络结合每个节点相邻的各节点的当前编码向量，对每个节点进行多次重复编码操作；其中，基于各节点的初始向量进行各节点的第一次编码操作；
将最后一次编码获得的所述多个元素对应节点的编码向量，分别作为所述多个元素的特征向量。

7.根据权利要求1所述的方法，其特征在于，所述以节点之间的关联关系表征节点之间的边，构建第一图形包括：
基于不同元素之间的上下文关系及不同元素与不同词典之间的匹配关系，确定不同节点之间的边；
基于不同节点之间的边，构建第一图形。

8.根据权利要求1所述的方法，其特征在于，所述将多个不同类型的词典分别表示为节点包括：
将多个不同类型的词典分别表示为第一节点及第二节点；其中，所述第一节点表示与元素匹配开始，所述第二节点表示与元素匹配结束。

9.根据权利要求1所述的方法，其特征在于，所述元素由单字组成；
所述利用所述第一图形及所述多个元素分别标注的训练标签，训练文本识别模型包括：
针对每个单字，根据所述单字构成的特征词的标签类型，以及所述单字为所述特征词中的开始字、中间字、结束字、单字或不属于任意标签类型的组成字，设置每个单字的训练标签；
利用所述第一图形及各个单字的训练标签，训练文本识别模型。

10.根据权利要求1所述的方法，其特征在于，所述利用所述第一图形及所述多个元素分别标注的训练标签，训练文本识别模型包括：
对所述第一图形进行编码，获得所述多个元素的特征向量；
基于所述多个元素的特征向量以及所述多个元素分别标注的训练标签，训练文本识别模型。

11.一种识别方法，其特征在于，包括：
将待处理文本切分获得的多个元素分别表示为节点；其中，所述元素由单字或多字组成；
将多个不同类型的词典分别表示为节点；
以节点之间的关联关系表征节点之间的边，构建第二图形；
基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词。

12.根据权利要求11所述的方法，其特征在于，所述基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词包括：
基于所述第二图形利用文本识别模型识别所述待处理文本中所述多个元素分别对应的标签；
基于所述多个元素分别对应的标签，确定所述待处理文本中的特征词。

13.根据权利要求12所述的方法，其特征在于，所述基于所述第二图形利用文本识别模型识别所述待处理文本中所述多个元素分别对应的标签包括：
将所述第二图形输入所述文本识别模型，由所述文本识别模型对所述第二图形进行编码获得所述多个元素的特...

【专利技术属性】
技术研发人员：丁瑞雪，谢朋峻，马春平，黄非，司罗，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人