数据处理方法、识别方法、装置及计算设备制造方法及图纸

技术编号:28559909 阅读:13 留言:0更新日期:2021-05-25 17:54
本申请实施例提供一种数据处理方法、识别方法、装置及计算设备。其中,将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;将多个不同类型的词典分别表示为节点;以节点之间的关联关系表征节点之间的边,构建第一图形;利用所述第一图形及为所述多个元素分别标注的训练标签,训练文本识别模型;利用所述文本识别模型可以识别获得待处理文本中的特征词,本申请实施例提供的技术方案提高了文本表达准确度,提高了模型训练准确度,提高了文本识别准确度。

【技术实现步骤摘要】
数据处理方法、识别方法、装置及计算设备
本申请实施例涉及计算机应用
,尤其涉及一种数据处理方法、装置及移动终端。
技术介绍
序列标注问题是自然语言处理中的常见问题,通过序列标注可以解决分词、命名实体识别、关键词提取等问题。所谓序列标注是指对序列中的每个元素打上标签集合中的某个类型的标签,并进行模型训练,使得模型可以实现待处理序列中元素标签的识别。在自然语言处理中,序列即可以是指通过对文本进行分词或者分字切分形成的多个元素构成,序列标注问题本质上也即是文本识别问题。以命名实体识别为例,即可以实现文本中的不同命名实体类型的命名实体词的识别。由于序列标注问题中的标签依赖于人工标注,为了提高模型准确度,提高文本识别准确度,可以在模型中引入外部知识,用来作为标注数据的补充,词典是外部知识的一种,每个词典存储一个标签类型对应的词语。而如何在模型中引入词典,以有效提高模型准确度成为目前需要解决的技术问题。
技术实现思路
本申请实施例提供一种数据处理方法、装置及计算设备,用以解决现有技术中模型准确度低,文本识别准确低的技术问题。第一方面,本申请实施例中提供了一种数据处理方法,包括:将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;将多个不同类型的词典分别表示为节点;以节点之间的关联关系表征节点之间的边,构建第一图形;利用所述第一图形以及为所述多个元素分别标注的训练标签,训练文本识别模型。第二方面,本申请实施例中提供了一种识别方法,包括:将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;将多个不同类型的词典分别表示为节点;以节点之间的关联关系表征节点之间的边,构建第二图形;基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词。第三方面,本申请实施例中提供了一种数据处理方法,包括:将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;将多个不同命名实体类型的词典分别表示为节点;以节点之间的关联关系表征节点之间的边,构建第一图形;利用所述第一图形及为所述多个元素分别标注的训练标签,训练文本识别模型。第四方面,本申请实施例中提供了一种识别方法,包括:将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;将多个不同命名实体类型的词典分别表示为节点;以节点之间的关联关系表征节点之间的边,构建第二图形;基于所述第二图形利用文本识别模型识别所述待处理文本中的命名实体词。第五方面,本申请实施例中提供了一种处理方法,包括:将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;将多个不同类型的词典分别表示为节点;以节点之间的关联关系表征节点之间的边,构建第二图形;基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词;基于所述特征词,进行相应处理。第六方面,本申请实施例中提供了一种数据处理装置,包括:第一确定模块,用于将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;第二确定模块,用于将多个不同类型的词典分别表示为节点;第一构建模块,用于以节点之间的关联关系表征节点之间的边,构建第一图形;模型训练模块,用于利用所述第一图形及为所述多个元素分别标注的训练标签,训练文本识别模型。第七方面,本申请实施例中提供了一种识别装置,包括:第三确定模块,用于将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;第四确定模块,用于将多个不同类型的词典分别表示为节点;第二构建模块,用于以节点之间的关联关系表征不同节点之间的边,构建第二图形;文本识别模块,用于基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词。第八方面,本申请实施例中提供了一种计算设备,包括处理组件以及存储组件;所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;所述处理组件用于:将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;将多个不同类型的词典分别表示为节点;以节点之间的关联关系表征不同节点之间的边,构建第一图形;利用所述第一图形及为所述多个元素分别标注的训练标签,训练文本识别模型。第九方面,本申请实施例中提供了一种计算设备,包括处理组件以及存储组件;所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;所述处理组件用于:将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;将多个不同类型的词典分别表示为节点;以节点之间的关联关系表征不同节点之间的边,构建第二图形;基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词。本申请实施例中,通过将训练文本切分得到的元素表示为节点,以及将不同类型的词典表示为节点,并建立节点之间的边,构建第一图形,再利用第一图形以及为元素标注的训练标签,训练文本识别模型,本申请实施例,融合了词典信息,并将文本建模为图形,实现文本识别模型的训练,使得可以提高文本表达准确度以及词典融合准确度,提高了模型训练准确度,进而可以提高文本识别准确度。本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本申请提供的一种数据处理方法一个实施例的流程图;图2示出了本申请实施例在一个实际应用中的图形编码过程示意图;图3示出了本申请提供的一种识别方法一个实施例的流程图;图4示出了本申请实施例在一个实际应用中模型训练过程示意图;图5示出了本申请提供的一种数据处理装置一个实施例的结构示意图;图6示出了本申请提供的一种计算设备一个实施例的结构示意图;图7示出了本申请提供的一种识别装置一个实施例的结构示意图;图8示出了本申请提供的一种计算设备又一个实施例的结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;/n将多个不同类型的词典分别表示为节点;/n以节点之间的关联关系表征节点之间的边,构建第一图形;/n利用所述第一图形以及为所述多个元素分别标注的训练标签,训练文本识别模型。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
将训练文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;
将多个不同类型的词典分别表示为节点;
以节点之间的关联关系表征节点之间的边,构建第一图形;
利用所述第一图形以及为所述多个元素分别标注的训练标签,训练文本识别模型。


2.根据权利要求1所述的方法,其特征在于,所述利用所述第一图形及所述多个元素分别标注的训练标签,训练文本识别模型包括:
将所述第一图形输入文本识别模型,经由所述文本识别模型进行编码获得所述多个元素的特征向量;
基于所述多个元素的特征向量以及所述多个元素分别标注的训练标签,训练所述文本识别模型。


3.根据权利要求2所述的方法,其特征在于,所述文本识别模型用于基于待处理文本建立的第二图形,对所述待处理文本进行识别以确定所述待处理文本中的特征词。


4.根据权利要求2所述的方法,其特征在于,所述基于所述多个元素的特征向量以及所述多个元素分别标注的标签,训练所述文本识别模型包括:
将所述多个元素分别标注的训练标签作为所述文本识别模型的输出结果,并并基于所述多个元素的特征向量,训练所述文本识别模型。


5.根据权利要求4所述的方法,其特征在于,所述文本识别模型包括图形编码网络及文本识别网络;
所述将所述第一图形输入文本识别模型,经由所述文本识别模型进行编码获得所述多个元素的特征向量包括:
将所述第一图形作为所述文本识别模型的输入数据,经由所述图形编码网络对所述第一图形进行编码以获得所述多个元素的特征向量;
所述将所述多个元素分别标注的训练标签作为所述文本识别模型的输出结果,并基于所述多个元素的特征向量,训练所述文本识别模型包括:
将所述多个元素的特征向量作为所述文本识别网络的输入数据,所述为所述多个元素分别标注的训练标签作为所述文本识别网络的输出结果,训练所述文本识别模型的训练,以获得所述图形编码网络的模型参数以及所述文本识别网络的模型参数。


6.根据权利要求5所述的方法,其特征在于,将所述第一图形作为所述文本识别模型的输入数据,经由所述图形编码网络型对所述第一图形进行编码以获得所述多个元素的特征向量包括:
将所述第一图形作为所述文本识别模型的输入数据,经由所述图形编码网络结合每个节点相邻的各节点的当前编码向量,对每个节点进行多次重复编码操作;其中,基于各节点的初始向量进行各节点的第一次编码操作;
将最后一次编码获得的所述多个元素对应节点的编码向量,分别作为所述多个元素的特征向量。


7.根据权利要求1所述的方法,其特征在于,所述以节点之间的关联关系表征节点之间的边,构建第一图形包括:
基于不同元素之间的上下文关系及不同元素与不同词典之间的匹配关系,确定不同节点之间的边;
基于不同节点之间的边,构建第一图形。


8.根据权利要求1所述的方法,其特征在于,所述将多个不同类型的词典分别表示为节点包括:
将多个不同类型的词典分别表示为第一节点及第二节点;其中,所述第一节点表示与元素匹配开始,所述第二节点表示与元素匹配结束。


9.根据权利要求1所述的方法,其特征在于,所述元素由单字组成;
所述利用所述第一图形及所述多个元素分别标注的训练标签,训练文本识别模型包括:
针对每个单字,根据所述单字构成的特征词的标签类型,以及所述单字为所述特征词中的开始字、中间字、结束字、单字或不属于任意标签类型的组成字,设置每个单字的训练标签;
利用所述第一图形及各个单字的训练标签,训练文本识别模型。


10.根据权利要求1所述的方法,其特征在于,所述利用所述第一图形及所述多个元素分别标注的训练标签,训练文本识别模型包括:
对所述第一图形进行编码,获得所述多个元素的特征向量;
基于所述多个元素的特征向量以及所述多个元素分别标注的训练标签,训练文本识别模型。


11.一种识别方法,其特征在于,包括:
将待处理文本切分获得的多个元素分别表示为节点;其中,所述元素由单字或多字组成;
将多个不同类型的词典分别表示为节点;
以节点之间的关联关系表征节点之间的边,构建第二图形;
基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词。


12.根据权利要求11所述的方法,其特征在于,所述基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词包括:
基于所述第二图形利用文本识别模型识别所述待处理文本中所述多个元素分别对应的标签;
基于所述多个元素分别对应的标签,确定所述待处理文本中的特征词。


13.根据权利要求12所述的方法,其特征在于,所述基于所述第二图形利用文本识别模型识别所述待处理文本中所述多个元素分别对应的标签包括:
将所述第二图形输入所述文本识别模型,由所述文本识别模型对所述第二图形进行编码获得所述多个元素的特...

【专利技术属性】
技术研发人员:丁瑞雪谢朋峻马春平黄非司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1