文本标注模型构建方法和装置制造方法及图纸

技术编号:33066874 阅读:8 留言:0更新日期:2022-04-15 09:57
本申请公开了文本标注模型构建方法和装置。其中,所述方法包括:获取第一文本及其标注数据间的第一对应关系集;将第一文本及其标注数据作为语言模型的输入数据,通过语言模型,生成第二文本及其标注数据间的第二对应关系集;根据第一对应关系集和第二对应关系集,学习得到文本标注模型。采用这种处理方式,使得将文本和标注数据转换为语言模型的输入数据,通过语言模型学习训练数据中词的分布,通过训练后的语言模型,生成符合文本标注领域语言特点、且标注更为准确的新训练数据,实现基于语言模型的文本标注模型训练数据增强;因此,可以提升增强训练数据的准确率,从而提升模型准确度,特别是在低资源的情况下效果显著。特别是在低资源的情况下效果显著。特别是在低资源的情况下效果显著。

【技术实现步骤摘要】
文本标注模型构建方法和装置


[0001]本申请涉及自然语言处理
,具体涉及文本标注模型构建方法和装置。

技术介绍

[0002]序列标注任务是中文自然语言处理(NLP)领域在句子层面中的主要任务,在给定的文本序列上预测序列中需要作出标注的标签。常见任务有命名实体识别(NER)、Chunk提取、端到端基于方面/目标的情感分析、以及词性标注(POS)等。
[0003]序列标注任务可通过预先训练好的标注模型完成。以商品评价情感分析为例,首先从由商品评价文本和情感类别标注数据构成的训练数据集中,学习得到商品评价情感分类模型,然后通过该模型为待处理的商品评价预测情感极性。然而,在特定领域(如商品品类、语言)中,会面临缺乏大量标注好的训练数据的问题。如果始终依赖人工进行标注,成本会很昂贵,且费时费力。因此,通过数据增强技术产生更多训练数据,可以很好地解决低语料领域训练数据不足的问题,提升序列标注任务的准确率,从而提升电商用户的用户体验。相比于计算机视觉及语音识别技术,数据增强技术当前在自然语言处理的序列标注任务上目前并没有很多有效的应用,已有的数据增强方法主要包括同义词替换,随机插入,随机删除,随机替换等。
[0004]然而,在实现本专利技术过程中,专利技术人发现上述应用在序列标注任务上的数据增强方案至少存在如下问题:1)这些简单的数据增强方法要么需要人工标注,要么会因为随机的关系无法控制数据增强的效果,如在命名实体识别中,地名、品牌,如果通过随机插入或者随机删除,很可能就产生错误的标注数据,这些无法识别的错误数据会对最终训练得到的文本标注模型造成干扰;2)这些简单的数据增强方法无法利用新的知识库,有很大的局限性。综上所述,如何通过数据增强方式扩充文本标注模型的训练数据,以提升扩充训练数据的准确率,弥补特定领域中训练数据的不足,从而提升文本标注模型的鲁棒性,进而提升用户体验,成为本领域技术人员迫切需要解决的问题。

技术实现思路

[0005]本申请提供文本标注模型构建方法,以解决现有技术存在的由增强训练数据准确率较低导致的模型准确度低的问题。本申请另外提供文本标注数据生成方法和装置,文本标注模型构建装置,以及电子设备。
[0006]本申请提供一种文本标注模型构建方法,包括:
[0007]获取第一文本及其标注数据间的第一对应关系集;
[0008]将第一文本及其标注数据作为语言模型的输入数据,通过语言模型,生成第二文本及其标注数据间的第二对应关系集;
[0009]根据第一对应关系集和第二对应关系集,学习得到文本标注模型。
[0010]可选的,还包括:
[0011]获取第三文本集;以及,根据第一文本的标注数据,构建标注词典;
[0012]根据标注字典,确定第三文本的标注数据;
[0013]将第一文本及其标注数据作为语言模型的输入数据,并将第三文本及其标注数据作为语言模型的输入数据,通过语言模型,生成所述第二对应关系集。
[0014]可选的,所述将第一文本及其标注数据作为语言模型的输入数据,通过语言模型,生成第二文本及其标注数据间的第二对应关系集,包括:
[0015]将第一对应关系转换为包括第一文本及其标注数据的第四文本;
[0016]根据多个第四文本形成的语料库,训练语言模型;
[0017]通过训练后的语言模型,生成包括第二文本及其标注数据的第五文本集;
[0018]将第五文本转换为第二对应关系。
[0019]可选的,所述通过训练后的语言模型,生成包括第二文本及其标注数据的第五文本集,包括:
[0020]确定小于或者等于预设文本长度的文本长度;
[0021]通过训练后的语言模型,生成具有所述文本长度的所述第五文本。
[0022]可选的,所述文本标注模型包括:命名实体识别模型;
[0023]所述第五文本包括:所述第一文本未包括的命名实体,所述第一文本未包括的命名实体应用语境。
[0024]本申请还提供一种文本标注数据生成方法,包括:
[0025]获取第一文本及其标注数据间的第一对应关系集;
[0026]将第一文本及其标注数据作为语言模型的输入数据,通过语言模型根据第一对应关系集,生成第二文本及其标注数据间的第二对应关系集。
[0027]本申请还提供一种语言模型构建方法,包括:
[0028]获取第一文本及其标注数据间的第一对应关系集;
[0029]将第一对应关系转换为包括第一文本及其标注数据的第二文本;
[0030]根据多个第二文本形成的语料库,训练语言模型,所述语言模型用于生成包括第三文本及其标注数据的第四文本集;根据第四文本集,确定第三文本及其标注数据间的第二对应关系集。
[0031]本申请还提供一种命名实体识别模型构建方法,包括:
[0032]获取第一文本及其命名实体标注数据间的第一对应关系集;
[0033]将第一文本及其命名实体标注数据作为语言模型的输入数据,通过语言模型,生成第二文本及其命名实体标注数据间的第二对应关系集;
[0034]根据第一对应关系集和第二对应关系集,学习得到命名实体识别模型。
[0035]本申请还提供一种商品评价情感分类模型构建方法,包括:
[0036]获取第一商品评价及其情感类别标注数据间的第一对应关系集;
[0037]将第一商品评价及其情感类别标注数据作为语言模型的输入数据,通过语言模型,生成第二商品评价及其情感类别标注数据间的第二对应关系集;
[0038]根据第一对应关系集和第二对应关系集,学习得到所述分类模型。
[0039]本申请还提供一种词性标注模型构建方法,包括:
[0040]获取第一文本及其词性标注数据间的第一对应关系集;
[0041]将第一文本及其词性标注数据作为语言模型的输入数据,通过语言模型,生成第
二文本及其词性标注数据间的第二对应关系集;
[0042]根据第一对应关系集和第二对应关系集,学习得到词性标注模型。
[0043]本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。
[0044]本申请还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
[0045]与现有技术相比,本申请具有以下优点:
[0046]本申请实施例提供的文本标注模型构建方法,通过获取第一文本及其标注数据间的第一对应关系集;将第一文本及其标注数据作为语言模型的输入数据,通过语言模型,生成第二文本及其标注数据间的第二对应关系集;根据第一对应关系集和第二对应关系集,学习得到文本标注模型;这种处理方式,使得在训练数据有限的情况下,对于原有的文本标注数据集,通过线性化的方式将文本和标注数据转换为语言模型的输入数据,通过语言模型学习训练数据中词的分布,这样就可以通过训练后的语言模型,生成符合文本标注本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本标注模型构建方法,其特征在于,包括:获取第一文本及其标注数据间的第一对应关系集;将第一文本及其标注数据作为语言模型的输入数据,通过语言模型,生成第二文本及其标注数据间的第二对应关系集;根据第一对应关系集和第二对应关系集,学习得到文本标注模型。2.根据权利要求1所述的方法,其特征在于,还包括:获取第三文本集;以及,根据第一文本的标注数据,构建标注词典;根据标注字典,确定第三文本的标注数据;将第一文本及其标注数据作为语言模型的输入数据,并将第三文本及其标注数据作为语言模型的输入数据,通过语言模型,生成所述第二对应关系集。3.根据权利要求1所述的方法,其特征在于,所述将第一文本及其标注数据作为语言模型的输入数据,通过语言模型,生成第二文本及其标注数据间的第二对应关系集,包括:将第一对应关系转换为包括第一文本及其标注数据的第四文本;根据多个第四文本形成的语料库,训练语言模型;通过训练后的语言模型,生成包括第二文本及其标注数据的第五文本集;将第五文本转换为第二对应关系。4.根据权利要求3所述的方法,其特征在于,所述通过训练后的语言模型,生成包括第二文本及其标注数据的第五文本集,包括:确定小于或者等于预设文本长度的文本长度;通过训练后的语言模型,生成具有所述文本长度的所述第五文本。5.根据权利要求1所述的方法,其特征在于,所述文本标注模型包括:命名实体识别模型;所述第五文本包括:所述第一文本未包括的命名实体,所述第一文本未包括的命名实体应用语境。6.一种文本标注模型构建装置,其特征在于,包括:第一标注数据获取单元,用于获取第一文...

【专利技术属性】
技术研发人员:丁博生刘林林邴立东阮海天沙菲克
申请(专利权)人:南洋理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1