自然语言处理方法、装置、文本处理方法、设备和介质制造方法及图纸

技术编号:31078060 阅读:30 留言:0更新日期:2021-12-01 11:30
本公开实施例公开了自然语言处理方法、装置、文本处理方法、设备和介质,所述自然语言处理方法包括:获取有标注的源领域数据以及无标注的目标领域数据;利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注;将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。提高目标领域数据分词的准确性。提高目标领域数据分词的准确性。

【技术实现步骤摘要】
自然语言处理方法、装置、文本处理方法、设备和介质


[0001]本公开涉及计算机
,具体涉及自然语言处理方法、装置、文本处理方法、设备和介质。

技术介绍

[0002]在中文中,字与字之间并不存在显式的分隔符。因此,若想让机器获取词语单位的信息,必须将字符序列重新规范,组成词序列。如今,分词已经成为了自然语言处理中任务中必不可少的关键步骤,例如,若想在地址“AAA市BBB区CCC路”中正确识别出“AAA市”、“BBB区”等命名实体,正确的分词是一个必要的预处理步骤。
[0003]目前,深度学习模型已经可以在特定领域内的有监督分词取得很好的效果。但本专利技术人发现,这些表现优异的算法性能在跨领域的场景中分词效果就会骤降,暴露出较大的问题。这主要是因为,每个领域都有特定词语,而人工标注的语料往往是十分有限的,不可能覆盖到每个领域。这种标注语料的缺少就会造成模型无法识别出不曾在训练过程中登录的词语。例如,一个在新闻语料训练的模型很难识别出“链球菌”这个词,因为后者往往只在医疗语料中出现。跨领域的设置会大大削弱监督语料下的模型性能。

技术实现思路

[0004]为了解决相关技术中的问题,本公开实施例提供自然语言处理方法、装置、文本处理方法、设备和介质。
[0005]第一方面,本公开实施例中提供了一种自然语言处理方法,包括:
[0006]获取有标注的源领域数据以及无标注的目标领域数据;
[0007]利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注;
[0008]将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据。
[0009]结合第一方面,本公开在第一方面的第一种实现方式中,所述利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注,包括:
[0010]将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,获取源领域特定词、共享词、以及目标领域待标注数据;
[0011]利用所述共享词获取共享词词表;
[0012]利用所述目标领域待标注数据获取目标领域特有词典;
[0013]根据所述共享词词表和所述目标领域特有词典,获取机器标注的目标领域数据。
[0014]结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述利用所述目标领域待标注数据获取目标领域特有词典,包括:
[0015]通过计算如下指标中的一种或多种,识别所述目标领域待标注数据中的词:
[0016]凝合分数、自由分数、词频以及词频-逆文本频率指数。
[0017]结合第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述
凝合分数通过如下方式进行计算,包括:
[0018]从所述目标领域待标注数据中获取第一文本片段;
[0019]获取所述第一文本片段作为整体在所述目标领域待标注数据中出现的第一概率;
[0020]将所述第一文本片段分割为两个子片段,确定使所述两个子片段在所述目标领域待标注数据中出现的概率的乘积最大的第一分割方式;以及
[0021]基于所述第一概率与所述第一分割方式所对应的乘积的比值确定所述目标领域特有词典。
[0022]结合第一方面的第二种实现方式,本公开在第一方面的第四种实现方式中,所述自由分数通过如下方式进行计算,包括:
[0023]从所述目标领域待标注数据中获取第二文本片段;
[0024]确定所述第二文本片段的左邻字集熵和右邻字集熵;
[0025]基于所述左邻字集熵和右邻字集熵中的较小者确定所述目标领域特有词典。
[0026]结合第一方面的第一种实现方式,本公开在第一方面的第五种实现方式中,所述利用所述目标领域待标注数据获取目标领域特有词典,包括:
[0027]通过预定分词模型处理所述目标领域待标注数据,获取目标领域特有词典。
[0028]结合第一方面、第一方面的第一种实现方式至第五种实现方式任一项,本公开在第一方面的第六种实现方式中,所述对抗网络包括共享编码器、判别器和目标领域分词器,所述将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据,包括:
[0029]将所述有标注的源领域数据中的第三文本片段进行编码,获取第一隐含向量;
[0030]将所述机器标注的目标领域数据中的第四文本片段进行编码,获取第二隐含向量;
[0031]所述共享编码器随机选取第一隐含向量或第二隐含向量作为第一编码输入所述判别器,以使所述判别器判断所述第一编码是第一隐含向量或第二隐含向量;
[0032]所述目标领域分词器根据所述判别器的结果获取优化后的目标领域数据。
[0033]结合第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,所述目标领域分词器包括目标领域编码器和第一分词器,所述根据所述判别器的结果获取优化后的目标领域数据,包括:
[0034]通过所述目标领域编码器获取第二编码,所述第二编码根据所述第二隐含向量获取;
[0035]基于所述第一编码和所述第二编码,通过第一分词器获取所述第四文本片段的优化分词结果。
[0036]结合第一方面的第六种实现方式,本公开在第一方面的第八种实现方式中,所述对抗网络还包括源领域编码器和第二分词器,所述方法还包括:
[0037]所述源领域编码器获取第三编码,所述第三编码根据所述第一隐含向量获取;
[0038]基于所述第一编码和所述第三编码,通过第二分词器获取所述第三文本片段的优化分词结果。
[0039]第二方面,本公开实施例中提供了一种自然语言处理装置,包括:
[0040]获取模块,被配置为获取有标注的源领域数据以及无标注的目标领域数据;
[0041]标注模块,被配置为利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注;
[0042]输入模块,被配置为将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据。
[0043]结合第二方面,本公开在第二方面的第一种实现方式中,所述标注模块包括:
[0044]匹配子模块,被配置为将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,获取源领域特定词、共享词、以及目标领域待标注数据;
[0045]共享词词表获取子模块,被配置为利用所述共享词获取共享词词表;
[0046]目标领域特有词典词获取子模块,被配置为利用所述目标领域待标注数据获取目标领域特有词典;
[0047]目标领域数据获取子模块,被配置为根据所述共享词词表和所述目标领域特有词典,获取机器标注的目标领域数据。
[0048]结合第二方面的第一种实现方式,本公开在第二方面的第二种实现方式中,所述特有词典词表获取子模块还被配置为:
[0049]通过计算如下指标中的一种或多种,识别所述目标领域待标注数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自然语言处理方法,其特征在于,包括:获取有标注的源领域数据以及无标注的目标领域数据;利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注;将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据。2.根据权利要求1所述的方法,其特征在于,所述利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注,包括:将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,获取源领域特定词、共享词、以及目标领域待标注数据;利用所述共享词获取共享词词表;利用所述目标领域待标注数据获取目标领域特有词典;根据所述共享词词表和所述目标领域特有词典,获取机器标注的目标领域数据。3.根据权利要求2所述的方法,其特征在于,所述利用所述目标领域待标注数据获取目标领域特有词典,包括:通过计算如下指标中的一种或多种,识别所述目标领域待标注数据中的词:凝合分数、自由分数、词频以及词频-逆文本频率指数。4.根据权利要求3所述的方法,其特征在于,所述凝合分数通过如下方式进行计算,包括:从所述目标领域待标注数据中获取第一文本片段;获取所述第一文本片段作为整体在所述目标领域待标注数据中出现的第一概率;将所述第一文本片段分割为两个子片段,确定使所述两个子片段在所述目标领域待标注数据中出现的概率的乘积最大的第一分割方式;以及基于所述第一概率与所述第一分割方式所对应的乘积的比值确定所述目标领域特有词典。5.根据权利要求3所述的方法,其特征在于,所述自由分数通过如下方式进行计算,包括:从所述目标领域待标注数据中获取第二文本片段;确定所述第二文本片段的左邻字集熵和右邻字集熵;基于所述左邻字集熵和右邻字集熵中的较小者确定所述目标领域特有词典。6.根据权利要求2所述的方法,其特征在于,所述利用所述目标领域待标注数据获取目标领域特有词典,包括:通过预定分词模型处理所述目标领域待标注数据,获取目标领域特有词典。7.根据权利要求1~6中任意一项所述的方法,其特征在于,所述对抗网络包括共享编码器、判别器和目标领域分词器,所述将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据,包括:将所述有标注的源领域数据中的第三文本片段进行编码,获取第一隐含向量;将所述机器标注的目标领域数据中的第四文本片段进行编码,获取第二隐含向量;所述共享编码器随机选取第一隐含向量或第二隐含向量作为第一编码输入所述判别器,以使所述判别器判断所述第一编码是第一隐含向量或第二隐含向量;
所述目标领域分词器根据所述判别器的结果获取优化后的目标领域数据。8.根据权利要求7所述的方法,其特征在于,所述目标领域分词器包括目标领域编码器和第一分词器,所述根据所述判别器的结果获取优化后的目标领域数据,包括:通过所述目标领域编码器获取第二编码,所述第二编码根据所述第二隐含向量获取;基于所述第一编码和所述第二编码,通过第一分词器获取所述第四文本片段的优化分词结果。9.根据权利要求7所述的方法,其特征在于,所述对抗网络还包括源领域编码器和第二分词器,所述方法还包括:所述源领域编码器获取第三编码,所述第三编码根据所述第一隐含向量获取;基于所述第一编码和所述第三编码,通过第二分词器获取所述第三文本片段的优化分词结果。10.一种自然语言处理装置,其特征在于,包括:获取模块,被配置为获取有标注的源领域数据以及无标注的目标领域数据;标注模块,被配置为利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注;输入模块,被配置为将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据。11.根据权利要求10所述的装置,其特征在于,所述标注...

【专利技术属性】
技术研发人员:丁宁龙定坤徐光伟王潇斌谢朋峻
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1