【技术实现步骤摘要】
文本处理方法和装置
本申请涉及自然语言处理
,具体涉及文本处理方法和装置。
技术介绍
在与文本处理相关的业务场景中,随着业务的不断发展,需要在多种语言上执行同种文本处理任务。以在中文上做命名实体识别的文本处理任务为例,要从文本“我今天买了一个苹果手机”中识别出商品名“苹果手机”;以在中文上做情感分类的文本处理任务为例,要识别出用户评论“质量很好,超出预期”属正向情感,可将这些文本处理任务扩展到中文以外的其它语言上。对于人工标注数据资源较为丰富的语言(如中文,英文等等),可直接根据训练数据训练文本处理模型(如命名实体识别或者情感分类模型);对于人工标注数据资源较为匮乏的语言(如越南语、泰语等小语种),由于没有足够的训练数据来训练模型,因而通常采用跨语言模型迁移方案,即:将在人工标注数据资源较为丰富语言(简称源语言)上训练的模型迁移到人工标注数据资源较为匮乏语言(简称目标语言)上使用。目前,一种典型的跨语言模型迁移的方案主要通过对齐的词向量来实现,简称为跨语言词向量对齐的方法。该方法首先从源语言和目标语言各 ...
【技术保护点】
1.一种文本处理方法,包括:/n至少从包括未标注文本处理结果的第一源语言语料集和目标语言语料集的语料合集中,学习得到语言模型;以及,从已标注文本处理结果的第二源语言语料集中学习得到文本处理模型;/n获取源语言或目标语言的待处理文本;/n通过所述语言模型,确定所述待处理文本包括的至少一个词的跨语言对齐的上下文相关词向量;/n将所述跨语言对齐的上下文相关词向量作为所述文本处理模型的输入数据,通过所述文本处理模型获取所述待处理文本的文本处理结果。/n
【技术特征摘要】
1.一种文本处理方法,包括:
至少从包括未标注文本处理结果的第一源语言语料集和目标语言语料集的语料合集中,学习得到语言模型;以及,从已标注文本处理结果的第二源语言语料集中学习得到文本处理模型;
获取源语言或目标语言的待处理文本;
通过所述语言模型,确定所述待处理文本包括的至少一个词的跨语言对齐的上下文相关词向量;
将所述跨语言对齐的上下文相关词向量作为所述文本处理模型的输入数据,通过所述文本处理模型获取所述待处理文本的文本处理结果。
2.根据权利要求1所述的方法,其特征在于,所述语言模型采用如下步骤学习得到:
获取所述语料合集;
构建所述语言模型的神经网络;所述神经网络包括至少一个语义向量提取层,所述语义向量提取层后包括语言类别判别器,所述判别器用于判别上一个语义向量提取层输出的词向量的语言类别,所述语言类别包括源语言和目标语言;
以所述判别器的判别正确率大于第一正确率阈值且小于第二正确率阈值、且语言模型的困惑度小于困惑度阈值为训练目标,根据所述语料合集训练所述神经网络。
3.根据权利要求2所述的方法,其特征在于,
所述语料合集包括多个源语言的语料集;
至少从包括未标注文本处理结果的多个源语言的第一源语言语料集和目标语言语料集的语料合集中,学习得到语言模型;所述判别器判别的所述语言类别包括多个源语言和目标语言;
从已标注文本处理结果的多个源语言的第二源语言语料集中学习得到所述文本处理模型。
4.根据权利要求1所述的方法,其特征在于,所述语料合集不包括源语言与目标语言间的平行语料。
5.根据权利要求1所述的方法,其特征在于,所述通过所述语言模型,并确定所述待处理文本包括的至少一个词的跨语言对齐的上下文相关词向量,包括:
获取所述语言模型中各个语义向量提取层输出的语义向量;
针对各个词,拼接各个语义向量提取层输出的所述词的语义向量,作为所述词的跨语言对齐的上下文相关词向量。
6.根据权利要求1所述的方法,其特征在于,所述通过所述语言模型,并确定所述待处理文本包括的至少一个词的跨语言对齐的上下文相关词向量,包括:
获取所述语言模型中各个语义向量提取层输出的语义向量;
针对各个词,将各个语义向量提取层输出的所述词的语义向量的加权平均值作为所述词的跨语言对齐的上下文相关词向量。
7.根据权利要求1所述的方法,其特征在于,所述文本处理模型采用如下步骤学习得到:
获取所述第二源语言语料集;
通过所述语言模型,确定所述第二源语言语料包括的至少一个词的跨语言对齐的上下文相关词向量;
构建所述文本处理模型的神经网络;
根据所述跨语言对齐的上下文相关词向量、与已标注文本处理结果间的对应关系集,训练所述神经网络。
8.根据权利要求1所述的方法,其特征在于,所述文本处理模型包括:命名实体识别模型,情感分类模型,词性标注模型。
9.一种文本处理装置,其...
【专利技术属性】
技术研发人员:黄睿,李辰,包祖贻,刘恒友,李林琳,司罗,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。