【技术实现步骤摘要】
语言序列标注方法、装置存储介质及计算机设备
本专利技术涉及数据处理领域,具体而言,涉及一种语言序列标注方法、装置存储介质及计算机设备。
技术介绍
在一些应用场景中,需要在各种不同种类的语言上进行序列标注。例如,输入文本(比如,我今天去了安徽歙县)识别出实体(比如,安徽歙县是地名);又例如,输入文本(比如,我买了一个歙砚)识别出实体(比如,歙砚是商品),但是换成输入另一种语言的“我今天去了安徽歙县,或者我买了一个歙砚”(例如,英语,泰语,越南语,阿拉伯语等),在该语言为没有人工标注数据的语言(资源匮乏语言,例如,越南语,泰语)的情况下,也就无法对应地识别出商品名“安徽歙县是地名”或者“歙砚是商品”。相关技术中,可以采用自动生成在目标语言(资源匮乏语言)上的标注数据,例如,在源语言(资源丰富语言)与目标语言(资源匮乏语言)之间存在平行语料X和X’的情况下,若语料X拥有标注数据Y,则可以采用标注映射的方式将语料X上的标注数据Y映射到语料X’上生成标注数据Y’,但是平行语料的情况并不能涵盖所有的语料,在非平行语料的情 ...
【技术保护点】
1.一种语言序列标注方法,其特征在于,包括:/n基于源语言向量和目标语言向量生成跨语言向量;/n根据所述跨语言向量生成语言对应关系,其中,所述语言对应关系包括将源语言和目标语言对应起来的关系;/n根据所述语言对应关系将源语言序列标注数据转换成转换数据;/n对所述源语言序列标注数据以及所述转换数据进行训练,得到跨语言序列标注模型;/n基于所述跨语言序列标注模型对目标语言进行序列标注。/n
【技术特征摘要】
1.一种语言序列标注方法,其特征在于,包括:
基于源语言向量和目标语言向量生成跨语言向量;
根据所述跨语言向量生成语言对应关系,其中,所述语言对应关系包括将源语言和目标语言对应起来的关系;
根据所述语言对应关系将源语言序列标注数据转换成转换数据;
对所述源语言序列标注数据以及所述转换数据进行训练,得到跨语言序列标注模型;
基于所述跨语言序列标注模型对目标语言进行序列标注。
2.根据权利要求1所述的方法,其特征在于,基于源语言向量和目标语言向量生成跨语言向量包括:
采用生成式对抗网络学习,得到将源语言向量和目标语言向量对应起来的线性变换;
将所述源语言向量和所述目标语言向量经过所述线性变换,得到所述跨语言向量。
3.根据权利要求1所述的方法,其特征在于,根据所述跨语言向量,生成所述语言对应关系包括:
在所述跨语言向量中,通过语言最近邻查找的方式,生成所述语言对应关系。
4.根据权利要求1所述的方法,其特征在于,根据所述语言对应关系将所述源语言序列标注数据转换成所述转换数据包括以下至少之一:
在所述跨语言向量包括跨语言词向量的情况下,将所述源语言序列标注数据参照所述语言对应关系逐字逐句地翻译成所述转换数据;
在所述跨语言向量包括跨语言语句向量的情况下,将所述源语言序列标注数据参照所述语言对应关系以语句为单位翻译成所述转换数据;
在所述跨语言向量包括跨语言文档向量的情况下,将所述源语言序列标注数据参照所述语言对应关系以整个文档为单位翻译成所述转换数据。
5.根据权利要求1所述的方法,其特征在于,对所述源语言序列标注数据以及所述转换数据进行训练,得到所述跨语言序列标注模型包括:
在目标语言存在目标语言序列标注数据的情况下,分别确定所述目标语言序列标注数据,所述源语言序列标注数据以及所述转换数据在进行训练时的权重;
依据权重对所述目标语言序列标注数据,所述源语言序列标注数据以及所述转换数据进行训练,得到所述跨语言序列标注模型。
6.根据权利要求5所述的方法,其特征在于,所述目标语言序列标注数据,所述源语言序列标注数据以及所述转换数据中,所述目标语言序列标注数据的权重最大。
7.根据权利要求1所述的方法,其特征在于,对所述源语言序列标注数据以及所述转换数据进行训练,得到跨语言序列标注模型包括以下至少之一:
将所述跨语言向量作为模型的输入,对所述源语言序列标注数据以及所述转换数据进行训练,得到所述跨语言序列标注模型;
通过跨语言共享字符级卷积神经网络的方式,对所述...
【专利技术属性】
技术研发人员:黄睿,李辰,王涛,包祖贻,李林琳,司罗,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。