一种多频道联合处理方法和装置制造方法及图纸

技术编号:24497967 阅读:31 留言:0更新日期:2020-06-13 03:48
本申请实施例的目的是提供一种用于分词和词性标注系统的多频道联合处理方法和装置。申请实施例提供的方法包括以下步骤:获取输入序列中包含的字序列和字序列对应的长度信息;根据所述长度信息将各个字序列对应于多个频道,使得相同长度的字序列集合对应于一个频道;通过在各个频道中,分别针对不同长度的字序列集合对于联合标签的贡献大小分别建模并进行加权计算,得到各个频道对应的针对特定长度的加权字序列向量;通过将各个频道对应的长度加权向量进行加权串联,得到输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的不同长度的不同字序列集合对于联合标签的贡献。

A multi-channel joint processing method and device

【技术实现步骤摘要】
一种多频道联合处理方法和装置
本专利技术涉及计算机
,尤其涉及一种用于分词和词性标注系统的多频道联合处理方法。
技术介绍
中文分词和词性标注的联合任务(JointChineseWordSegmentationandPart-of-speechTagging),指把分词和词性标注视为一个联合任务,即对输入的中文字序列,同时进行分词和词性标注,而不是先分词,再对分词的结果进行词性标注。现有技术的方案中,面向中文分词和词性标注的联合任务的技术可以分为基于特征的传统方法和深度学习方法。基于特征的方法指,通过人工设计、选取特征的方法,对输入文本进行特征提取,基于这些特征对当前字的联合标签进行判断。常用的特征包括当前字、前字、后字等。然而,这种方法的效果高度依赖于人工设计、提取的特征的质量,而设计高质量的特征提取方法非常困难。此外,特征提取的方法,对于因句意不同而造成的歧义,并没有相应的解决办法。近年来,深度学习方法被逐渐应用在中文分词中。该方法能够依据具体任务的特点,自动实现对文本特征的提取,免去了人工设计、提取特征本文档来自技高网...

【技术保护点】
1.一种用于分词和词性标注系统的多频道联合处理方法,其中,所述方法包括以下步骤:/n获取输入序列中包含的字序列和字序列对应的长度信息;/n根据所述长度信息将各个字序列对应于多个频道,使得相同长度的字序列集合对应于一个频道;/n通过在各个频道中,分别针对不同长度的字序列集合对于联合标签的贡献大小分别建模并进行加权计算,得到各个频道对应的针对特定长度的加权字序列向量;/n通过将各个频道对应的长度加权向量进行加权串联,得到输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的不同长度的不同字序列集合对于联合标签的贡献。/n

【技术特征摘要】
1.一种用于分词和词性标注系统的多频道联合处理方法,其中,所述方法包括以下步骤:
获取输入序列中包含的字序列和字序列对应的长度信息;
根据所述长度信息将各个字序列对应于多个频道,使得相同长度的字序列集合对应于一个频道;
通过在各个频道中,分别针对不同长度的字序列集合对于联合标签的贡献大小分别建模并进行加权计算,得到各个频道对应的针对特定长度的加权字序列向量;
通过将各个频道对应的长度加权向量进行加权串联,得到输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的不同长度的不同字序列集合对于联合标签的贡献。


2.根据权利要求1所述的方法,其中,所述通过在各个频道中,分别针对不同长度的字序列集合对于联合标签的贡献大小分别建模并进行加权计算,得到各个频道对应的针对特定长度的加权字序列向量的步骤包括:
对于每个频道,计算该频道对应的字序列集合相对于输入序列中每个字的权重;
根据得到的字序列集合相对于输入序列中每个字的权重,通过计算其加权和来得到该频道对应的针对特定长度的加权字序列向量。


3.根据权利要求1所述的方法,其中,所述方法包括以下步骤:
将所述加权字序列向量与输入序列的字向量串联;
基于串联后的向量,在分词和词性标注系统中得到输入序列的预测标签;
通过得到的各个分词的预测标签和对应的真实标签来计算并优化目标函数,进而训练联合标签的模型。


4.根据权利要求1至3中任一项所述的方法,其中,所述方法包括以下步骤:
使用训练好的联合标签的模型,对输入的中文序列进行分析,从而获得该中文序列的分词和词性标注的联合标注结果。


5.根据权利要求1中所述的方法,其中,所述获取输入序列中包含的字序列和其对应的长度信息的步骤包括:
通过预存储的包含长度信息的词表,获取输入序列中包含的字序列和字序列对应的长度信息。


6.一种用于分词和词性标注系统的多频道联合处理装置,其中,所述多频道联合处理装置包括:
获取模块,用于获取输入序列中包含的字序列和字序列对应的长度信息;
频道对应模块...

【专利技术属性】
技术研发人员:宋彦田元贺王咏刚
申请(专利权)人:创新工场广州人工智能研究有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1