本申请实施例的目的是提供一种用于分词和词性标注系统的多频道联合处理方法和装置。申请实施例提供的方法包括以下步骤:获取输入序列中包含的字序列和字序列对应的长度信息;根据所述长度信息将各个字序列对应于多个频道,使得相同长度的字序列集合对应于一个频道;通过在各个频道中,分别针对不同长度的字序列集合对于联合标签的贡献大小分别建模并进行加权计算,得到各个频道对应的针对特定长度的加权字序列向量;通过将各个频道对应的长度加权向量进行加权串联,得到输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的不同长度的不同字序列集合对于联合标签的贡献。
A multi-channel joint processing method and device
【技术实现步骤摘要】
一种多频道联合处理方法和装置
本专利技术涉及计算机
,尤其涉及一种用于分词和词性标注系统的多频道联合处理方法。
技术介绍
中文分词和词性标注的联合任务(JointChineseWordSegmentationandPart-of-speechTagging),指把分词和词性标注视为一个联合任务,即对输入的中文字序列,同时进行分词和词性标注,而不是先分词,再对分词的结果进行词性标注。现有技术的方案中,面向中文分词和词性标注的联合任务的技术可以分为基于特征的传统方法和深度学习方法。基于特征的方法指,通过人工设计、选取特征的方法,对输入文本进行特征提取,基于这些特征对当前字的联合标签进行判断。常用的特征包括当前字、前字、后字等。然而,这种方法的效果高度依赖于人工设计、提取的特征的质量,而设计高质量的特征提取方法非常困难。此外,特征提取的方法,对于因句意不同而造成的歧义,并没有相应的解决办法。近年来,深度学习方法被逐渐应用在中文分词中。该方法能够依据具体任务的特点,自动实现对文本特征的提取,免去了人工设计、提取特征的巨大成本。深度学习的识别效果远远超过了单纯的传统方法。一般来讲,基于深度学习的联合任务的系统均以基本的序列标注模式为基础,具体包括以下三个模块输入嵌入层、上下文信息编码层和解码输出层。其中,输入嵌入层把输入的文本中的每个字,以及与这个字相关的n-gram(即长度为n的字序列),分别映射到高维连续空间的字向量,以及n-gram向量,并把字向量与n-gram向量直接串联(concatenate),得到一个新的字向量,并用这个新的字向量代表这个字的特征。上下文信息编码层在字向量的基础之上,提取每个字的上下文的信息,计算其它字的字向量对其的影响。该层的输入为嵌入层的输出(即一句话中的不同字的字向量),输出为经过上下文编码的不同字向量。解码输出层对经过上下文信息提取后的每一个字向量解码,输出预测的联合标签。然而,基于现有技术的方案在把n-gram向量与字向量串联时,没有考虑不同n-gram对该字的联合标签的贡献的差异,这会使得那些贡献小的n-gram误导模型去预测错误的联合标签。例如,对于以下语句:(1)教育部分析数据->教育部_NN/分析_VV/数据_NN(2)教育部分学生->教育_VV/部分_CD/学生_NN其中,n-gram“教育部”在(1)中对联合标签的作用更大,而其在(2)中的作用则较小。如果不区分“教育部”在不同上下文下的贡献的话,那么,这个n-gram将会误导模型做出错误的联合标签预测。
技术实现思路
本申请实施例的目的是提供一种用于分词和词性标注系统的多频道联合处理方法和装置。本申请实施例提供的一种用于分词和词性标注系统的多频道联合处理方法,其中,所述方法包括以下步骤:获取输入序列中包含的字序列和字序列对应的长度信息;根据所述长度信息将各个字序列对应于多个频道,使得相同长度的字序列集合对应于一个频道;通过在各个频道中,分别针对不同长度的字序列集合对于联合标签的贡献大小分别建模并进行加权计算,得到各个频道对应的针对特定长度的加权字序列向量;通过将各个频道对应的长度加权向量进行加权串联,得到输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的不同长度的不同字序列集合对于联合标签的贡献。本申请实施例申请实施例提供的一种用于分词和词性标注系统的多频道联合处理装置,其中,所述多频道联合处理装置包括:获取模块,用于获取输入序列中包含的字序列和字序列对应的长度信息;频道对应模块,用于根据所述长度信息将各个字序列对应于多个频道,使得相同长度的字序列集合对应于一个频道;多频道计算模块,用于通过在各个频道中,分别针对不同长度的字序列集合对于联合标签的贡献大小分别建模并进行加权计算,得到各个频道对应的针对特定长度的加权字序列向量;加权串联模块,用于通过将各个频道对应的长度加权向量进行加权串联,得到输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的不同长度的不同字序列集合对于联合标签的贡献。本申请实施例提供的一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法。本申请实施例提供的一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述方法。与现有技术相比,本申请实施例具有以下优点:通过在多个频道中针对不同长度的字序列,依据不同长度的字序列集合对于联合标签的贡献大小分别建模并进行加权计算,考虑到了不同长度的字序列对联合标签的贡献差异,因而能够避免由此带来的错误的预测,并且能够避免由于较长的字序列在训练数据集中出现频率较低而产生的模型偏差,提升了分词和词性标注系统的准确率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出了根据本申请实施例的一种用于分词和词性标注系统的多频道联合处理方法流程图;图2示出了根据本申请实施例的一个分词和词性标注系统的示意图;图3示出了根据本申请实施例的一种用于分词和词性标注系统的多频道联合处理装置的结构示意图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式下面结合附图对本专利技术作进一步详细描述。图1示出了根据本申请实施例的一种用于分词和词性标注系统的多频道联合处理方法流程图。所述方法包括步骤S1、步骤S2、步骤S3和步骤S4。其中,根据本专利技术的方法通过包含于计算机设备中的多频道联合处理装置来实现。所述计算机设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述计算机设备包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、PDA、游戏机、或IPTV等。其中,所述用户设备及网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。需要说明的是,所述用户设备、网络设备以及网络仅为举例,其他现有的或今后可能出现的用户设备、网络设备以及网络如可适用于本专利技术,也应包含在本专利技术保护范围以内,并以引用方式包含于此。参照图1,在步骤S1中,多频道联合处理装置获取输入序列中包含的字序列和本文档来自技高网...
【技术保护点】
1.一种用于分词和词性标注系统的多频道联合处理方法,其中,所述方法包括以下步骤:/n获取输入序列中包含的字序列和字序列对应的长度信息;/n根据所述长度信息将各个字序列对应于多个频道,使得相同长度的字序列集合对应于一个频道;/n通过在各个频道中,分别针对不同长度的字序列集合对于联合标签的贡献大小分别建模并进行加权计算,得到各个频道对应的针对特定长度的加权字序列向量;/n通过将各个频道对应的长度加权向量进行加权串联,得到输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的不同长度的不同字序列集合对于联合标签的贡献。/n
【技术特征摘要】
1.一种用于分词和词性标注系统的多频道联合处理方法,其中,所述方法包括以下步骤:
获取输入序列中包含的字序列和字序列对应的长度信息;
根据所述长度信息将各个字序列对应于多个频道,使得相同长度的字序列集合对应于一个频道;
通过在各个频道中,分别针对不同长度的字序列集合对于联合标签的贡献大小分别建模并进行加权计算,得到各个频道对应的针对特定长度的加权字序列向量;
通过将各个频道对应的长度加权向量进行加权串联,得到输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的不同长度的不同字序列集合对于联合标签的贡献。
2.根据权利要求1所述的方法,其中,所述通过在各个频道中,分别针对不同长度的字序列集合对于联合标签的贡献大小分别建模并进行加权计算,得到各个频道对应的针对特定长度的加权字序列向量的步骤包括:
对于每个频道,计算该频道对应的字序列集合相对于输入序列中每个字的权重;
根据得到的字序列集合相对于输入序列中每个字的权重,通过计算其加权和来得到该频道对应的针对特定长度的加权字序列向量。
3.根据权利要求1所述的方法,其中,所述方法包括以下步骤:
将所述加权字序列向量与输入序列的字向量串联;
基于串联后的向量,在分词和词性标注系统中得到输入序列的预测标签;
通过得到的各个分词的预测标签和对应的真实标签来计算并优化目标函数,进而训练联合标签的模型。
4.根据权利要求1至3中任一项所述的方法,其中,所述方法包括以下步骤:
使用训练好的联合标签的模型,对输入的中文序列进行分析,从而获得该中文序列的分词和词性标注的联合标注结果。
5.根据权利要求1中所述的方法,其中,所述获取输入序列中包含的字序列和其对应的长度信息的步骤包括:
通过预存储的包含长度信息的词表,获取输入序列中包含的字序列和字序列对应的长度信息。
6.一种用于分词和词性标注系统的多频道联合处理装置,其中,所述多频道联合处理装置包括:
获取模块,用于获取输入序列中包含的字序列和字序列对应的长度信息;
频道对应模块...
【专利技术属性】
技术研发人员:宋彦,田元贺,王咏刚,
申请(专利权)人:创新工场广州人工智能研究有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。