本申请实施例的目的是提供一种用于分词和词性标注系统的双通道联合处理方法和装置。本申请实施的方法包括以下步骤:获取输入序列中包含的每个字对应的上下文特征信息和知识信息;在特征通道和知识通道内,分别基于各个字的上下文特征和知识对于联合标签的贡献来建模并进行加权计算,得到输入序列的上下文特征向量和知识向量;通过将所述上下文特征向量和所述知识向量串联,得到所述输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献。
A dual channel joint processing method and device
【技术实现步骤摘要】
一种双通道联合处理方法和装置
本专利技术涉及计算机
,尤其涉及一种用于分词和词性标注系统的双通道联合处理方法和装置。
技术介绍
中文分词和词性标注的联合任务(JointChineseWordSegmentationandPart-of-speechTagging),指把分词和词性标注视为一个联合任务,即对输入的中文字序列,同时进行分词和词性标注,而不是先分词,再对分词的结果进行词性标注。现有技术的方案中,面向中文分词和词性标注的联合任务的技术可以分为基于特征的传统方法和深度学习方法。基于特征的方法指,通过人工设计、选取特征的方法,对输入文本进行特征提取,基于这些特征对当前字的联合标签进行判断。常用的特征包括当前字、前字、后字等。然而,这种方法的效果高度依赖于人工设计、提取的特征的质量,而设计高质量的特征提取方法非常困难。此外,特征提取的方法,对于因句意不同而造成的歧义,并没有相应的解决办法。近年来,深度学习方法被逐渐应用在中文分词中。该方法能够依据具体任务的特点,自动实现对文本特征的提取,免去了人工设计、提取特征的巨大成本。深度学习的识别效果远远超过了单纯的传统方法。一般来讲,基于深度学习的联合任务的系统均以基本的序列标注模式为基础,具体包括以下三个模块输入嵌入层、上下文信息编码层和解码输出层。其中,输入嵌入层把输入的文本中的每个字映射到高维连续空间的字向量,并用这个新的字向量代表这个字的特征。上下文信息编码层在字向量的基础之上,提取每个字的上下文的信息,计算其它字的字向量对其的影响。该层的输入为嵌入层的输出(即一句话中的不同字的字向量),输出为经过上下文编码的不同字向量。解码输出层对经过上下文信息提取后的每一个字向量解码,输出预测的联合标签。然而,基于现有技术的方案一般直接将上下文特征向量和知识向量与字向量直接串联,而没有考虑不同的上下文特征和知识对该字的联合标签的贡献的差异,使得那些贡献小的或者自动方法获取的不准确的上下文特征以及知识,误导模型去预测错误的联合标签。例如,对于语句子“他马上功夫很好”,使用现有的StanfordCoreNLPToolkits(斯坦福自然语言处理工具)分析后,得到的上下文特征错误地把“马上”(“立即”、“立刻”的意思)视为一个词,而且其携带的词性知识也被错误的视为“副词”,而不是正确地把其视为两个词“马/上”(“马的上面”的意思)。这样一来,这种不准确的上下文特征和知识将会对联合任务系统产生负面的影响。
技术实现思路
本申请实施例的目的是提供一种用于分词和词性标注系统的双通道联合处理方法和装置。本申请实施例提供的一种用于分词和词性标注系统的双通道联合处理方法,其中,所述方法包括以下步骤:获取输入序列中包含的每个字对应的上下文特征信息和知识信息;在特征通道和知识通道内,分别基于各个字的上下文特征和知识对于联合标签的贡献来建模并进行加权计算,得到输入序列的上下文特征向量和知识向量;通过将所述上下文特征向量和所述知识向量串联,得到所述输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献。本申请实施例提供的一种用于分词和词性标注系统的双通道联合处理装置,其中,所述双通道联合处理装置包括:获取模块,用于获取输入序列中包含的每个字对应的上下文特征信息和知识信息;双通道计算模块,用于在特征通道和知识通道内,分别基于各个字的上下文特征和知识对于联合标签的贡献来建模并进行加权计算,得到输入序列的上下文特征向量和知识向量;加权串联模块,用于通过将所述上下文特征向量和所述知识向量串联,得到所述输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献。本申请实施例提供的一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法。本申请实施例提供的一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述方法。本申请实施例具有以下优点:通过在两个独立的通道中依据输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献分别建模并进行加权计算,考虑到了征和知识对于联合标签的贡献,因而能够避免由此带来的错误的预测,并且充分利用了上下文特征和知识,进一步提升了分词和词性标注系统的准确率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出了根据本申请实施例的一种用于分词和词性标注系统的双通道联合处理方法流程图;图2示出了根据本申请实施例的一个分词和词性标注系统的示意图;图3示出了根据本申请实施例的一种用于分词和词性标注系统的双通道联合处理装置的结构示意图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式下面结合附图对本专利技术作进一步详细描述。图1示出了根据本申请实施例的一种用于分词和词性标注系统的双通道联合处理方法流程图。所述方法包括步骤S1、步骤S2和步骤S3。其中,根据本专利技术的方法通过包含于计算机设备中的双通道联合处理装置来实现。所述计算机设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述计算机设备包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、PDA、游戏机、或IPTV等。其中,所述用户设备及网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。需要说明的是,所述用户设备、网络设备以及网络仅为举例,其他现有的或今后可能出现的用户设备、网络设备以及网络如可适用于本专利技术,也应包含在本专利技术保护范围以内,并以引用方式包含于此。参照图1,在步骤S1中,双通道联合处理装置获取输入序列中包含的每个字对应的上下文特征信息和知识信息。其中,所述上下文特征信息包括各种用于表示上下文分词的信息。所述知识信息包括各种用于表示词性信息,成分句法信息等知识的信息。其中,每个字对应的上下文特征信息和知识信息是成对出现的。具体地,上下文特征和其所对应的知识是两个同样长度的列表,分别用和来表示,其中中某一位置t的上下文特征,其对应的知识在中的位置同样为t本文档来自技高网...
【技术保护点】
1.一种用于分词和词性标注系统的双通道联合处理方法,其中,所述方法包括以下步骤:/n获取输入序列中包含的每个字对应的上下文特征信息和知识信息;/n在特征通道和知识通道内,分别基于各个字的上下文特征和知识对于联合标签的贡献来建模并进行加权计算,得到输入序列的上下文特征向量和知识向量;/n通过将所述上下文特征向量和所述知识向量串联,得到所述输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献。/n
【技术特征摘要】
1.一种用于分词和词性标注系统的双通道联合处理方法,其中,所述方法包括以下步骤:
获取输入序列中包含的每个字对应的上下文特征信息和知识信息;
在特征通道和知识通道内,分别基于各个字的上下文特征和知识对于联合标签的贡献来建模并进行加权计算,得到输入序列的上下文特征向量和知识向量;
通过将所述上下文特征向量和所述知识向量串联,得到所述输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献。
2.根据权利要求1所述的方法,其中,所述在特征通道和知识通道内,分别基于各个字的上下文特征和知识对于联合标签的贡献来建模并进行加权计算,得到输入序列的上下文特征向量和知识向量的步骤包括:
在特征通道内基于上下文特征信息计算特征通道对应的上下文特征集合相对于输入序列中每个字的权重,
根据得到的特征通道的上下文特征集合相对于输入序列中每个字的权重,通过计算其加权和来得到输入序列的上下文特征向量;
并且,
在知识通道内基于知识信息计算知识通道对应的知识集合相对于输入序列中每个字的权重;
根据得到的知识通道的知识集合相对于输入序列中每个字的权重,通过计算其加权和来得到输入序列的知识向量。
3.根据权利要求1所述的方法,其中,所述方法包括以下步骤:
将所述加权字序列向量与输入序列的字向量串联;
基于串联后的向量,在分词和词性标注系统中得到输入序列的预测标签;
通过得到的各个分词的预测标签和对应的真实标签来计算并优化目标函数,进而训练联合标签的模型。
4.根据权利要求1至3中任一项所述的方法,其中,所述方法包括以下步骤:
使用训练好的联合标签的模型,对输入的中文序列进行分析,从而获得该中文序列的分词和词性标注的联合标注结果。
5.根据权利要求1中所述的方法,其中,所述获取输入序列中包含的每个字对应的上下文特征信息和知识信息的步骤包括:
通过外部自动工具获取输入序列中包含的每个字对应的上下文特征信息和知识信息。
6.一种用于分词和词性标注系统的双通道联合处理装置,其中,所述双通道联合处理装置包括:
获取模块,用于获取输入序列中包含的每个字对应的上下文特征信息和知识信...
【专利技术属性】
技术研发人员:宋彦,田元贺,王咏刚,
申请(专利权)人:创新工场广州人工智能研究有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。