序列标注方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:23099677 阅读:39 留言:0更新日期:2020-01-14 20:42
本申请涉及一种基于神经网络的序列标注方法、装置、计算机设备和存储介质。所述方法包括:将待标注序列中的各字符进行向量转换得到对应的特征词向量;将特征词向量输入预设的序列标注神经网络,以对待标注序列分词,得到候选词语以及候选词语对应的词语标签;将词语标签分别与候选词语中各字符的位置进行组合,得到字符在候选词语中的所属字符标签。基于候选词语中各字符的所属字符标签的权重向量,测算候选词语的第一配对指标。基于每组候选词语对应的第一配对指标,测算候选标注序列的第二配对指标。将数值最大的第二配对指标对应的候选标注序列识别为第一标注序列。采用本方法能够提高标注的准确性。

Sequence labeling method, device, computer equipment and storage medium

【技术实现步骤摘要】
序列标注方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种序列标注方法、装置、计算机设备和存储介质。
技术介绍
序列标注是自然语言处理的一类基本任务,即对输入的文本进行划分,从而输出与文本对应的序列串。序列标注一般广泛应用于词性标注、命名体识别等场景。传统对序列进行标注,通常使用半马尔科夫条件随机场(semi-Markovconditionalrandomfields,简称SCRFs)来解决。然而,SCRFs利用的是自然语言中的短语而不是单个词来进行特征提取,导致在单个词较多的情况下标注的准确率低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高准确率的序列标注方法、装置、计算机设备和存储介质。一种序列标注方法,所述方法包括:当接收携带有待标注序列的序列标注请求时,将所述待标注序列中的各字符进行向量转换,得到字符对应的特征词向量;将所述特征词向量输入预设的序列标注神经网络,以对所述待标注序列进行分词,得到候选词语以及所述候选词语对应的词语标签;将所述词语标签分别与所述候选词语中各字符的位置进行组合,得到所述字符在所述候选词语中的所属字符标签;基于所述候选词语中各字符的所述所属字符标签的权重向量,测算所述候选词语的第一配对指标;所述权重向量由训练所述序列标注神经网络时所得;基于每组所述候选词语对应的所述第一配对指标,测算候选标注序列的第二配对指标;所述候选标注序列是将至少两组所述候选词语进行排列组合得到;将数值最大的所述第二配对指标对应的候选标注序列识别为第一标注序列。在其中一个实施例中,所述将所述待标注序列中的各字符进行向量转换,得到字符对应的特征词向量,包括:从预设的词向量表中获取所述待标注序列中各字符对应的词向量表示;利用神经网络将各所述字符对应的词向量表示进行转换,得到对应的特征词向量。在其中一个实施例中,所述基于所述候选词语中各字符的所述所属字符标签的权重向量,测算所述候选词语的第一配对指标,包括:确定组成所述候选词语的字符,获取组成所述候选词语的字符对应的特征向量;获取组成所述候选词语的字符对应的所属字符标签的权重向量;根据各字符的所述特征向量与所述权重向量,测算得到所述候选词语的第一配对指标。在其中一个实施例中,所述基于每组所述候选词语对应的所述第一配对指标,测算候选标注序列的第二配对指标,包括:确定组成所述候选标注序列的候选词语;获取所述候选词语对应的转移参数;基于所述候选词语对应的所述第一配对指标和转移参数,测算得到所述候选标注序列的第二配对指标。在其中一个实施例中,所述将数值最大的所述第二配对指标对应的候选标注序列识别为第一标注序列之后,还包括:利用条件随机场模型,将所述特征词向量输入预设的条件随机场模型,以对所述待标注序列进行标注,得到第二标注序列;利用预设解码算法计算所述第一标注序列和所述第二标注序列的损失值,从所述第一标注序列和所述第二标注序列中确定损失值最小的标注序列作为最终的标注结果。在其中一个实施例中,所述利用预设解码算法计算所述第一标注序列和所述第二标注序列的损失值,从所述第一标注序列和第二标注序列中确定损失值最小的标注序列作为最终的标注结果的步骤,包括:基于对数似然函数计算所述第一标注序列和第二标注序列对应的第一损失值和第二损失值;根据所述第一损失值和所述第二损失值,从所述第一标注序列和第二标注序列中确定最终的标注结果。一种序列标注装置,所述装置包括:转换模块,用于当接收携带有待标注序列的序列标注请求时,将所述待标注序列中的各字符进行向量转换,得到字符对应的特征词向量;分词模块,用于将所述特征词向量输入预设的序列标注神经网络,以对所述待标注序列进行分词,得到候选词语以及所述候选词语对应的词语标签;组合模块,用于将所述词语标签分别与所述候选词语中各字符的位置进行组合,得到所述字符在所述候选词语中的所属字符标签;测算模块,用于基于所述候选词语中各字符的所述所属字符标签的权重向量,测算所述候选词语的第一配对指标;所述权重向量由训练所述序列标注神经网络时所得;所述测算模块还用于基于每组所述候选词语对应的所述第一配对指标,测算候选标注序列的第二配对指标;所述候选标注序列是将至少两组所述候选词语进行排列组合得到;识别模块,用于将数值最大的所述第二配对指标对应的候选标注序列识别为第一标注序列。在其中一个实施例中,所述转换模块还用于,从预设的词向量表中获取所述待标注序列中各字符对应的词向量表示;利用预设的神经网络将各所述字符对应的词向量表示进行转换,得到对应的特征词向量。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述序列标注方法。一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述序列标注方法。上述序列标注方法、装置、计算机设备和存储介质,当接收到携带有待标注序列的序列标注请求后,将待标注序列中的各字符进行向量转换,得到字符对应的特征词向量,从而保证获取到字符级,即单个字符的特征向量。将特征词向量输入预设的序列标注神经网络,以对待标注序列进行分词,得到候选词语以及对应的词语标签。将词语标签分别与候选词语中各字符的位置进行组合,得到字符在候选词语中的所属字符标签,从而确保获取到字符的字符标签。基于候选词语中各字符的所属字符标签的权重向量,测算得到候选词语的第一配对指标,从而实现根据字符得到候选词语正确的概率。基于每组候选词语对应的第一配对指标,测算候选标注序列的第二配对指标,候选标注序列是将至少两组候选词语进行排列组合得到,从而根据第二配对指标的数值高低确定标注序列,实现了利用字符级的特征进行序列标注,提高标注的准确性。附图说明图1为一个实施例中序列标注方法的应用场景图;图2为一个实施例中序列标注方法的流程示意图;图3为一个实施例中计算得到候选词语的得分步骤的流程示意图;图4为一个实施例中序列标注神经网络的结构示意图;图5为另一个实施例中序列标注方法的流程示意图;图6为一个实施例中序列标注装置的结构框图;图7为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的序列标注方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。当服务器104接收终端102发送的携带有待标注序列的序列标注请求时,将待标注序列中的各字符进行向量转换,得到字符对应的特征词向量。服务器本文档来自技高网...

【技术保护点】
1.一种序列标注方法,所述方法包括:/n当接收携带有待标注序列的序列标注请求时,将所述待标注序列中的各字符进行向量转换,得到字符对应的特征词向量;/n将所述特征词向量输入预设的序列标注神经网络,以对所述待标注序列进行分词,得到多组候选词语以及每组所述候选词语对应的词语标签;/n将所述词语标签分别与所述候选词语中各字符的位置进行组合,得到所述字符在所述候选词语中的所属字符标签;/n基于所述候选词语中各字符的所述所属字符标签的权重向量,测算所述候选词语的第一配对指标;所述权重向量由训练所述序列标注神经网络时所得;/n基于每组所述候选词语对应的所述第一配对指标,测算候选标注序列的第二配对指标;所述候选标注序列是将至少两组所述候选词语进行排列组合得到;/n将数值最大的所述第二配对指标对应的候选标注序列识别为第一标注序列。/n

【技术特征摘要】
1.一种序列标注方法,所述方法包括:
当接收携带有待标注序列的序列标注请求时,将所述待标注序列中的各字符进行向量转换,得到字符对应的特征词向量;
将所述特征词向量输入预设的序列标注神经网络,以对所述待标注序列进行分词,得到多组候选词语以及每组所述候选词语对应的词语标签;
将所述词语标签分别与所述候选词语中各字符的位置进行组合,得到所述字符在所述候选词语中的所属字符标签;
基于所述候选词语中各字符的所述所属字符标签的权重向量,测算所述候选词语的第一配对指标;所述权重向量由训练所述序列标注神经网络时所得;
基于每组所述候选词语对应的所述第一配对指标,测算候选标注序列的第二配对指标;所述候选标注序列是将至少两组所述候选词语进行排列组合得到;
将数值最大的所述第二配对指标对应的候选标注序列识别为第一标注序列。


2.根据权利要求1所述的方法,其特征在于,所述将所述待标注序列中的各字符进行向量转换,得到字符对应的特征词向量,包括:
从预设的词向量表中获取所述待标注序列中各字符对应的词向量表示;
利用预设的神经网络将各所述字符对应的词向量表示进行转换,得到对应的特征词向量。


3.根据权利要求1所述的方法,其特征在于,所述基于所述候选词语中各字符的所述所属字符标签的权重向量,测算所述候选词语的第一配对指标,包括:
确定组成所述候选词语的字符,获取组成所述候选词语的字符对应的特征向量;
获取组成所述候选词语的字符对应的所属字符标签的权重向量;
根据各字符的所述特征向量与所述权重向量,测算得到所述候选词语的第一配对指标。


4.根据权利要求1所述的方法,其特征在于,所述基于每组所述候选词语对应的所述第一配对指标,测算候选标注序列的第二配对指标,包括:
确定组成所述候选标注序列的候选词语;
获取所述候选词语对应的转移参数;
基于所述候选词语对应的所述第一配对指标和转移参数,测算得到所述候选标注序列的第二配对指标。


5.根据权利要求1所述的方法,其特征在于,所述将数值最大的所述第二配对指标对应的候选标注序列识别为第一标注序列之后,还包括:
将所述特征词向量输入预设的条件随机场模型,以对所述待标注序列进行标注,得到第二标...

【专利技术属性】
技术研发人员:孙超于凤英王健宗韩茂琨
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1