【技术实现步骤摘要】
序列标注方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种序列标注方法、装置、计算机设备和存储介质。
技术介绍
序列标注是自然语言处理的一类基本任务,即对输入的文本进行划分,从而输出与文本对应的序列串。序列标注一般广泛应用于词性标注、命名体识别等场景。传统对序列进行标注,通常使用半马尔科夫条件随机场(semi-Markovconditionalrandomfields,简称SCRFs)来解决。然而,SCRFs利用的是自然语言中的短语而不是单个词来进行特征提取,导致在单个词较多的情况下标注的准确率低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高准确率的序列标注方法、装置、计算机设备和存储介质。一种序列标注方法,所述方法包括:当接收携带有待标注序列的序列标注请求时,将所述待标注序列中的各字符进行向量转换,得到字符对应的特征词向量;将所述特征词向量输入预设的序列标注神经网络,以对所述待标注序列进行分词,得到候选词语以及所述候选词语对应的词语标签;将所述词语标签分别与所述候选词语中各字符的位置进行组合,得到所述字符在所述候选词语中的所属字符标签;基于所述候选词语中各字符的所述所属字符标签的权重向量,测算所述候选词语的第一配对指标;所述权重向量由训练所述序列标注神经网络时所得;基于每组所述候选词语对应的所述第一配对指标,测算候选标注序列的第二配对指标;所述候选标注序列是将至少两组所述候选词语进行排列组合得到; ...
【技术保护点】
1.一种序列标注方法,所述方法包括:/n当接收携带有待标注序列的序列标注请求时,将所述待标注序列中的各字符进行向量转换,得到字符对应的特征词向量;/n将所述特征词向量输入预设的序列标注神经网络,以对所述待标注序列进行分词,得到多组候选词语以及每组所述候选词语对应的词语标签;/n将所述词语标签分别与所述候选词语中各字符的位置进行组合,得到所述字符在所述候选词语中的所属字符标签;/n基于所述候选词语中各字符的所述所属字符标签的权重向量,测算所述候选词语的第一配对指标;所述权重向量由训练所述序列标注神经网络时所得;/n基于每组所述候选词语对应的所述第一配对指标,测算候选标注序列的第二配对指标;所述候选标注序列是将至少两组所述候选词语进行排列组合得到;/n将数值最大的所述第二配对指标对应的候选标注序列识别为第一标注序列。/n
【技术特征摘要】
1.一种序列标注方法,所述方法包括:
当接收携带有待标注序列的序列标注请求时,将所述待标注序列中的各字符进行向量转换,得到字符对应的特征词向量;
将所述特征词向量输入预设的序列标注神经网络,以对所述待标注序列进行分词,得到多组候选词语以及每组所述候选词语对应的词语标签;
将所述词语标签分别与所述候选词语中各字符的位置进行组合,得到所述字符在所述候选词语中的所属字符标签;
基于所述候选词语中各字符的所述所属字符标签的权重向量,测算所述候选词语的第一配对指标;所述权重向量由训练所述序列标注神经网络时所得;
基于每组所述候选词语对应的所述第一配对指标,测算候选标注序列的第二配对指标;所述候选标注序列是将至少两组所述候选词语进行排列组合得到;
将数值最大的所述第二配对指标对应的候选标注序列识别为第一标注序列。
2.根据权利要求1所述的方法,其特征在于,所述将所述待标注序列中的各字符进行向量转换,得到字符对应的特征词向量,包括:
从预设的词向量表中获取所述待标注序列中各字符对应的词向量表示;
利用预设的神经网络将各所述字符对应的词向量表示进行转换,得到对应的特征词向量。
3.根据权利要求1所述的方法,其特征在于,所述基于所述候选词语中各字符的所述所属字符标签的权重向量,测算所述候选词语的第一配对指标,包括:
确定组成所述候选词语的字符,获取组成所述候选词语的字符对应的特征向量;
获取组成所述候选词语的字符对应的所属字符标签的权重向量;
根据各字符的所述特征向量与所述权重向量,测算得到所述候选词语的第一配对指标。
4.根据权利要求1所述的方法,其特征在于,所述基于每组所述候选词语对应的所述第一配对指标,测算候选标注序列的第二配对指标,包括:
确定组成所述候选标注序列的候选词语;
获取所述候选词语对应的转移参数;
基于所述候选词语对应的所述第一配对指标和转移参数,测算得到所述候选标注序列的第二配对指标。
5.根据权利要求1所述的方法,其特征在于,所述将数值最大的所述第二配对指标对应的候选标注序列识别为第一标注序列之后,还包括:
将所述特征词向量输入预设的条件随机场模型,以对所述待标注序列进行标注,得到第二标...
【专利技术属性】
技术研发人员:孙超,于凤英,王健宗,韩茂琨,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。