【技术实现步骤摘要】
序列标注方法、装置、存储介质及计算机设备
本专利技术涉及自然语言处理
,尤其涉及一种序列标注方法、装置、存储介质及计算机设备。
技术介绍
在自然语言处理领域中,通过对序列进行标注(即标注出序列中各词的词性),而后,可以采用标注后的序列生成文本。相关技术中,通常的序列标注方法例如包括:LSTM(LongShort-TermMemory,长短期记忆网络)、HMM(HiddenMarkovModel,隐马尔可夫模型)、BERT(BidirectionalEncoderRepresentationsfromTransformers,变压器的双向编码器表示)、CRF(conditionalrandomfield,条件随机场)等对序列进行标注。这些方式下,在对序列进行标注时仅仅关注序列的局部特征,而忽略序列的上下文信息,从而导致标注准确率较低,标注效果不佳,降低了文本生成质量。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的目的在于提出一种序列标注方法、装置、存储介质及计算机设备,能够提升词性标注的准确性,提升序列标注效果,从而有效辅助生成文本。本专利技术第一方面实施例提出的序列标注方法,所述序列包括待标注词和已标注词,所述序列用于生成文本,所述方法包括:获取序列;识别所述序列中待标注词的上下文信息;根据所述上下文信息,结合与所述待标注词相邻的已标注词的第一词性确定所述待标注词的第二词性,所述第二词性用于标注所述待标注 ...
【技术保护点】
1.一种序列标注方法,其特征在于,所述序列包括待标注词和已标注词,所述序列用于生成文本,所述方法包括:/n获取序列;/n识别所述序列中待标注词的上下文信息;/n根据所述上下文信息,结合与所述待标注词相邻的已标注词的第一词性确定所述待标注词的第二词性,所述第二词性用于标注所述待标注词。/n
【技术特征摘要】
1.一种序列标注方法,其特征在于,所述序列包括待标注词和已标注词,所述序列用于生成文本,所述方法包括:
获取序列;
识别所述序列中待标注词的上下文信息;
根据所述上下文信息,结合与所述待标注词相邻的已标注词的第一词性确定所述待标注词的第二词性,所述第二词性用于标注所述待标注词。
2.如权利要求1所述的序列标注方法,其特征在于,所述识别所述序列中待标注词的上下文信息,包括:
采用基于双流自注意力机制排序XLNet模型识别所述序列中待标注词的上下文信息。
3.如权利要求2所述的序列标注方法,其特征在于,所述根据所述上下文信息,结合与所述待标注词相邻的已标注词的第一词性确定所述待标注词的第二词性,包括:
根据所述上下文信息,结合所述第一词性和随机条件场CRF模型确定所述待标注词的第二词性。
4.如权利要求2所述的序列标注方法,其特征在于,所述采用基于双流自注意力机制排序XLNet模型识别待标注词的上下文信息,包括:
获取所述序列的词嵌入向量;
采用所述词嵌入向量,初始化所述XLNet模型的隐状态的内容流的第零层处理逻辑,并将所述XLNet模型的隐状态的查询流初始化为变量;
采用初始化所得到的XLNet模型识别待标注词的上下文信息。
5.如权利要求4所述的序列标注方法,其特征在于,所述初始化所得到的XLNet模型,已学习得到样本的待标注词,和预先针对所述样本的待标注词标定的样本编码之间的对应关系,所述采用初始化所得到的XLNet模型识别待标注词的上下文信息,包括:
将所述文本作为所述初始化所得到的XLNet模型的输入,从而采用所述初始化所得到的XLNet模型确定所述文本对应的编码;
根据所述文本对应的编码,结合所述待标注词对应的编码识别所述待标注词的上下文信息。
6.如权利要求4所述的序列标注方法,其特征在于,所述初始化所得到的XLNet模型包括:隐状态的内容流和隐状态的查询流,所述采用初始化所得到的XLNet模型识别待标注词的上下文信息,包括:
通过所述隐状态的内容流确定更新后的序列中所述已标注词的上下文信息和所述待标注词的实际内容;所述更新后的序列,为对初始的序列中的各词的实际位置进行相应的调整所得到的,所述初始的序列为所获取的序列;
通过所述隐状态的查询流确定所述待标注词在所述初始的序列的实际位置和上文信息;
根据所述已标注词的上下文信息和所述待标注词的实际内容,以及所述待标注词在所述初始的序列的实际位置和上文信息,确定待标注词的下文信息;
将所述待标注词的上文信息和所述下文信息共同作为所述上下文信息。
7.如权利要求2所述的序列标注方法,其特征在于,所述初始化所得到的XLNet模型包括:全连接层,所述根据所述上下文信息,结合所述第一词性和随机条件场CRF模型确定所述待标注词的第二词性,包括:
将所述待标注词的上下文信息输入所述全连接层;
将所述全连接层输出的结果,结合所述第一词性和所述CRF模型确定所述待标注词对应的多个候选词性的概率分布情况;
根据所述多个候选词性的概率分布情况确定所述待标注词的第二词性。
8.一种序列标注装置,其特征在于,所述序列包括待标注词和已标注词,所述序列用于生成文本,所述装置包括:
获取模块,用于获取序列;
识别模块,用于识别所述序列中待标注词的上下文信息;
标注模块,用于根据所述上下文信息,结合与所述待标注词相邻的已标注词的第一词性确定所述待标注词的第二词性,所述第二词性用于...
【专利技术属性】
技术研发人员:周玥,胡盼盼,佟博,赵茜,张超,黄仲强,张坚琳,廖凤玲,
申请(专利权)人:广东博智林机器人有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。