序列标注方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:24708748 阅读:18 留言:0更新日期:2020-07-01 00:04
本发明专利技术提出一种序列标注方法、装置、存储介质及计算机设备,序列包括待标注词和已标注词,序列用于生成文本,该方法包括获取序列;识别序列中待标注词的上下文信息;根据上下文信息,结合与待标注词相邻的已标注词的第一词性确定待标注词的第二词性,第二词性用于标注待标注词。通过本发明专利技术根据序列中待标注词的上下文信息对待标注词的词性进行标注,能够提升词性标注的准确性,提升序列标注效果,从而有效辅助生成文本。

【技术实现步骤摘要】
序列标注方法、装置、存储介质及计算机设备
本专利技术涉及自然语言处理
,尤其涉及一种序列标注方法、装置、存储介质及计算机设备。
技术介绍
在自然语言处理领域中,通过对序列进行标注(即标注出序列中各词的词性),而后,可以采用标注后的序列生成文本。相关技术中,通常的序列标注方法例如包括:LSTM(LongShort-TermMemory,长短期记忆网络)、HMM(HiddenMarkovModel,隐马尔可夫模型)、BERT(BidirectionalEncoderRepresentationsfromTransformers,变压器的双向编码器表示)、CRF(conditionalrandomfield,条件随机场)等对序列进行标注。这些方式下,在对序列进行标注时仅仅关注序列的局部特征,而忽略序列的上下文信息,从而导致标注准确率较低,标注效果不佳,降低了文本生成质量。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的目的在于提出一种序列标注方法、装置、存储介质及计算机设备,能够提升词性标注的准确性,提升序列标注效果,从而有效辅助生成文本。本专利技术第一方面实施例提出的序列标注方法,所述序列包括待标注词和已标注词,所述序列用于生成文本,所述方法包括:获取序列;识别所述序列中待标注词的上下文信息;根据所述上下文信息,结合与所述待标注词相邻的已标注词的第一词性确定所述待标注词的第二词性,所述第二词性用于标注所述待标注词。本专利技术第一方面实施例提出的序列标注方法,通过获取序列,并识别序列中待标注词的上下文信息,以及根据上下文信息,结合与待标注词相邻的已标注词的第一词性确定待标注词的第二词性,第二词性用于标注待标注词,根据序列中待标注词的上下文信息对待标注词的词性进行标注,能够提升词性标注的准确性,提升序列标注效果,从而有效辅助生成文本。本专利技术第二方面实施例提出的序列标注装置,所述序列包括待标注词和已标注词,所述序列用于生成文本,所述装置包括:获取模块,用于获取序列;识别模块,用于识别所述序列中待标注词的上下文信息;标注模块,用于根据所述上下文信息,结合与所述待标注词相邻的已标注词的第一词性确定所述待标注词的第二词性,所述第二词性用于标注所述待标注词。本专利技术第二方面实施例提出的序列标注装置,通过获取序列,并识别序列中待标注词的上下文信息,以及根据上下文信息,结合与待标注词相邻的已标注词的第一词性确定待标注词的第二词性,第二词性用于标注待标注词,根据序列中待标注词的上下文信息对待标注词的词性进行标注,能够提升词性标注的准确性,提升序列标注效果,从而有效辅助生成文本。本专利技术第三方面实施例提出的计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术第一方面实施例提出的序列标注方法。本专利技术第三方面实施例提出的计算机可读存储介质,通过获取序列,并识别序列中待标注词的上下文信息,以及根据上下文信息,结合与待标注词相邻的已标注词的第一词性确定待标注词的第二词性,第二词性用于标注待标注词,根据序列中待标注词的上下文信息对待标注词的词性进行标注,能够提升词性标注的准确性,提升序列标注效果,从而有效辅助生成文本。本专利技术第四方面实施例提出的计算机设备,包括壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述计算机设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行:获取序列,所述序列包括待标注词和已标注词,所述序列用于生成文本;识别所述序列中待标注词的上下文信息;根据所述上下文信息,结合与所述待标注词相邻的已标注词的第一词性确定所述待标注词的第二词性,所述第二词性用于标注所述待标注词。本专利技术第四方面实施例提出的计算机设备,通过获取序列,并识别序列中待标注词的上下文信息,以及根据上下文信息,结合与待标注词相邻的已标注词的第一词性确定待标注词的第二词性,第二词性用于标注待标注词,根据序列中待标注词的上下文信息对待标注词的词性进行标注,能够提升词性标注的准确性,提升序列标注效果,从而有效辅助生成文本。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术一实施例提出的序列标注方法的流程示意图;图2是本专利技术另一实施例提出的序列标注方法的流程示意图;图3是本专利技术另一实施例提出的序列标注方法的流程示意图;图4为本专利技术实施例中采用XLNet模型进行编码的流程示意图;图5是本专利技术另一实施例提出的序列标注方法的流程示意图;图6是本专利技术一实施例提出的序列标注装置的结构示意图;图7是本专利技术另一实施例提出的序列标注装置的结构示意图;图8是本专利技术一实施例提出的计算机设备的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1是本专利技术一实施例提出的序列标注方法的流程示意图。本实施例以该序列标注方法被配置为序列标注装置中来举例说明。本实施例中序列标注方法可以被配置在序列标注装置中,序列标注装置可以设置在服务器中,或者也可以设置在电子设备中,本专利技术实施例对此不作限制。本实施例以序列标注方法被配置在电子设备中为例。其中,电子设备例如智能手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。需要说明的是,本专利技术实施例的执行主体,在硬件上可以例如为电子设备中的中央处理器(CentralProcessingUnit,CPU),在软件上可以例如为电子设备中的序列标注的服务,对此不作限制。参见图1,该方法包括:S101:获取序列。其中,该序列包含多个词,其中各词可以分别为待标注词或者已标注词,其中当前尚未标注的词可以被称为待标注词,当前已经标注的词可以被称为已标注词,该序列具体用于生成文本。序列X例如,x1、x2、x3、x4,其中,x1、x2、x3、x4可以被称为各词,x1、x2、x3、x4等以一定的顺序排列组合,形成序列X,序列X中的词x1、x2、x3、x4分别具有对应的实际的内容、位置,以及词性等。本专利技术实施例中,可以采用词性对序列中的各词x1、x2、x3、x4进行标注,词性例如为该词为形容词或者为动词等本文档来自技高网...

【技术保护点】
1.一种序列标注方法,其特征在于,所述序列包括待标注词和已标注词,所述序列用于生成文本,所述方法包括:/n获取序列;/n识别所述序列中待标注词的上下文信息;/n根据所述上下文信息,结合与所述待标注词相邻的已标注词的第一词性确定所述待标注词的第二词性,所述第二词性用于标注所述待标注词。/n

【技术特征摘要】
1.一种序列标注方法,其特征在于,所述序列包括待标注词和已标注词,所述序列用于生成文本,所述方法包括:
获取序列;
识别所述序列中待标注词的上下文信息;
根据所述上下文信息,结合与所述待标注词相邻的已标注词的第一词性确定所述待标注词的第二词性,所述第二词性用于标注所述待标注词。


2.如权利要求1所述的序列标注方法,其特征在于,所述识别所述序列中待标注词的上下文信息,包括:
采用基于双流自注意力机制排序XLNet模型识别所述序列中待标注词的上下文信息。


3.如权利要求2所述的序列标注方法,其特征在于,所述根据所述上下文信息,结合与所述待标注词相邻的已标注词的第一词性确定所述待标注词的第二词性,包括:
根据所述上下文信息,结合所述第一词性和随机条件场CRF模型确定所述待标注词的第二词性。


4.如权利要求2所述的序列标注方法,其特征在于,所述采用基于双流自注意力机制排序XLNet模型识别待标注词的上下文信息,包括:
获取所述序列的词嵌入向量;
采用所述词嵌入向量,初始化所述XLNet模型的隐状态的内容流的第零层处理逻辑,并将所述XLNet模型的隐状态的查询流初始化为变量;
采用初始化所得到的XLNet模型识别待标注词的上下文信息。


5.如权利要求4所述的序列标注方法,其特征在于,所述初始化所得到的XLNet模型,已学习得到样本的待标注词,和预先针对所述样本的待标注词标定的样本编码之间的对应关系,所述采用初始化所得到的XLNet模型识别待标注词的上下文信息,包括:
将所述文本作为所述初始化所得到的XLNet模型的输入,从而采用所述初始化所得到的XLNet模型确定所述文本对应的编码;
根据所述文本对应的编码,结合所述待标注词对应的编码识别所述待标注词的上下文信息。


6.如权利要求4所述的序列标注方法,其特征在于,所述初始化所得到的XLNet模型包括:隐状态的内容流和隐状态的查询流,所述采用初始化所得到的XLNet模型识别待标注词的上下文信息,包括:
通过所述隐状态的内容流确定更新后的序列中所述已标注词的上下文信息和所述待标注词的实际内容;所述更新后的序列,为对初始的序列中的各词的实际位置进行相应的调整所得到的,所述初始的序列为所获取的序列;
通过所述隐状态的查询流确定所述待标注词在所述初始的序列的实际位置和上文信息;
根据所述已标注词的上下文信息和所述待标注词的实际内容,以及所述待标注词在所述初始的序列的实际位置和上文信息,确定待标注词的下文信息;
将所述待标注词的上文信息和所述下文信息共同作为所述上下文信息。


7.如权利要求2所述的序列标注方法,其特征在于,所述初始化所得到的XLNet模型包括:全连接层,所述根据所述上下文信息,结合所述第一词性和随机条件场CRF模型确定所述待标注词的第二词性,包括:
将所述待标注词的上下文信息输入所述全连接层;
将所述全连接层输出的结果,结合所述第一词性和所述CRF模型确定所述待标注词对应的多个候选词性的概率分布情况;
根据所述多个候选词性的概率分布情况确定所述待标注词的第二词性。


8.一种序列标注装置,其特征在于,所述序列包括待标注词和已标注词,所述序列用于生成文本,所述装置包括:
获取模块,用于获取序列;
识别模块,用于识别所述序列中待标注词的上下文信息;
标注模块,用于根据所述上下文信息,结合与所述待标注词相邻的已标注词的第一词性确定所述待标注词的第二词性,所述第二词性用于...

【专利技术属性】
技术研发人员:周玥胡盼盼佟博赵茜张超黄仲强张坚琳廖凤玲
申请(专利权)人:广东博智林机器人有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1