文本信息处理方法、装置及设备制造方法及图纸

技术编号:22532063 阅读:10 留言:0更新日期:2019-11-13 09:18
本发明专利技术实施例提供一种文本信息处理方法、装置及设备,该方法包括:获取第一文本信息;对第一文本信息进行词类序列标注,得到第一文本信息对应的第一词类序列,根据第一词类序列获取第一文本信息对应的字词向量,对字词向量进行处理,得到第一文本信息对应的任务处理结果;其中,第一词类序列中包括多个词汇和每个词汇的词汇类别,多个词汇为第一文本信息中的词汇;字词向量包括字向量和/或词向量。提高了文本任务处理的精确性。

Text information processing method, device and equipment

The embodiment of the invention provides a text information processing method, device and device, the method includes: obtaining the first text information; tagging the part of speech sequence of the first text information, obtaining the first part of speech sequence corresponding to the first text information, obtaining the word vector corresponding to the first text information according to the first part of speech sequence, processing the word vector, obtaining the first text information The corresponding task processing result; wherein, the first part of speech sequence includes a plurality of words and a vocabulary category of each word, and a plurality of words are words in the first text information; the word vector includes a word vector and / or a word vector. It improves the accuracy of text task processing.

【技术实现步骤摘要】
文本信息处理方法、装置及设备
本专利技术实施例涉及计算机
,尤其涉及一种文本信息处理方法、装置及设备。
技术介绍
目前,机器学习算法在文本处理任务中被广泛使用,文本处理任务可以包括文本分类任务、信息提取任务、情感分析任务、智能问答任务等。在实际应用过程中,在执行文本处理任务之前,先获取文本信息,根据文本信息中与文本处理任务相关的字/词共现信息,以及根据字/词共现信息获取文本信息对应的字向量和/或词向量,并对获取得到字向量和/或词向量进行处理,得到任务处理结果。然而,通过上述方式获取得到的字向量和/或词向量无法准确的表达文本信息的知识特征以及语义信息,导致无法准确的获取得到文本处理结果。
技术实现思路
本专利技术实施例提供一种文本信息处理方法、装置及设备,提高了文本任务处理的精确性。第一方面,本专利技术实施例提供一种文本信息处理方法,包括:获取第一文本信息;对所述第一文本信息进行词类序列标注,得到所述第一文本信息对应的第一词类序列,根据所述第一词类序列获取所述第一文本信息对应的字词向量,对所述字词向量进行处理,得到所述第一文本信息对应的任务处理结果;其中,所述第一词类序列中包括所述多个词汇和每个词汇的词汇类别,所述多个词汇为所述第一文本信息中的词汇;所述字词向量包括字向量和/或词向量。在一种可能的实施方式中,所述对所述第一文本信息进行词类序列标注,得到所述第一文本信息对应的第一词类序列,包括:对所述第一文本信息进行分词处理,得到所述多个词汇;获取每个词汇的词汇类别;根据所述多个词汇和每个词汇的词汇类别,确定所述第一词类序列。在一种可能的实施方式中,所述对所述第一文本信息进行词类序列标注,得到所述第一文本信息对应的第一词类序列,根据所述第一词类序列获取所述第一文本信息对应的字词向量,对所述字词向量进行处理,得到所述第一文本信息对应的任务处理结果,包括:获取当前任务对应的任务模型;通过所述当前任务对应的任务模型对所述第一文本信息进行词类序列标注,得到所述第一文本信息对应的第一词类序列,根据所述第一词类序列获取所述第一文本信息对应的字词向量,对所述字词向量进行处理,得到所述第一文本信息对应的任务处理结果。在一种可能的实施方式中,获取当前任务对应的任务模型,包括:获取预训练模型,所述预训练模型用于获取文本信息的词类序列,以及根据词类序列获取文本信息的字词向量,所述字词向量用于指示所述文本信息的知识特征以及语义信息,所述字词向量包括字向量和/或词向量;根据所述当前任务对所述预训练模型进行训练,得到所述任务模型。在一种可能的实施方式中,所述获取预训练模型,包括:确定训练任务,所述训练任务包括基础任务和词类序列标注任务,所述基础任务包括字词向量任务,或者,所述基础任务包括字词向量预测任务和上下文预测任务,所述字词向量预测任务包括字向量预测任务和/或词向量预测任务;对所述基础任务对应的多组第一样本和所述词类序列标注任务对应的多组第二样本进行学习,得到所述预训练模型,所述每组第一样本包括第一样本文本和对应的样本字词向量,每组第二样本包括第二样本文本和对应的样本词类序列。在一种可能的实施方式中,所述多组第二样本为全数据集对应的样本。在一种可能的实施方式中,所述对所述基础任务对应的多组第一样本和所述词类序列标注任务对应的多组第二样本进行学习,得到所述预训练模型,包括:根据所述多组第一样本、所述第二样本、所述基础任务和所述词类序列标注任务,对预设模型进行联合训练得到所述预训练模型;或者,根据所述多组第一样本和所述基础任务对预设模型进行训练,得到第一模型,根据所述多组第二样本、所述词类序列标注任务对所述第一模型进行训练,得到所述预训练模型。在一种可能的实施方式中,所述根据所述当前任务对所述预训练模型进行训练,得到所述任务模型,包括:获取所述当前任务对应的多组第三样本,每组第三样本包括第三样本文本和对应的样本词类序列;根据所述多组第三样本对所述预训练模型进行训练,得到更新后的预训练模型;根据所述当前任务对所述更新后的预训练模型进行训练,得到所述任务模型。第二方面,本专利技术实施例提供一种文本信息处理装置,包括:第一获取模块和处理模块,其中,所述第一获取模块用于,获取第一文本信息;所述处理模块用于,对所述第一文本信息进行词类序列标注,得到所述第一文本信息对应的第一词类序列,根据所述第一词类序列获取所述第一文本信息对应的字词向量,对所述字词向量进行处理,得到所述第一文本信息对应的任务处理结果;其中,所述第一词类序列中包括所述多个词汇和每个词汇的词汇类别,所述多个词汇为所述第一文本信息中的词汇;所述字词向量包括字向量和/或词向量。在一种可能的实施方式中,所述处理模块具体用于:对所述第一文本信息进行分词处理,得到所述多个词汇;获取每个词汇的词汇类别;根据所述多个词汇和每个词汇的词汇类别,确定所述第一词类序列。在一种可能的实施方式中,所述装置还包括第二获取模块,其中,所述第二获取模块用于,获取当前任务对应的任务模型;所述处理模块具体用于,通过所述当前任务对应的任务模型对所述第一文本信息进行词类序列标注,得到所述第一文本信息对应的第一词类序列,根据所述第一词类序列获取所述第一文本信息对应的字词向量,对所述字词向量进行处理,得到所述第一文本信息对应的任务处理结果。在一种可能的实施方式中,所述第二获取模块具体用于:获取预训练模型,所述预训练模型用于获取文本信息的词类序列,以及根据词类序列获取文本信息的字词向量,所述字词向量用于指示所述文本信息的知识特征以及语义信息,所述字词向量包括字向量和/或词向量;根据所述当前任务对所述预训练模型进行训练,得到所述任务模型。在一种可能的实施方式中,所述第二获取模块具体用于:确定训练任务,所述训练任务包括基础任务和词类序列标注任务,所述基础任务包括字词向量任务,或者,所述基础任务包括字词向量预测任务和上下文预测任务,所述字词向量预测任务包括字向量预测任务和/或词向量预测任务;对所述基础任务对应的多组第一样本和所述词类序列标注任务对应的多组第二样本进行学习,得到所述预训练模型,所述每组第一样本包括第一样本文本和对应的样本字词向量,每组第二样本包括第二样本文本和对应的样本词类序列。在一种可能的实施方式中,所述多组第二样本为全数据集对应的样本。在一种可能的实施方式中,所述第二获取模块具体用于:根据所述多组第一样本、所述第二样本、所述基础任务和所述词类序列标注任务,对预设模型进行联合训练得到所述预训练模型;或者,根据所述多组第一样本和所述基础任务对预设模型进行训练,得到第一模型,根据所述多组第二样本、所述词类序列标注任务对所述第一模型进行训练,得到所述预训练模型。在一种可能的实施方式中,所述第二获取模块具体用于:获取所述当前任务对应的多组第三样本,每组第三样本包括第三样本文本和对应的样本词类序列;根据所述多组第三样本对所述预训练模型进行训练,得到更新后的预训练模型;根据所述当前任务对所述更新后的预训练模型进行训练,得到所述任务模型。第三方面,本专利技术实施例提供一种文本信息处理装置,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第本文档来自技高网...

【技术保护点】
1.一种文本信息处理方法,其特征在于,包括:获取第一文本信息;对所述第一文本信息进行词类序列标注,得到所述第一文本信息对应的第一词类序列,根据所述第一词类序列获取所述第一文本信息对应的字词向量,对所述字词向量进行处理,得到所述第一文本信息对应的任务处理结果;其中,所述第一词类序列中包括多个词汇和每个词汇的词汇类别,所述多个词汇为所述第一文本信息中的词汇;所述字词向量包括字向量和/或词向量。

【技术特征摘要】
1.一种文本信息处理方法,其特征在于,包括:获取第一文本信息;对所述第一文本信息进行词类序列标注,得到所述第一文本信息对应的第一词类序列,根据所述第一词类序列获取所述第一文本信息对应的字词向量,对所述字词向量进行处理,得到所述第一文本信息对应的任务处理结果;其中,所述第一词类序列中包括多个词汇和每个词汇的词汇类别,所述多个词汇为所述第一文本信息中的词汇;所述字词向量包括字向量和/或词向量。2.根据权利要求1所述的方法,其特征在于,所述对所述第一文本信息进行词类序列标注,得到所述第一文本信息对应的第一词类序列,包括:对所述第一文本信息进行分词处理,得到所述多个词汇;获取每个词汇的词汇类别;根据所述多个词汇和每个词汇的词汇类别,确定所述第一词类序列。3.根据权利要求1或2所述的方法,其特征在于,所述对所述第一文本信息进行词类序列标注,得到所述第一文本信息对应的第一词类序列,根据所述第一词类序列获取所述第一文本信息对应的字词向量,对所述字词向量进行处理,得到所述第一文本信息对应的任务处理结果,包括:获取当前任务对应的任务模型;通过所述当前任务对应的任务模型对所述第一文本信息进行词类序列标注,得到所述第一文本信息对应的第一词类序列,根据所述第一词类序列获取所述第一文本信息对应的字词向量,对所述字词向量进行处理,得到所述第一文本信息对应的任务处理结果。4.根据权利要求3所述的方法,其特征在于,获取当前任务对应的任务模型,包括:获取预训练模型,所述预训练模型用于获取文本信息的词类序列,以及根据词类序列获取文本信息的字词向量,所述字词向量用于指示所述文本信息的知识特征以及语义信息,所述字词向量包括字向量和/或词向量;根据所述当前任务对所述预训练模型进行训练,得到所述任务模型。5.根据权利要求4所述的方法,其特征在于,所述获取预训练模型,包括:确定训练任务,所述训练任务包括基础任务和词类序列标注任务,所述基础任务包括字词向量任务,或者,所述基础任务包括字词向量预测任务和上下文预测任务,所述字词向量预测任务包括字向量预测任务和/或词向量预测任务;对所述基础任务对应的多组第一样本和所述词类序列标注任务对应的多组第二样本进行学习,得到所述预训练模型,每组第一样本包括第一样本文本和对应的样本字词向量,每组第二样本包括第二样本文本和对应的样本词类序列。6.根据权利要求5所述的方法,其特征在于,所述多组第二样本为全数据集对应的样本。7.根据权利要求5或6所述的方法,其特征在于,所述对所述基础任务对应的多组第一样本和所述词类序列标注任务对应的多组第二样本进行学习,得到所述预训练模型,包括:根据所述多组第一样本、所述第二样本、所述基础任务和所述词类序列标注任务,对预设模型进行联合训练得到所述预训练模型;或者,根据所述多组第一样本和所述基础任务对预设模型进行训练,得到第一模型,根据所述多组第二样本、所述词类序列标注任务对所述第一模型进行训练,得到所述预训练模型。8.根据权利要求4-6任一项所述的方法,其特征在于,所述根据所述当前任务对所述预训练模型进行训练,得到所述任务模型,包括:获取所述当前任务对应的多组第三样本,每组第三样本包括第三样本文本和对应的样本词类序列;根据所述多组第三样本对所述预训练模型进行训练,得到更新后的预训练模型;根据所述当前任务对所述更新后的预训练模型进行训练,得到所述任务模型。9.一种文本信息处理装置,其特征在于,包括:第一获取模块和处理模块,其中,所述第一获...

【专利技术属性】
技术研发人员:赵岷程健一秦华鹏吕雅娟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1