一种数据处理方法、装置、设备及可读存储介质制造方法及图纸

技术编号:26792135 阅读:17 留言:0更新日期:2020-12-22 17:07
本申请实施例公开了一种数据处理方法、装置、设备及可读存储介质,该方法包括:获取目标分词的至少两个语言域分别对应的表征语粒序列以及语粒向量矩阵;根据表征语粒序列和语粒向量矩阵,确定目标分词在每个语言域下的语言域映射向量;将该语言域映射向量进行融合,生成融合语言域映射向量;在分词向量矩阵中获取标签分词的分词向量表示特征,根据目标分词的语言域映射向量、融合语言域映射向量与分词向量表示特征,对语粒向量矩阵和分词向量矩阵分别进行调整,得到可以用于对批量分词进行语言处理的目标语粒向量矩阵和目标分词向量矩阵。采用本申请,可以提高单词的语义表征向量的质量,从而可以提高语言处理任务的准确率。

【技术实现步骤摘要】
一种数据处理方法、装置、设备及可读存储介质
本申请涉及计算机
,尤其涉及一种数据处理方法、装置、设备以及可读存储介质。
技术介绍
一段句子文本可以理解为是由一个或多个词语所组成的序列,每一个单词是组成句子文本的基本单位,则对于句子文本而言,每一个单词的语义信息十分重要。在人工智能((ArtificialIntelligence,AI))领域下属的自然语言处理(NatureLanguageprocessing,NLP)中,单词的语义信息也应用广泛。现有技术中,通常采用词嵌入模型(例如,word2vec模型以及glove模型)来返回一个单词的词向量,该词向量可以用于语言处理任务(例如,词语相似匹配任务、词语类似匹配任务、中文医疗命名实体识别任务等)中。其中,对于词嵌入模型返回一个单词的词向量的具体方式为,将每个单词作为一个不可分的单元,将一个单词作为中心词,通过用周围词来预测该中心词的方式来训练学习词嵌入矩阵中该中心词的词向量。而将每个单词作为一个不可分的单元的方式,只能考虑到单词本身的语义信息,则所学习到的词向量也仅包含了单词表面的语义信息,即无法更准确表达单词的语义,那么在将词向量用于语言处理任务中时,所得到的语言处理结果也不够准确。
技术实现思路
本申请实施例提供一种数据处理方法、装置、设备以及可读存储介质,可以提高单词的语义表征向量的质量,从而可以提高语言处理任务的准确率。本申请实施例一方面提供了一种数据处理方法,包括:获取目标分词的至少两个语言域分别对应的表征语粒序列,获取至少两个语言域分别对应的语粒向量矩阵;每个语粒向量矩阵均与样本文本相关联;根据每个语言域分别对应的表征语粒序列和语粒向量矩阵,确定目标分词在每个语言域下分别对应的语言域映射向量;将目标分词在每个语言域下分别对应的语言域映射向量进行融合,生成目标分词的融合语言域映射向量;获取与样本文本相关联的分词向量矩阵;样本文本包括由目标分词和标签分词所构成的句子文本;在分词向量矩阵中获取标签分词对应的分词向量表示特征,根据目标分词在每个语言域下分别对应的语言域映射向量、融合语言域映射向量以及标签分词对应的分词向量表示特征,对语粒向量矩阵以及分词向量矩阵进行调整,得到用于进行语言处理任务的目标语粒向量矩阵以及目标分词向量矩阵。本申请一方面提供了另一种数据处理方法,包括:获取输入词语以及至少两个待排序词语;将输入词语以及至少两个待排序词语输入至语言处理模型;语言处理模型包括目标语粒向量矩阵以及目标分词向量矩阵;目标语粒向量矩阵以及目标分词向量矩阵是采用本申请实施例一方面提供的数据处理方法生成得到的;通过语言处理模型中的目标分词向量矩阵以及目标语粒向量矩阵,确定至少两个待排序词语分别与输入词语之间的语义相似度;根据语义相似度,对至少两个待排序词语进行排序,得到词语序列,对词语序列进行输出。本申请实施例一方面提供了一种数据处理装置,包括:序列获取模块,用于获取目标分词的至少两个语言域分别对应的表征语粒序列,语粒矩阵获取模块,用于获取至少两个语言域分别对应的语粒向量矩阵;每个语粒向量矩阵均与样本文本相关联;向量确定模块,用于根据每个语言域分别对应的表征语粒序列和语粒向量矩阵,确定目标分词在每个语言域下分别对应的语言域映射向量;向量融合模块,用于将目标分词在每个语言域下分别对应的语言域映射向量进行融合,生成目标分词的融合语言域映射向量;分词矩阵获取模块,用于获取与样本文本相关联的分词向量矩阵;样本文本包括由目标分词和标签分词所构成的句子文本;分词特征获取模块,用于在分词向量矩阵中获取标签分词对应的分词向量表示特征;矩阵调整模块,用于根据目标分词在每个语言域下分别对应的语言域映射向量、融合语言域映射向量以及标签分词对应的分词向量表示特征,对语粒向量矩阵以及分词向量矩阵进行调整,得到用于进行语言处理任务的目标语粒向量矩阵以及目标分词向量矩阵。其中,至少两个语言域包括语言域Ki;i为小于或等于至少两个语言域的数量的正整数;序列获取模块包括:初始序列获取单元,用于获取目标分词在语言域Ki下对应的初始表征语粒;语粒组合单元,用于将初始表征语粒进行组合,得到扩展表征语粒;语粒过滤单元,用于对扩展表征语粒进行过滤,得到过滤表征语粒,将初始表征语粒与扩展表征语粒组成的表征语粒,确定为目标表征语粒;序列确定单元,用于将目标表征语粒组成的序列确定为目标分词在语言域Ki下对应的表征语粒序列。其中,至少两个语言域包括语言域Ki,至少两个语言域分别对应的表征语粒序列包括语言域Ki对应的表征语粒序列Mi;至少两个语言域分别对应的语粒向量矩阵包括语言域Ki对应的语粒向量矩阵Ti;语粒向量矩阵Ti包括语言域Ki中的样本表征语粒对应的语粒向量表示特征;样本表征语粒与样本文本相关联,且样本表征语粒包括表征语粒序列Mi中的目标表征语粒;i为小于或等于至少两个语言域的数量的正整数;向量确定模块包括:特征获取单元,用于获取语粒向量矩阵Ti中的语粒向量表示特征;特征获取单元,还用于在语粒向量矩阵Ti中的语粒向量表示特征中,获取表征语粒序列Mi中的目标表征语粒对应的语粒向量表示特征;数量获取单元,用于获取表征语粒序列Mi中的目标表征语粒的表征语粒数量;向量确定单元,用于根据表征语粒序列Mi中的目标表征语粒对应的语粒向量表示特征以及表征语粒数量,确定目标分词在语言域Ki下对应的语言域映射向量。其中,表征语粒序列Mi中的目标表征语粒包括目标表征语粒St与目标表征语粒Sw;t和w为小于或等于表征语粒序列Mi中的表征语粒数量的正整数;向量确定单元包括:运算处理子单元,用于将目标表征语粒St对应的语粒向量表示特征,以及目标表征语粒Sw对应的语粒向量表示特征进行相加处理,得到第一运算向量表示特征;运算处理子单元,还用于将第一运算向量表示特征与表征语粒数量进行均值处理,得到均值向量表示特征;向量确定子单元,用于根据均值向量表示特征,确定目标分词在语言域Ki下对应的语言域映射向量。其中,目标分词包括目标分词Ca与目标分词Cb;a和b均为小于或等于样本文本中的分词数量的正整数;向量确定子单元,还用于获取目标分词Ca对应的均值向量表示特征,以及目标分词Cb对应的均值向量表示特征;向量确定子单元,还用于将目标分词Ca对应的均值向量表示特征与目标分词Cb对应的均值向量表示特征进行相加处理,得到第二运算向量表示特征;向量确定子单元,还用于获取样本文本中的分词数量,将第二运算向量表示特征与分词数量进行均值处理,得到目标分词Ca与目标分词Cb在语言域Ki下对应的语言域映射向量。其中,至少两个语言域还包括语言域Kj;j为小于或等于至少两个语言域的数量的正整数;向量确定子单元,还用于获取目标分词Ca与目标分本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取目标分词的至少两个语言域分别对应的表征语粒序列,获取所述至少两个语言域分别对应的语粒向量矩阵;每个语粒向量矩阵均与样本文本相关联;/n根据每个语言域分别对应的表征语粒序列和语粒向量矩阵,确定所述目标分词在每个语言域下分别对应的语言域映射向量;/n将所述目标分词在每个语言域下分别对应的语言域映射向量进行融合,生成所述目标分词的融合语言域映射向量;/n获取与所述样本文本相关联的分词向量矩阵;所述样本文本包括由所述目标分词和标签分词所构成的句子文本;/n在所述分词向量矩阵中获取所述标签分词对应的分词向量表示特征,根据所述目标分词在每个语言域下分别对应的语言域映射向量、所述融合语言域映射向量以及所述标签分词对应的分词向量表示特征,对所述语粒向量矩阵以及所述分词向量矩阵进行调整,得到用于进行语言处理任务的目标语粒向量矩阵以及目标分词向量矩阵。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取目标分词的至少两个语言域分别对应的表征语粒序列,获取所述至少两个语言域分别对应的语粒向量矩阵;每个语粒向量矩阵均与样本文本相关联;
根据每个语言域分别对应的表征语粒序列和语粒向量矩阵,确定所述目标分词在每个语言域下分别对应的语言域映射向量;
将所述目标分词在每个语言域下分别对应的语言域映射向量进行融合,生成所述目标分词的融合语言域映射向量;
获取与所述样本文本相关联的分词向量矩阵;所述样本文本包括由所述目标分词和标签分词所构成的句子文本;
在所述分词向量矩阵中获取所述标签分词对应的分词向量表示特征,根据所述目标分词在每个语言域下分别对应的语言域映射向量、所述融合语言域映射向量以及所述标签分词对应的分词向量表示特征,对所述语粒向量矩阵以及所述分词向量矩阵进行调整,得到用于进行语言处理任务的目标语粒向量矩阵以及目标分词向量矩阵。


2.根据权利要求1所述的方法,其特征在于,所述至少两个语言域包括语言域Ki;i为小于或等于所述至少两个语言域的数量的正整数;
所述获取目标分词的至少两个语言域分别对应的表征语粒序列,包括:
获取所述目标分词在所述语言域Ki下对应的初始表征语粒;
将所述初始表征语粒进行组合,得到扩展表征语粒;
对所述扩展表征语粒进行过滤,得到过滤表征语粒,将所述初始表征语粒与所述扩展表征语粒组成的表征语粒,确定为目标表征语粒;
将所述目标表征语粒组成的序列确定为所述目标分词在所述语言域Ki下对应的表征语粒序列。


3.根据权利要求1所述的方法,其特征在于,所述至少两个语言域包括语言域Ki,所述至少两个语言域分别对应的表征语粒序列包括所述语言域Ki对应的表征语粒序列Mi;所述至少两个语言域分别对应的语粒向量矩阵包括所述语言域Ki对应的语粒向量矩阵Ti;所述语粒向量矩阵Ti包括所述语言域Ki中的样本表征语粒对应的语粒向量表示特征;所述样本表征语粒与样本文本相关联,且所述样本表征语粒包括所述表征语粒序列Mi中的目标表征语粒;i为小于或等于所述至少两个语言域的数量的正整数;
所述根据每个语言域分别对应的表征语粒序列和语粒向量矩阵,确定所述目标分词在每个语言域下分别对应的语言域映射向量,包括:
获取所述语粒向量矩阵Ti中的语粒向量表示特征;
在所述语粒向量矩阵Ti中的语粒向量表示特征中,获取所述表征语粒序列Mi中的目标表征语粒对应的语粒向量表示特征;
获取所述表征语粒序列Mi中的目标表征语粒的表征语粒数量;
根据所述表征语粒序列Mi中的目标表征语粒对应的语粒向量表示特征以及所述表征语粒数量,确定所述目标分词在所述语言域Ki下对应的语言域映射向量。


4.根据权利要求3所述的方法,其特征在于,所述表征语粒序列Mi中的目标表征语粒包括目标表征语粒St与目标表征语粒Sw;t和w为小于或等于所述表征语粒序列Mi中的表征语粒数量的正整数;
所述根据所述表征语粒序列Mi中的目标表征语粒对应的语粒向量表示特征以及所述语粒数量,确定所述目标分词在所述语言域Ki下对应的语言域映射向量,包括:
将所述目标表征语粒St对应的语粒向量表示特征,以及所述目标表征语粒Sw对应的语粒向量表示特征进行相加处理,得到第一运算向量表示特征;
将所述第一运算向量表示特征与所述表征语粒数量进行均值处理,得到均值向量表示特征;
根据所述均值向量表示特征,确定所述目标分词在所述语言域Ki下对应的语言域映射向量。


5.根据权利要求4所述的方法,其特征在于,所述目标分词包括目标分词Ca与目标分词Cb;a和b均为小于或等于所述样本文本中的分词数量的正整数;
所述根据所述均值向量表示特征,确定所述目标分词在所述语言域Ki下对应的语言域映射向量,包括:
获取所述目标分词Ca对应的均值向量表示特征,以及所述目标分词Cb对应的均值向量表示特征;
将所述目标分词Ca对应的均值向量表示特征与所述目标分词Cb对应的均值向量表示特征进行相加处理,得到第二运算向量表示特征;
获取所述样本文本中的分词数量,将所述第二运算向量表示特征与所述分词数量进行均值处理,得到所述目标分词Ca与所述目标分词Cb在所述语言域Ki下对应的语言域映射向量。


6.根据权利要求5所述的方法,其特征在于,所述至少两个语言域还包括语言域Kj;j为小于或等于所述至少两个语言域的数量的正整数;
所述将所述目标分词在每个语言域下分别对应的语言域映射向量进行融合,生成所述目标分词的融合语言域映射向量,包括:
获取所述目标分词Ca与所述目标分词Cb在所述语言域Ki下对应的语言域映射向量,以及所述目标分词Ca与所述目标分词Cb在所述语言域Kj下对应的语言域映射向量;
将所述目标分词Ca与所述目标分词Cb在所述语言域Ki下对应的语言域映射向量,以及所述目标分词Ca与所述目标分词Cb在所述语言域Kj下对应的语言域映射向量进行相加处理,得到运算语言域映射向量;
获取所述至少两个语言域的数量,将所述运算语言域映射向量与所述至少两个语言域的数量进行均值处理,得到所述融合语言域映射...

【专利技术属性】
技术研发人员:罗俊杰孙继超陈曦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1