一种数据处理方法、装置、设备及可读存储介质制造方法及图纸

技术编号：26792135 阅读：17 留言：0更新日期：2020-12-22 17:07

本申请实施例公开了一种数据处理方法、装置、设备及可读存储介质，该方法包括：获取目标分词的至少两个语言域分别对应的表征语粒序列以及语粒向量矩阵；根据表征语粒序列和语粒向量矩阵，确定目标分词在每个语言域下的语言域映射向量；将该语言域映射向量进行融合，生成融合语言域映射向量；在分词向量矩阵中获取标签分词的分词向量表示特征，根据目标分词的语言域映射向量、融合语言域映射向量与分词向量表示特征，对语粒向量矩阵和分词向量矩阵分别进行调整，得到可以用于对批量分词进行语言处理的目标语粒向量矩阵和目标分词向量矩阵。采用本申请，可以提高单词的语义表征向量的质量，从而可以提高语言处理任务的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法、装置、设备及可读存储介质
本申请涉及计算机
，尤其涉及一种数据处理方法、装置、设备以及可读存储介质。
技术介绍
一段句子文本可以理解为是由一个或多个词语所组成的序列，每一个单词是组成句子文本的基本单位，则对于句子文本而言，每一个单词的语义信息十分重要。在人工智能((ArtificialIntelligence,AI))领域下属的自然语言处理(NatureLanguageprocessing,NLP)中，单词的语义信息也应用广泛。现有技术中，通常采用词嵌入模型(例如，word2vec模型以及glove模型)来返回一个单词的词向量，该词向量可以用于语言处理任务(例如，词语相似匹配任务、词语类似匹配任务、中文医疗命名实体识别任务等)中。其中，对于词嵌入模型返回一个单词的词向量的具体方式为，将每个单词作为一个不可分的单元，将一个单词作为中心词，通过用周围词来预测该中心词的方式来训练学习词嵌入矩阵中该中心词的词向量。而将每个单词作为一个不可分的单元的方式，只能考虑到单词本身的语义信息，则所学习到的词向量也仅包含了单词表面的语义信息，即无法更准确表达单词的语义，那么在将词向量用于语言处理任务中时，所得到的语言处理结果也不够准确。
技术实现思路
本申请实施例提供一种数据处理方法、装置、设备以及可读存储介质，可以提高单词的语义表征向量的质量，从而可以提高语言处理任务的准确率。本申请实施例一方面提供了一种数据处理方法，包括：获取目标分词的至少两个语言域分别对应...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：/n获取目标分词的至少两个语言域分别对应的表征语粒序列，获取所述至少两个语言域分别对应的语粒向量矩阵；每个语粒向量矩阵均与样本文本相关联；/n根据每个语言域分别对应的表征语粒序列和语粒向量矩阵，确定所述目标分词在每个语言域下分别对应的语言域映射向量；/n将所述目标分词在每个语言域下分别对应的语言域映射向量进行融合，生成所述目标分词的融合语言域映射向量；/n获取与所述样本文本相关联的分词向量矩阵；所述样本文本包括由所述目标分词和标签分词所构成的句子文本；/n在所述分词向量矩阵中获取所述标签分词对应的分词向量表示特征，根据所述目标分词在每个语言域下分别对应的语言域映射向量、所述融合语言域映射向量以及所述标签分词对应的分词向量表示特征，对所述语粒向量矩阵以及所述分词向量矩阵进行调整，得到用于进行语言处理任务的目标语粒向量矩阵以及目标分词向量矩阵。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：
获取目标分词的至少两个语言域分别对应的表征语粒序列，获取所述至少两个语言域分别对应的语粒向量矩阵；每个语粒向量矩阵均与样本文本相关联；
根据每个语言域分别对应的表征语粒序列和语粒向量矩阵，确定所述目标分词在每个语言域下分别对应的语言域映射向量；
将所述目标分词在每个语言域下分别对应的语言域映射向量进行融合，生成所述目标分词的融合语言域映射向量；
获取与所述样本文本相关联的分词向量矩阵；所述样本文本包括由所述目标分词和标签分词所构成的句子文本；
在所述分词向量矩阵中获取所述标签分词对应的分词向量表示特征，根据所述目标分词在每个语言域下分别对应的语言域映射向量、所述融合语言域映射向量以及所述标签分词对应的分词向量表示特征，对所述语粒向量矩阵以及所述分词向量矩阵进行调整，得到用于进行语言处理任务的目标语粒向量矩阵以及目标分词向量矩阵。

2.根据权利要求1所述的方法，其特征在于，所述至少两个语言域包括语言域Ki；i为小于或等于所述至少两个语言域的数量的正整数；
所述获取目标分词的至少两个语言域分别对应的表征语粒序列，包括：
获取所述目标分词在所述语言域Ki下对应的初始表征语粒；
将所述初始表征语粒进行组合，得到扩展表征语粒；
对所述扩展表征语粒进行过滤，得到过滤表征语粒，将所述初始表征语粒与所述扩展表征语粒组成的表征语粒，确定为目标表征语粒；
将所述目标表征语粒组成的序列确定为所述目标分词在所述语言域Ki下对应的表征语粒序列。

3.根据权利要求1所述的方法，其特征在于，所述至少两个语言域包括语言域Ki，所述至少两个语言域分别对应的表征语粒序列包括所述语言域Ki对应的表征语粒序列Mi；所述至少两个语言域分别对应的语粒向量矩阵包括所述语言域Ki对应的语粒向量矩阵Ti；所述语粒向量矩阵Ti包括所述语言域Ki中的样本表征语粒对应的语粒向量表示特征；所述样本表征语粒与样本文本相关联，且所述样本表征语粒包括所述表征语粒序列Mi中的目标表征语粒；i为小于或等于所述至少两个语言域的数量的正整数；
所述根据每个语言域分别对应的表征语粒序列和语粒向量矩阵，确定所述目标分词在每个语言域下分别对应的语言域映射向量，包括：
获取所述语粒向量矩阵Ti中的语粒向量表示特征；
在所述语粒向量矩阵Ti中的语粒向量表示特征中，获取所述表征语粒序列Mi中的目标表征语粒对应的语粒向量表示特征；
获取所述表征语粒序列Mi中的目标表征语粒的表征语粒数量；
根据所述表征语粒序列Mi中的目标表征语粒对应的语粒向量表示特征以及所述表征语粒数量，确定所述目标分词在所述语言域Ki下对应的语言域映射向量。

4.根据权利要求3所述的方法，其特征在于，所述表征语粒序列Mi中的目标表征语粒包括目标表征语粒St与目标表征语粒Sw；t和w为小于或等于所述表征语粒序列Mi中的表征语粒数量的正整数；
所述根据所述表征语粒序列Mi中的目标表征语粒对应的语粒向量表示特征以及所述语粒数量，确定所述目标分词在所述语言域Ki下对应的语言域映射向量，包括：
将所述目标表征语粒St对应的语粒向量表示特征，以及所述目标表征语粒Sw对应的语粒向量表示特征进行相加处理，得到第一运算向量表示特征；
将所述第一运算向量表示特征与所述表征语粒数量进行均值处理，得到均值向量表示特征；
根据所述均值向量表示特征，确定所述目标分词在所述语言域Ki下对应的语言域映射向量。

5.根据权利要求4所述的方法，其特征在于，所述目标分词包括目标分词Ca与目标分词Cb；a和b均为小于或等于所述样本文本中的分词数量的正整数；
所述根据所述均值向量表示特征，确定所述目标分词在所述语言域Ki下对应的语言域映射向量，包括：
获取所述目标分词Ca对应的均值向量表示特征，以及所述目标分词Cb对应的均值向量表示特征；
将所述目标分词Ca对应的均值向量表示特征与所述目标分词Cb对应的均值向量表示特征进行相加处理，得到第二运算向量表示特征；
获取所述样本文本中的分词数量，将所述第二运算向量表示特征与所述分词数量进行均值处理，得到所述目标分词Ca与所述目标分词Cb在所述语言域Ki下对应的语言域映射向量。

6.根据权利要求5所述的方法，其特征在于，所述至少两个语言域还包括语言域Kj；j为小于或等于所述至少两个语言域的数量的正整数；
所述将所述目标分词在每个语言域下分别对应的语言域映射向量进行融合，生成所述目标分词的融合语言域映射向量，包括：
获取所述目标分词Ca与所述目标分词Cb在所述语言域Ki下对应的语言域映射向量，以及所述目标分词Ca与所述目标分词Cb在所述语言域Kj下对应的语言域映射向量；
将所述目标分词Ca与所述目标分词Cb在所述语言域Ki下对应的语言域映射向量，以及所述目标分词Ca与所述目标分词Cb在所述语言域Kj下对应的语言域映射向量进行相加处理，得到运算语言域映射向量；
获取所述至少两个语言域的数量，将所述运算语言域映射向量与所述至少两个语言域的数量进行均值处理，得到所述融合语言域映射...

【专利技术属性】
技术研发人员：罗俊杰，孙继超，陈曦，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人