数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：36368157 阅读：9 留言：0更新日期：2023-01-18 09:25

本发明专利技术实施例公开了一种数据处理方法、装置、计算机设备及存储介质，其中方法包括：获取目标文本，并从目标文本中获取目标实体词，目标实体词为目标用户的用户名；从目标文本中确定出目标实体词的关联实体词；对目标实体词进行识别处理，得到目标实体词的第一词向量，并对关联实体词进行识别处理，得到关联实体词的第二词向量；结合第一词向量及第二词向量，对目标实体词进行标签预测处理，得到目标实体词的预测标签，预测标签用于指示目标用户的用户身份是否为目标身份，可实现基于实体词的向量标识，对作为用户名的实体词对应的用户身份进行挖掘预测。行挖掘预测。行挖掘预测。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、计算机设备及存储介质

[0001]本申请涉及计算机
，尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着互联网技术的不断深入发展，自然语言处理技术也不断深入发展，而通过自然语言处理技术的辅助，可有效提升当前对文本的处理效率，而目前运用较多的自然语言技术包括命名实体识别技术(Name Entity Recognition，NER)，采用NER技术可实现对输入文本中的人名、地名、机构名等专有名词进行识别，也就是说，基于NER技术仅可实现对输入文本中实体词类型的判别，而无法进一步深入挖掘实体词描述的其他相关信息，因此，如何实现对实体词所描述的其他相关信息进行挖掘，成为了当前的研究热点。

技术实现思路

[0003]本专利技术实施例提供了一种数据处理方法、装置、计算机设备及存储介质，可实现基于实体词的向量表示，对作为用户名的实体词对应的用户身份进行挖掘预测。
[0004]一方面，本专利技术实施例提供了一种数据处理方法，包括：
[0005]获取目标文本，并从所述目标文本中获取目标实体词，所述目标实体词为目标用户的用户名；
[0006]从所述目标文本中确定出所述目标实体词的关联实体词，所述关联实体词是所述目标文本中，除所述目标实体词之外的任意一个或多个其他实体词，所述关联实体词包括与所述目标用户的身份特征相关的描述词；
[0007]对所述目标实体词进行识别处理，得到所述目标实体词的第一词向量，并对所述关联实体词进行识别处理，得...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取目标文本，并从所述目标文本中获取目标实体词，所述目标实体词为目标用户的用户名；从所述目标文本中确定出所述目标实体词的关联实体词，所述关联实体词是所述目标文本中，除所述目标实体词之外的任意一个或多个其他实体词，所述关联实体词包括与所述目标用户的身份特征相关的描述词；对所述目标实体词进行识别处理，得到所述目标实体词的第一词向量，并对所述关联实体词进行识别处理，得到所述关联实体词的第二词向量；结合所述第一词向量及所述第二词向量，对所述目标实体词进行标签预测处理，得到所述目标实体词的预测标签，所述预测标签用于指示所述目标用户的用户身份是否为目标身份。2.如权利要求1所述的方法，其特征在于，若所述目标文本是训练文本集中的任一训练文本，所述训练文本集中的每个训练文本均包括所述目标实体词；所述对所述关联实体词进行识别处理，得到所述关联实体词对应的第二词向量，包括：对每个训练文本中包括的所述目标实体词对应的关联实体词进行识别处理，得到每个关联实体词对应的第二词向量。3.如权利要求1所述的方法，其特征在于，所述第一词向量、所述第二词向量、以及所述预测标签均是调用目标网络模型得到的，所述目标网络模型是用于进行用户身份判别的神经网络；所述方法还包括：获取每个关联实体词对应的重要度分数，并根据所述重要度分数确定所述目标实体词的真实标签；所述重要度分数用于指示采用相应关联实体词描述所述目标用户的身份特征的准确程度；根据所述目标实体词的预测标签和真实标签，确定所述预测标签及所述真实标签之间的标签差异，并根据所述标签差异调整所述目标网络模型的模型参数；在所述标签差异小于预设差异时，停止对所述目标网络模型的训练，得到训练完成的目标网络模型。4.如权利要求3所述的方法，其特征在于，所述关联实体词的数量为N个，所述N≥1且为整数；所述根据所述重要度分数确定所述目标实体词的真实标签，包括：对所述N个关联实体词，按照对应重要度分数从高到低的顺序依次排列，并根据排列顺序，从排列的首位依次向后选取出L个关联实体词；1≤L≤N，且L为整数；若选取出的L个关联实体词包括参考实体词，则确定所述目标实体词的真实标签为第一标签，所述第一标签用于指示所述目标用户的用户身份为目标身份，所述参考实体词是基于所述目标身份预设的，与所述目标身份的身份特征相关的描述词。5.如权利要求4所述的方法，其特征在于，所述方法还包括：若选取出的L个关联实体词不包括所述参考实体词，则确定所述目标实体词的真实标签为第二标签，所述第二标签用于指示所述目标用户的用户身份不是目标身份；或者，若选取出的L个关联实体词不包括所述参考实体词，则从第L+1个关联实体词依次向后选取出J个关联实体词，并在选取出的L+J个关联实体词中不包括所述参考实体词时，确定所述目标实体词的真实标签为所述第二标签，1≤J≤N，且J为整数。
6.如权利要求4或5所述的方法，其特征在于，所述目标身份包括：游戏解说身份；为所述游戏解说身份预设的参考实体词包括以下任意一个或多个：解说，以及任意游戏名类别的实体词。7.如权利要求3所述的方法，其特征在于，所述关联实体词的数量为N个，所述N≥1且为整数；所述获取每个关联实体词对应的重要度分数，包括：获取任一关联实体词在所述N个关联实体词中的出现次数，并根据所...

【专利技术属性】
技术研发人员：黄婷，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人