数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:36368157 阅读:9 留言:0更新日期:2023-01-18 09:25
本发明专利技术实施例公开了一种数据处理方法、装置、计算机设备及存储介质,其中方法包括:获取目标文本,并从目标文本中获取目标实体词,目标实体词为目标用户的用户名;从目标文本中确定出目标实体词的关联实体词;对目标实体词进行识别处理,得到目标实体词的第一词向量,并对关联实体词进行识别处理,得到关联实体词的第二词向量;结合第一词向量及第二词向量,对目标实体词进行标签预测处理,得到目标实体词的预测标签,预测标签用于指示目标用户的用户身份是否为目标身份,可实现基于实体词的向量标识,对作为用户名的实体词对应的用户身份进行挖掘预测。行挖掘预测。行挖掘预测。

【技术实现步骤摘要】
数据处理方法、装置、计算机设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着互联网技术的不断深入发展,自然语言处理技术也不断深入发展,而通过自然语言处理技术的辅助,可有效提升当前对文本的处理效率,而目前运用较多的自然语言技术包括命名实体识别技术(Name Entity Recognition,NER),采用NER技术可实现对输入文本中的人名、地名、机构名等专有名词进行识别,也就是说,基于NER技术仅可实现对输入文本中实体词类型的判别,而无法进一步深入挖掘实体词描述的其他相关信息,因此,如何实现对实体词所描述的其他相关信息进行挖掘,成为了当前的研究热点。

技术实现思路

[0003]本专利技术实施例提供了一种数据处理方法、装置、计算机设备及存储介质,可实现基于实体词的向量表示,对作为用户名的实体词对应的用户身份进行挖掘预测。
[0004]一方面,本专利技术实施例提供了一种数据处理方法,包括:
[0005]获取目标文本,并从所述目标文本中获取目标实体词,所述目标实体词为目标用户的用户名;
[0006]从所述目标文本中确定出所述目标实体词的关联实体词,所述关联实体词是所述目标文本中,除所述目标实体词之外的任意一个或多个其他实体词,所述关联实体词包括与所述目标用户的身份特征相关的描述词;
[0007]对所述目标实体词进行识别处理,得到所述目标实体词的第一词向量,并对所述关联实体词进行识别处理,得到所述关联实体词的第二词向量;
[0008]结合所述第一词向量及所述第二词向量,对所述目标实体词进行标签预测处理,得到所述目标实体词的预测标签,所述预测标签用于指示所述目标用户的用户身份是否为目标身份。
[0009]再一方面,本专利技术实施例提供了一种数据处理装置,包括:
[0010]获取单元,用于获取目标文本,并从所述目标文本中获取目标实体词,所述目标实体词为目标用户的用户名;
[0011]确定单元,用于从所述目标文本中确定出所述目标实体词的关联实体词,所述关联实体词是所述目标文本中,除所述目标实体词之外的任意一个或多个其他实体词,所述关联实体词包括与所述目标用户的身份特征相关的描述词;
[0012]处理单元,用于对所述目标实体词进行识别处理,得到所述目标实体词的第一词向量,并对所述关联实体词进行识别处理,得到所述关联实体词的第二词向量;
[0013]所述处理单元,还用于结合所述第一词向量及所述第二词向量,对所述目标实体词进行标签预测处理,得到所述目标实体词的预测标签,所述预测标签用于指示所述目标
用户的用户身份是否为目标身份。
[0014]再一方面,本专利技术实施例提供了一种计算机设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持该计算机设备执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如下步骤:
[0015]获取目标文本,并从所述目标文本中获取目标实体词,所述目标实体词为目标用户的用户名;
[0016]从所述目标文本中确定出所述目标实体词的关联实体词,所述关联实体词是所述目标文本中,除所述目标实体词之外的任意一个或多个其他实体词,所述关联实体词包括与所述目标用户的身份特征相关的描述词;
[0017]对所述目标实体词进行识别处理,得到所述目标实体词的第一词向量,并对所述关联实体词进行识别处理,得到所述关联实体词的第二词向量;
[0018]结合所述第一词向量及所述第二词向量,对所述目标实体词进行标签预测处理,得到所述目标实体词的预测标签,所述预测标签用于指示所述目标用户的用户身份是否为目标身份。
[0019]再一方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序指令,所述程序指令被处理器执行时,所述程序指令被处理器执行时,用于执行如第一方面所述的数据处理方法。
[0020]在本专利技术实施例中,计算机设备可在获取到目标文本后,从该目标文本中获取得到目标用户的用户名,并将获取到的用户名作为目标实体词,而在该计算机设备确定出目标实体词后,还可从该目标文本中确定出该目标实体词的关联实体词,那么,基于对目标文本中的目标是实体词和关联实体词的获取,使得计算机设备可获取到非连贯语义的实体词。计算机设备在获取到该目标实体词和关联实体词后,则可分别对该目标实体词进行识别处理,得到目标实体词的第一词向量,并对关联实体词进行识别处理,得到关联实体词的第二词向量,那么,进一步地,基于得到的第一词向量和第二词向量,该计算机设备可结合该第一词向量和第二词向量,预测得到该目标实体词的预测标签,以便根据该预测标签确定该目标实体词指示的目标用户是否为目标身份,也就使得计算机设备可实现基于非连贯语义的实体词,确定该目标实体词对应的标签(即该目标实体词对应的细化实体类型),而采用非连贯语义的实体词,对目标实体词进行标签预测的方式,可有效提升计算机设备在预测实体词标签时的便捷性,从而可实现提升对计算机设备进行实体词的标签预测时的效率。
附图说明
[0021]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1a是本专利技术实施例提供的一种目标网络模型的结构示意图;
[0023]图1b是本专利技术实施例提供的一种目标网络模型的结构示意图;
[0024]图2是本专利技术实施例提供的一种数据处理方法的示意流程图;
[0025]图3是本专利技术实施例提供的一种数据处理方法的示意流程图;
[0026]图4是本专利技术实施例提供的一种对目标网络模型进行优化训练的示意图;
[0027]图5a是本专利技术实施例提供的一种基于搜索词表进行意图搜索的示意图;
[0028]图5b是本专利技术实施例提供的一种进行意图搜索的场景示意图;
[0029]图6是本专利技术实施例提供的一种数据处理装置的示意性框图;
[0030]图7是本专利技术实施例提供的一种计算机设备的示意性框图。
具体实施方式
[0031]本专利技术实施例提出了一种数据处理方法,使得计算机设备可将获取得到的目标用户的用户名作为目标实体词,并将与该目标用户的用户名之间存在上下文关系的实体词作为该目标实体词的关联实体词,而在获取到该目标实体词和该关联实体词后,该计算机设备还可进一步分别对该目标实体词和关联实体词进行识别处理,进而得到该目标实体词对应的第一词向量,以及该关联实体词对应的第二词向量,那么,基于对得到的第一词向量和第二词向量的预测处理,该计算机设备可得到针对该目标实体词的预测标签,并进而基于该预测标签的指示,确定出该目标用户的用户身份本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取目标文本,并从所述目标文本中获取目标实体词,所述目标实体词为目标用户的用户名;从所述目标文本中确定出所述目标实体词的关联实体词,所述关联实体词是所述目标文本中,除所述目标实体词之外的任意一个或多个其他实体词,所述关联实体词包括与所述目标用户的身份特征相关的描述词;对所述目标实体词进行识别处理,得到所述目标实体词的第一词向量,并对所述关联实体词进行识别处理,得到所述关联实体词的第二词向量;结合所述第一词向量及所述第二词向量,对所述目标实体词进行标签预测处理,得到所述目标实体词的预测标签,所述预测标签用于指示所述目标用户的用户身份是否为目标身份。2.如权利要求1所述的方法,其特征在于,若所述目标文本是训练文本集中的任一训练文本,所述训练文本集中的每个训练文本均包括所述目标实体词;所述对所述关联实体词进行识别处理,得到所述关联实体词对应的第二词向量,包括:对每个训练文本中包括的所述目标实体词对应的关联实体词进行识别处理,得到每个关联实体词对应的第二词向量。3.如权利要求1所述的方法,其特征在于,所述第一词向量、所述第二词向量、以及所述预测标签均是调用目标网络模型得到的,所述目标网络模型是用于进行用户身份判别的神经网络;所述方法还包括:获取每个关联实体词对应的重要度分数,并根据所述重要度分数确定所述目标实体词的真实标签;所述重要度分数用于指示采用相应关联实体词描述所述目标用户的身份特征的准确程度;根据所述目标实体词的预测标签和真实标签,确定所述预测标签及所述真实标签之间的标签差异,并根据所述标签差异调整所述目标网络模型的模型参数;在所述标签差异小于预设差异时,停止对所述目标网络模型的训练,得到训练完成的目标网络模型。4.如权利要求3所述的方法,其特征在于,所述关联实体词的数量为N个,所述N≥1且为整数;所述根据所述重要度分数确定所述目标实体词的真实标签,包括:对所述N个关联实体词,按照对应重要度分数从高到低的顺序依次排列,并根据排列顺序,从排列的首位依次向后选取出L个关联实体词;1≤L≤N,且L为整数;若选取出的L个关联实体词包括参考实体词,则确定所述目标实体词的真实标签为第一标签,所述第一标签用于指示所述目标用户的用户身份为目标身份,所述参考实体词是基于所述目标身份预设的,与所述目标身份的身份特征相关的描述词。5.如权利要求4所述的方法,其特征在于,所述方法还包括:若选取出的L个关联实体词不包括所述参考实体词,则确定所述目标实体词的真实标签为第二标签,所述第二标签用于指示所述目标用户的用户身份不是目标身份;或者,若选取出的L个关联实体词不包括所述参考实体词,则从第L+1个关联实体词依次向后选取出J个关联实体词,并在选取出的L+J个关联实体词中不包括所述参考实体词时,确定所述目标实体词的真实标签为所述第二标签,1≤J≤N,且J为整数。
6.如权利要求4或5所述的方法,其特征在于,所述目标身份包括:游戏解说身份;为所述游戏解说身份预设的参考实体词包括以下任意一个或多个:解说,以及任意游戏名类别的实体词。7.如权利要求3所述的方法,其特征在于,所述关联实体词的数量为N个,所述N≥1且为整数;所述获取每个关联实体词对应的重要度分数,包括:获取任一关联实体词在所述N个关联实体词中的出现次数,并根据所...

【专利技术属性】
技术研发人员:黄婷
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1