【技术实现步骤摘要】
一种数据处理方法、装置、设备以及可读存储介质
[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、设备以及可读存储介质。
技术介绍
[0002]信息新风险类型发现是指通过对信息进行识别,以发现新出现的信息风险类型。相关技术中,对于信息新风险类型的发现,通常采用的是通过无监督的方式来识别,具体的方式为:将当前的风险信息与历史的风险信息进行比对,若当前的风险信息与历史的风险信息之间相似性较低,那么即可确定该风险信息为新出现的风险类型。
[0003]然而,对于上述方法,需要将各个当前风险信息,逐一与各个历史风险信息进行比对,耗时耗力,十分影响新风险类型的发现效率;此外,由于风险信息中也会存在非风险的表述,那么在与历史风险信息之间存在相似性时,很可能是两个非风险表述之间存在相似性,由此极易导致无法正确发现新风险类型,即所确定出的识别结果很可能是错误的,准确率并不高。
技术实现思路
[0004]本申请实施例提供一种数据处理方法、装置、设备以及可读存储介质,可以在新型异常类别的识别业务中,提升识
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待识别异常信息集合;所述待识别异常信息集合包含待识别异常信息S
i
;i为正整数;对所述待识别异常信息S
i
进行归因分析处理,得到所述待识别异常信息S
i
对应的核心表述文本;所述待识别异常信息S
i
对应的核心表述文本,用于表征所述待识别异常信息S
i
的核心内容,所述待识别异常信息S
i
对应的核心表述文本的文本长度,小于所述待识别异常信息S
i
的文本长度;当确定出所述待识别异常信息集合中,每个待识别异常信息分别对应的核心表述文本时,将核心表述文本集合进行迭代聚类处理,得到文本类簇集合;所述文本类簇集合中的每个文本类簇,所包含的核心表述文本之间具有相似性;识别所述文本类簇集合中,每个文本类簇分别对应的异常类别,在异常类别集合中确定新型异常类别。2.根据权利要求1所述的方法,其特征在于,所述待识别异常信息S
i
是指由N个待识别文本词所组成的文本词序列;N为正整数;所述对所述待识别异常信息S
i
进行归因分析处理,得到所述待识别异常信息S
i
对应的核心表述文本,包括:将所述文本词序列输入至嵌入特征转换模型,通过所述嵌入特征转换模型输出所述N个待识别文本词中,每个待识别文本词分别对应的词嵌入向量特征,得到词嵌入向量特征序列;将所述词嵌入向量特征序列输入至归因分析模型,通过所述归因分析模型对所述词嵌入向量特征序列进行归因分析处理,得到归因分析文本序列,将所述归因分析文本序列确定为所述待识别异常信息S
i
对应的核心表述文本。3.根据权利要求2所述的方法,其特征在于,所述归因分析模型包括序列到序列网络与指针生成网络;所述通过所述归因分析模型对所述词嵌入向量特征序列进行归因分析处理,得到归因分析文本序列,包括:通过所述序列到序列网络与所述词嵌入向量特征序列,输出初始归因分析文本序列;所述初始归因分析序列包含M个预测文本词,一个预测文本词是指所述序列到序列网络在一个预测时刻,基于配置语料库所预测得到的文本词;所述初始归因分析序列是指将所述M个预测文本词,按照M个预测时刻之间的时间顺序进行排序后所得到的序列;所述M个预测文本词包含于所述配置语料库中;在所述指针生成网络中,将所述文本词序列所包含的所述N个待识别文本词,添加至所述配置语料库中,得到扩充语料库;基于所述扩充语料库对每个预测时刻对应的预测文本词分别进行调整,得到M个调整预测文本词,按照M个预测时刻之间的时间顺序将所述M个调整预测文本词进行排序,得到所述归因分析文本序列;所述M个调整预测文本词包含于所述扩充语料库中。4.根据权利要求3所述的方法,其特征在于,所述序列到序列网络包含编码器与解码器;所述通过所述序列到序列网络与所述词嵌入向量特征序列,输出初始归因分析文本序
列,包括:按照所述词嵌入向量特征序列的排列顺序,依次将N个词嵌入向量特征输入至所述编码器中,通过所述编码器依次对每个词嵌入向量特征分别进行编码处理,得到N个词嵌入向量特征分别对应的编码向量特征;将所述N个词嵌入向量特征中,结束词嵌入向量特征对应的编码向量特征确定为针对所述解码器的初始解码向量特征,计算所述N个词嵌入向量特征中,每个词嵌入向量特征分别针对所述初始解码向量特征的特征影响度;所述结束词嵌入向量特征是指所述词嵌入向量特征序列中,处于序列结束位置的词嵌入向量特征;根据所述N个词嵌入向量特征,以及每个词嵌入向量特征分别针对所述初始解码向量特征的特征影响度,确定针对所述解码器的初始上下文表征向量;将所述初始解码向量特征与所述初始上下文表征向量输入至所述解码器,通过所述解码器、所述初始解码向量特征以及所述初始上下文表征向量,按照M个预测时刻之间的时间顺序,依次输出M个预测时刻分别对应的预测文本词;将所述M个预测文本词按照所述M个预测时刻之间的时间顺序进行排序,得到所述初始归因分析文本序列。5.根据权利要求4所述的方法,其特征在于,所述通过所述编码器依次对每个词嵌入向量特征分别进行编码,得到N个词嵌入向量特征分别对应的编码向量特征,包括:获取所述词嵌入向量特征序列中的已编码词嵌入向量特征序列;所述已编码词嵌入向量特征序列中的已编码词嵌入向量特征,是指所述词嵌入向量特征序列中已进行编码处理的词嵌入向量特征;在所述已编码词嵌入向量特征序列与所述词嵌入向量特征序列不同时,将所述已编码词嵌入向量特征序列中,位于序列结束位置的已编码词嵌入向量特征确定为依赖词嵌入向量特征,将所述词嵌入向量特征序列中位于所述依赖词嵌入向量特征的下一个词嵌入向量特征,确定为待编码词嵌入向量特征;通过所述编码器,对所述依赖词嵌入向量特征与所述待编码词嵌入向量特征进行共同编码处理,得到所述待编码词嵌入向量特征对应的编码向量特征。6.根据权利要求4所述的方法,其特征在于,所述N个词嵌入向量特征包含词嵌入向量特征K
j
,j为正整数;所述计算所述N个词嵌入向量特征中,每个词嵌入向量特征分别针对所述初始解码向量特征的特征影响度,包括:获取所述序列到序列网络中,为所述每个词嵌入向量特征所配置的第一特征权重,以及为所述解码器的解码向量特征所配置的第二特征权重;将所述第一特征权重与所述词嵌入向量特征K
j
进行运算处理,得到第一运算值,将所述初始解码向量特征与所述第二特征权重进行运算处理,得到第二运算值;获取权重转换函数,基于权重转换函数将所述第一运算值、所述第二运算值进行运算处理,得到所述词嵌入向量特征K
j
与所述初始解码向量特征之间的关联度;将所述词嵌入向量特征K
j
与所述初始解码向量特征之间的关联度,输入至所述编码器的归一化层,通过所述归一化层输出所述词嵌入向量特征K
j
针对所述初始解码向量特征的特征影响度。
7.根据权利要求4所述的方法,其特征在于,所述N个词嵌入向量特征包含词嵌入向量特征K
b
,b为正整数;所述根据所述N个词嵌入向量特征,以及每个词嵌入向量特征分别针对所述初始解码向量特征的特征影响度,确定针对所述解码器的初始上下文表征向量,包括:将所述词嵌入向量特征K
b
针对所述初始解码向量特征的特征影响度,与所述词嵌入向量特征K
b
进行加权运算处理,得到所述词嵌入向量特征K
b
对应的加权向量特征;当确定出所述N个词嵌入向量特征分别对应的加权向量特征时,对N个加权向量特征进行求和运算处理,得到所述针对所述解码器的初始上下文表征向量。8.根据权利要求4所述的方法,其特征在于,所述M个预测时刻包含预测时刻T
a
,a为正整数;所述通过所述解码器、所述初始解码向量特征以及所述初始上下文表征向量,按照M个预测时刻之间的时间顺序,依次输出M个预测时刻分别对应的预测文本词,包括:基于所述初始解码向量特征以及所述初始上下文表征向量,确定所述预测时刻T
a
对应的解码依赖参数;通过所述解码器对所述预测时刻T
a
对应的解码依赖参数进行解码,得到所述预测时刻T
a
对应的解码向量特征;计算所述N个词嵌入向量特征中,每个词嵌入向量特征分别针对所述预测时刻T
a
对应的解码向量特征的特征影响度;根据所述N个词嵌入向量特征,以及每个词嵌入向量特征分别针对所述预测时刻T
a
对应的解码向量特征的特征影响度,确定针对所述预测时刻T
a
的上下文表征向量;根据所述预测时刻T
a...
【专利技术属性】
技术研发人员:李俊琪,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。