【技术实现步骤摘要】
对象类别的分析方法及装置
本说明书涉及文本处理及神经网络
,尤其涉及一种对象类别的分析方法及装置。
技术介绍
在一些场景中,需要检测出满足一定条件的目标类别的对象。通常,在检测一个对象是否为目标类别的对象时,可以将该对象与一个目标类别的对象进行比对,如果两者相似度较高,即可判定该对象属于目标类别,因此准确地计算对象相似度显得非常关键。但是,现有的确定对象相似度的方法准确性较低,导致对象类别的分析结果也相对不够准确。以保险服务场景为例。针对保险服务,黑产经常采用一些不法手段进行骗险,一般的、常见的作案方式能够被我们所识别,例如,黑产通过建立即时通讯群组织大、中专生进行团伙骗险作案,通过常规的地理位置、账号注册设备等信息分析可识别出作案团伙。但是,这些常规的识别方法很容易被黑产反针对绕过,从而导致无法很好地抓取更多的黑产团伙成员。
技术实现思路
一方面,本说明书一个或多个实施例提供一种对象类别的分析方法,包括:获取属于目标类别的第一对象对应的第一文本,及,获取第二对象对应的第二文本。利用预先训练的序列到序列模型及词向量集,确定所述第一文本对应的第一文本向量及所述第二文本对应的第二文本向量,所述序列到序列模型为根据具有相关性标签信息的多个样本文本训练得到,各所述样本文本包含多个有序的样本词语。基于所述第一文本向量及所述第二文本向量,确定所述第一文本及所述第二文本之间的相关性信息。根据所述第一文本及所述第二文本之间的相关性信息,确定所述第二对象是否属于所述目标类别。另一方面,本说明书 ...
【技术保护点】
1.一种对象类别的分析方法,包括:/n获取属于目标类别的第一对象对应的第一文本,及,获取第二对象对应的第二文本;/n利用预先训练的序列到序列模型及词向量集,确定所述第一文本对应的第一文本向量及所述第二文本对应的第二文本向量;所述序列到序列模型为根据具有相关性标签信息的多个样本文本训练得到;各所述样本文本包含多个有序的样本词语;/n基于所述第一文本向量及所述第二文本向量,确定所述第一文本及所述第二文本之间的相关性信息;/n根据所述第一文本及所述第二文本之间的相关性信息,确定所述第二对象是否属于所述目标类别。/n
【技术特征摘要】
1.一种对象类别的分析方法,包括:
获取属于目标类别的第一对象对应的第一文本,及,获取第二对象对应的第二文本;
利用预先训练的序列到序列模型及词向量集,确定所述第一文本对应的第一文本向量及所述第二文本对应的第二文本向量;所述序列到序列模型为根据具有相关性标签信息的多个样本文本训练得到;各所述样本文本包含多个有序的样本词语;
基于所述第一文本向量及所述第二文本向量,确定所述第一文本及所述第二文本之间的相关性信息;
根据所述第一文本及所述第二文本之间的相关性信息,确定所述第二对象是否属于所述目标类别。
2.根据权利要求1所述的方法,所述获取属于目标类别的第一对象对应的第一文本,及,获取第二对象对应的第二文本之前,所述方法还包括:
将所述样本文本进行分词处理,得到所述样本文本对应的样本分词信息;所述样本分词信息包括所述样本词语;
基于所述样本分词信息,并利用预定的词向量训练算法训练所述样本词语对应的词向量;
集合多个所述词向量,得到所述词向量集。
3.根据权利要求2所述的方法,所述样本分词信息包括所述样本词语的笔画信息和/或拼音信息。
4.根据权利要求2或3所述的方法,所述样本文本包括具有所述相关性标签信息的第一样本文本及第二样本文本;所述序列到序列模型包括编码器和解码器;所述方法还包括:
基于分词后的所述样本文本、所述相关性标签信息及所述词向量集,训练所述序列到序列模型;
其中,所述第一样本文本为所述编码器的输入文本,所述第二样本文本为所述解码器的输出文本;和/或,所述第二样本文本为所述编码器的输入文本,所述第一样本文本为所述解码器的输出文本。
5.根据权利要求4所述的方法,所述利用预先训练的序列到序列模型及词向量集,确定所述第一文本对应的第一文本向量及所述第二文本对应的第二文本向量,包括:
将所述第一文本及所述第二文本进行分词处理,得到所述第一文本及所述第二文本分别对应的目标分词信息;所述目标分词信息包括以下至少一项:所述第一文本及所述第二文本分别包含的多个目标词语、各所述目标词语之间的序列关系;
根据所述编码器的模型参数、所述词向量集及所述目标分词信息,确定所述第一文本向量及所述第二文本向量。
6.根据权利要求5所述的方法,所述根据所述编码器的模型参数、所述词向量集及所述目标分词信息,确定所述第一文本向量及所述第二文本向量,包括:
根据所述词向量集,确定所述目标词语对应的目标词向量;
基于所述目标词向量及各所述目标词语之间的序列关系,利用所述编码器的模型参数生成所述第一文本向量及所述第二文本向量。
7.一种理赔行为的分析方法,包括:
获取非法理赔行为对应的第一保险理赔文本,及,获取待检测对象对应的第二保险理赔文本;
利用预先训练的序列到序列模型及词向量集,确定所述第一保险理赔文本对应的第一文本向量及所述第二保险理赔文本对应的第二文本向量;所述序列到序列模型为根据具有相关性标签信息的多个样本保险理赔文本训练得到;各所述样本保险理赔文本包含多个有序的样本词语;
基于所述第一文本向量及所述第二文本向量,确定所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息;
根据所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息,确定所述待检测对象是否属于所述非法理赔行为。
8.一种对象类别的分析装置,包括:
第一获取模块,获取属于目标类别的第一对象对应的第一文本,及,获取第二对象对应的第二文本;
第一确定模块,利用预先训练的序列到序列模型及词向量集,确定所述第一文本对应的第一文本向量及所述第二文本对应的第二文本向量;所述序列到序列模型为根据具有相关性标签信息的多个样本文本训练得到;各所述样本文本包含多个有序的样本词语;
第二确定模块,基于所述第一文本向量及所述第二文本向量,确定所述第一文本及所述第二文本之间的相关性信息;
第三确定模块,根据所述第一文本及所述第二文本之间的相关性信息,确定所述第二对象是否属于所述目标类别。
9.根据权利要求8所述的装置,还包括:
第一分词模块,在所述获取属于目标类别的第一对象对应的第一文本,及,获取第二对象对应的第二文本之前,将所述样本文本进行分词处理,得到所述样本文本对应的样本分词信息;所述样本分词信息包括所述样本词语;
第一训练模块,基于所述样本分词信息,并利用预定的词向量训练算法训练所述...
【专利技术属性】
技术研发人员:曹绍升,陈超超,吴郑伟,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。