文本可信模型分析方法、设备和装置制造方法及图纸

技术编号:21686157 阅读:19 留言:0更新日期:2019-07-24 14:40
本发明专利技术涉及文本可信模型分析方法、设备和装置。所述方法(100)包括:使用第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数(114);使用第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数(128);将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对(130);并且根据所述比对的结果,判断所述对应的文本数据是否可信(132,134)。本发明专利技术的实施例的方案通过将这种文本数据与相应的行为数据进行比较来判断文本数据是否可信,从而使得可以进行自动化反欺诈风险防控。

Text Trusted Model Analysis Method, Equipment and Device

【技术实现步骤摘要】
文本可信模型分析方法、设备和装置
本专利技术涉及互联网
,尤其涉及文本可信模型分析方法、设备和装置。
技术介绍
随着互联网技术的发展,现金支付、现金赔付也逐渐扩展到网络支付和网络赔付,随之也带来很多问题,给支付公司和个人用户带来不同程度的资金或其他损失。目前,互联网支付风险事件主要有盗用事件和欺诈事件。其中,欺诈事件包括个人欺诈、商户欺诈、木马和钓鱼等。利用病毒木马等非法手段获取利益也逐渐形成一个行业,称之为黑色产业(简称黑产)。目前,在互联网金融风险防控中,仍然采用人工审核的方式来识别互联网金融欺诈,主要针对用户行为,包括操作特点、用户业务行为、关联图谱信息等。例如,多个人合用一个设备、页面停留时间等。互联网作为产业领域中自动化程度最高的产业,反欺诈风险防控的自动化也必然是未来发展的一个方向。
技术实现思路
鉴于现有技术的以上问题,本专利技术的实施例提供一种新颖的文本可信模型解决方法、设备和装置,从而使得投诉中的文本信息也能够用于互联网金融风险防控。在风险防控中,目前采用的人工审核方式往往依赖于用户行为。例如,根据之前支付宝盗用的赔付经验,特别是当赔付开启之后,少数黑产可能对支付宝进行骗赔。当前,通常采用人工方式审核用户行为,以判断是否属于黑产骗赔。同时,大量投诉中的文本信息被浪费,并未用于风险防控的核查中,甚至会与用户行为数据(后文也称为“结构化行为数据”)混合使用。本申请的专利技术人注意到,现有技术还没有考虑过将文本数据与结构化行为数据进行比对。况且,人工往往对行为数据不敏感,如果使用工具进行手工分析又耗时耗力。为此,本申请的专利技术人提出了基于深度学习的文本可信模型解决方案,其通过对文本数据和用户行为数据进行自动化比对,实现了对文本数据是否可信的自动化判断。因而,这使得可信的文本数据也能用于互联网金融反欺诈和风险防控的审核,促进了自动化审核的实现,降低了成本,提高了效率。根据本专利技术的一方面,一种文本可信模型分析方法,包括:使用第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数;使用第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数;将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对;并且根据所述比对的结果,判断所述对应的文本数据是否可信。这里,所述第一和第二训练模型可以是已知的任何可用训练模型,包括,但不限于,LightGBM算法、GBDT算法、LR模型、神经网络等。在一个实施例中,所述第一训练模型可以与所述第二训练模型相同。在另一实施例中,所述第一训练模型可以不同于所述第二训练模型。术语“结构化行为数据”是将用户行为数据进行结构化得到的数据。其中,结构化,指将行为数据的展现形式从非结构数据转为结构化数据,以便进行归类和统计。优选地,结构化数据在训练前还可以进行标签化和/或数值化编码。优选地,在对文本数据进行模型训练之前,可以将文本数据进行清洗和/或预处理。“预处理”是指将文本数据、优选经过清洗的文本数据转换为对应的词向量或词向量矩阵。例如,如果用户行为是购买一件商品,对应的文本数据可以是用户针对购买过程的投诉、或者申请退款或赔偿。然而,用户的投诉或赔偿文本内容与其购买行为可能不一致。例如,黑产可能会通过软件自动编写欺诈文本进行批量骗赔。在这种情况下,投诉或赔偿文本内容可能含混不清,或者前后多篇文本的投诉内容基本一致而对应的买卖行为却完全不同。为此,本申请的专利技术人提出,通过人工对文本数据是否可信进行标签来对文本数据进行预处理,从而极大地改善对文本数据进行模型训练的结果和质量。按照本专利技术的优选实施例,所述文本可信模型分析方法还包括在使用所述第二训练模型对所述文本数据进行分类之前,对所述文本数据进行预处理,其中,对所述文本数据的所述预处理包括定期地由使用者,例如投诉或理赔的审理人员,对所述文本数据中的一个或多个是否可信进行标签。例如,审理人员可以在每次对文本数据进行模型训练前、每天、每隔几天、每周或者每隔几周对当时的一个或多个文本数据是否可信进行判断。按照本专利技术的优选实施例,审理人员可以通过观察例如显示器上显示的、与投诉或理赔有关的文本内容、OCR(光学字符识别)图像内容或者语音转文本内容等,将上述与结构化行为数据明显不符的文本数据打上“不可信”的标签,并且将该文本数据直接判定为不可信。在有些情况下,文本数据量可能不是很大,或者初始的文本数据量很小。于是,审理人员可能足以在有限时间内将明显不可信的文本数据挑选出来。这样,按照本专利技术的实施例,可以仅对未被审理人员挑选出来的文本数据进行模型训练。按照本专利技术的优选实施例,基于带有不可信标签的文本数据和剩余的文本数据,使用半监督学习算法从所述剩余的文本数据检测出不可信的文本数据并打上不可信标签。所述半监督学习算法例如包括PULearning。本领域技术人员能够领会到,其他的适当的半监督学习算法也是可以的。其中,使用半监督学习算法进行的所述检测包括利用所述带有不可信标签的文本数据来训练PULearning模型,并且基于经训练的PULearning模型,从所述剩余的文本数据中预测不可信的文本数据。于是,预测为不可信的文本数据可以被打上不可信标签。该优选实施例可以针对文本数据量较大的情况。这样,待处理的无标签文本数据的数目将被最小化。按照本专利技术的优选实施例,无论文本数据是否经过PULearning的预处理,使用所述第二训练模型对所述文本数据进行的所述分类包括使用所述第二训练模型仅对没有标签的文本数据进行分类。按照本专利技术的优选实施例,所述比对包括分别将所述结构化行为数据的所述分数和所述对应的文本数据的所述分数进行归一化,并且对归一化后的两个分数进行假设检验以判断所述结构化行为数据的所述分数和所述对应的文本数据的所述分数是否属于同一类。按照本专利技术的优选实施例,在通过假设检验判定所述结构化行为数据的所述分数和所述对应的文本数据的所述分数属于同一类时,所述对应的文本数据被确定为是可信的。根据本专利技术的另一方面,一种文本可信模型分析设备,包括:处理器;以及,存储器,其上存储有可执行指令,其中,所述可执行指令当被执行时使得所述处理器执行前述的方法。根据本专利技术的又一方面,一种机器可读存储介质,其上存储有可执行指令,其中,所述可执行指令当被执行时使得机器执行前述的方法。根据本专利技术的再一方面,一种文本可信模型分析装置,包括:第一分类模块,用于通过第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数;第二分类模块,用于通过第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数;以及比对模块,用于将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对,并根据所述比对的结果,判断所述对应的文本数据是否可信。从以上可以看出,本专利技术的实施例的方案能够评价投诉或理赔中的文本信息是否可信。具体地,本专利技术的实施例的方案通过将文本数据与相应的行为数据进行比较来判断文本数据是否可信,从而使得可以利用投诉或理赔中的海量文本信息进行互联网金融风险防控。附图说明本专利技术的特征、特点、优点和益处通过以下结合附图的详细描述将变得显而易见。图1示出了按照本专利技术的一个实施例的文本可信模型分析方法10的总体流程本文档来自技高网...

【技术保护点】
1.一种文本可信模型分析方法(100),包括:使用第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数(114);使用第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数(128);将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对(130);并且根据所述比对的结果,判断所述对应的文本数据是否可信(132,134)。

【技术特征摘要】
1.一种文本可信模型分析方法(100),包括:使用第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数(114);使用第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数(128);将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对(130);并且根据所述比对的结果,判断所述对应的文本数据是否可信(132,134)。2.如权利要求1所述的文本可信模型分析方法(100),还包括:在使用所述第二训练模型对所述文本数据进行分类之前,对所述文本数据进行预处理,其中,对所述文本数据的所述预处理包括定期地由使用者对所述文本数据中的一个或多个是否可信进行标签(124)。3.如权利要求2所述的文本可信模型分析方法(100),其中,在文本数据与对应的结构化行为数据不相符时,该文本数据被打上不可信标签。4.如权利要求3所述的文本可信模型分析方法(100),还包括:基于带有不可信标签的文本数据和剩余的文本数据,使用半监督学习算法从所述剩余的文本数据检测出不可信的文本数据并打上不可信标签(126)。5.如权利要求4所述的文本可信模型分析方法(100),其中,所述半监督学习算法包括PULearning,并且其中,使用半监督学习算法进行的所述检测包括利用所述带有不可信标签的文本数据来训练PULearning模型,并且基于经训练的PULearning模型,从所述剩余的文本数据中预测不可信的文本数据。6.如权利要求3-5中的任一项所述的文本可信模型分析方法(100),其中,使用所述第二训练模型对所述文本数据进行的所述分类包括使用所述第二训练模型仅对没有标签的文本数据进行分类(128)。7.如权利要求1-5中的任一项所述的文本可信模型分析方法(100),其中,所述比对包括分别将所述结构化行为数据的所述分数和所述对应的文本数据的所述分数进行归一化,并且对归一化后的两个分数进行假设检验以判断所述结构化行为数据的所述分数和所述对应的文本数据的所述分数是否属于同一类。8.如权利要求7所述的文本可信模型分析方法(100),其中,在通过假设检验判定所述结构化行为数据的所述分数和所述对应的文本数据的所述分数属于同一类时,基于t检验来确定所述对应的文本数据是否可信。9.一种文本可信模型分析设备(200),包括:处理器(220);以及存储器(210),其上存储有可执行指令,其中,所述可执行指令当被执行时使得所述处理器执行权利要求1-8中的任一项所述的方法。10.如权利要求9所述的文本可信模型分析设备(200),还包括:显示器(230),其被配置为显示所述文本数据;以及输入...

【专利技术属性】
技术研发人员:袁锦程王维强许辽萨赵文飙易灿
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1