文本可信模型分析方法、设备和装置制造方法及图纸

技术编号：21686157 阅读：19 留言：0更新日期：2019-07-24 14:40

本发明专利技术涉及文本可信模型分析方法、设备和装置。所述方法(100)包括：使用第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数(114)；使用第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数(128)；将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对(130)；并且根据所述比对的结果，判断所述对应的文本数据是否可信(132，134)。本发明专利技术的实施例的方案通过将这种文本数据与相应的行为数据进行比较来判断文本数据是否可信，从而使得可以进行自动化反欺诈风险防控。

Text Trusted Model Analysis Method, Equipment and Device

全部详细技术资料下载

【技术实现步骤摘要】
文本可信模型分析方法、设备和装置
本专利技术涉及互联网
，尤其涉及文本可信模型分析方法、设备和装置。
技术介绍
随着互联网技术的发展，现金支付、现金赔付也逐渐扩展到网络支付和网络赔付，随之也带来很多问题，给支付公司和个人用户带来不同程度的资金或其他损失。目前，互联网支付风险事件主要有盗用事件和欺诈事件。其中，欺诈事件包括个人欺诈、商户欺诈、木马和钓鱼等。利用病毒木马等非法手段获取利益也逐渐形成一个行业，称之为黑色产业(简称黑产)。目前，在互联网金融风险防控中，仍然采用人工审核的方式来识别互联网金融欺诈，主要针对用户行为，包括操作特点、用户业务行为、关联图谱信息等。例如，多个人合用一个设备、页面停留时间等。互联网作为产业领域中自动化程度最高的产业，反欺诈风险防控的自动化也必然是未来发展的一个方向。
技术实现思路
鉴于现有技术的以上问题，本专利技术的实施例提供一种新颖的文本可信模型解决方法、设备和装置，从而使得投诉中的文本信息也能够用于互联网金融风险防控。在风险防控中，目前采用的人工审核方式往往依赖于用户行为。例如，根据之前支付宝盗用的赔付经验，特别是当赔付开启之后，少数黑产可能对支付宝进行骗赔。当前，通常采用人工方式审核用户行为，以判断是否属于黑产骗赔。同时，大量投诉中的文本信息被浪费，并未用于风险防控的核查中，甚至会与用户行为数据(后文也称为“结构化行为数据”)混合使用。本申请的专利技术人注意到，现有技术还没有考虑过将文本数据与结构化行为数据进行比对。况且，人工往往对行为数据不敏感，如果使用工具进行手工分析又耗时耗力。为此，本申请的专利技术人提出了基于深...

【技术保护点】
1.一种文本可信模型分析方法(100)，包括：使用第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数(114)；使用第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数(128)；将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对(130)；并且根据所述比对的结果，判断所述对应的文本数据是否可信(132，134)。

【技术特征摘要】
1.一种文本可信模型分析方法(100)，包括：使用第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数(114)；使用第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数(128)；将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对(130)；并且根据所述比对的结果，判断所述对应的文本数据是否可信(132，134)。2.如权利要求1所述的文本可信模型分析方法(100)，还包括：在使用所述第二训练模型对所述文本数据进行分类之前，对所述文本数据进行预处理，其中，对所述文本数据的所述预处理包括定期地由使用者对所述文本数据中的一个或多个是否可信进行标签(124)。3.如权利要求2所述的文本可信模型分析方法(100)，其中，在文本数据与对应的结构化行为数据不相符时，该文本数据被打上不可信标签。4.如权利要求3所述的文本可信模型分析方法(100)，还包括：基于带有不可信标签的文本数据和剩余的文本数据，使用半监督学习算法从所述剩余的文本数据检测出不可信的文本数据并打上不可信标签(126)。5.如权利要求4所述的文本可信模型分析方法(100)，其中，所述半监督学习算法包括PULearning，并且其中，使用半监督学习算法进行的所述检测包括利用所述带有不可信标签的文本数据来训练PULearning模型，并且基于经训练的PULearning模型，从所述剩余的文本数据中预测不可信的文本数据。6.如权利要求3-5中的任一项所述的文本可信模型分析方法(100)，其中，使用所述第二训练模型对所述文本数据进行的所述分类包括使用所述第二训练模型仅对没有标签的文本数据进行分类(128)。7.如权利要求1-5中的任一项所述的文本可信模型分析方法(100)，其中，所述比对包括分别将所述结构化行为数据的所述分数和所述对应的文本数据的所述分数进行归一化，并且对归一化后的两个分数进行假设检验以判断所述结构化行为数据的所述分数和所述对应的文本数据的所述分数是否属于同一类。8.如权利要求7所述的文本可信模型分析方法(100)，其中，在通过假设检验判定所述结构化行为数据的所述分数和所述对应的文本数据的所述分数属于同一类时，基于t检验来确定所述对应的文本数据是否可信。9.一种文本可信模型分析设备(200)，包括：处理器(220)；以及存储器(210)，其上存储有可执行指令，其中，所述可执行指令当被执行时使得所述处理器执行权利要求1-8中的任一项所述的方法。10.如权利要求9所述的文本可信模型分析设备(200)，还包括：显示器(230)，其被配置为显示所述文本数据；以及输入...

【专利技术属性】
技术研发人员：袁锦程，王维强，许辽萨，赵文飙，易灿，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人