System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种模型训练方法、业务风控方法、装置以及存储介质制造方法及图纸_技高网

一种模型训练方法、业务风控方法、装置以及存储介质制造方法及图纸

技术编号:41124513 阅读:4 留言:0更新日期:2024-04-30 17:51
本说明书提供的一种模型训练方法、业务风控方法、装置以及存储介质,可以首先获取非结构化文档,并从中提取出其包含的各文本信息,以及确定出每个文本信息在非结构化文档中的文本位置信息,而后,将各文本信息以及文本位置信息输入到实体识别模型中,以使实体识别模型针对每个文本信息,根据该文本信息在非结构化文档中的文本位置信息以及其他文本信息在非结构化文档中的文本位置信息,从其他文本信息中确定与该文本信息相关联的文本信息,作为参考文本信息,并根据参考文本信息,确定对应的实体信息,作为预测实体,以最小化每个文本信息对应的预测实体与非结构化文档中包含的实际实体信息之间的偏差为优化目标,对实体识别模型进行训练。

【技术实现步骤摘要】

本说明书涉及风险防控领域,尤其涉及一种模型训练方法、业务风控方法、装置以及存储介质


技术介绍

1、近年来,随着计算机技术以及人工智能技术的发展,贸易相关业务所产生的数据量逐渐增加,因此对贸易相关业务进行风险控制显得尤为重要。

2、目前,在对贸易相关业务进行风险控制的过程中,可以通过对用户提交的诸如贸易合同、发票等非结构化文档进行风险实体检验,并根据检验结果对用户进行风险控制,以保证用户个人信息或业务数据的安全,其中,风险实体可以指诸如包含在失信被执行人名单中的人、限制交易物品名单中的物品等实体。

3、但是,目前只能采用人工审核的方式来对用户提交的非结构化文档中的风险实体进行检验,从而导致对风险实体的检验准确率较低,进而带来了一定的安全隐患。与此同时,对风险实体的检验效率也往往较低。

4、因此,如何提升对非结构化文档中风险实体的检验准确率以及效率,则是一个亟待解决的问题。


技术实现思路

1、本说明书提供一种模型训练方法、业务风控方法、装置以及存储介质,以部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案:

3、本说明书提供了一种模型训练方法,包括:

4、获取非结构化文档;

5、从所述非结构化文档中提取出所述非结构化文档所包含的各文本信息,并确定出每个文本信息在所述非结构化文档中的文本位置信息;

6、将所述各文本信息以及所述文本位置信息输入到待训练的实体识别模型中,以使所述实体识别模型针对每个文本信息,根据该文本信息在所述非结构化文档中的文本位置信息以及其他文本信息在所述非结构化文档中的文本位置信息,从所述其他文本信息中确定与该文本信息相关联的文本信息,作为参考文本信息,并根据所述参考文本信息,确定该文本信息对应的实体信息,作为该文本信息对应的预测实体;

7、以最小化每个文本信息对应的预测实体与所述非结构化文档中包含的实际实体信息之间的偏差为优化目标,对所述实体识别模型进行训练。

8、可选地,从所述非结构化文档中提取出所述非结构化文档所包含的各文本信息,并确定出每个文本信息在所述非结构化文档中的文本位置信息,具体包括:

9、将所述非结构化文档输入到预设的文档识别模型中,以使所述文档识别模型从所述非结构化文档中提取出所述非结构化文档所包含的各文本信息,并确定出每个文本信息在所述非结构化文档中的文本位置信息。

10、可选地,所述实体识别模型中包含有拼接层和识别层;

11、将所述各文本信息以及所述文本位置信息输入到待训练的实体识别模型中,以使所述实体识别模型针对每个文本信息,根据该文本信息在所述非结构化文档中的文本位置信息以及其他文本信息在所述非结构化文档中的文本位置信息,从所述其他文本信息中确定与该文本信息相关联的文本信息,作为参考文本信息,并根据所述参考文本信息,确定该文本信息对应的实体信息,作为该文本信息对应的预测实体,具体包括:

12、将所述各文本信息以及所述文本位置信息输入到待训练的实体识别模型中的拼接层,以将每个文本信息对应的文本特征以及每个文本信息在所述非结构化文档中的文本位置信息的位置特征进行拼接,得到拼接后特征,并将所述拼接后特征输入到所述识别层中,以使所述识别层针对每个文本信息,基于所述拼接后特征,根据该文本信息在所述非结构化文档中的文本位置信息以及其他文本信息在所述非结构化文档中的文本位置信息,从所述其他文本信息中确定与该文本信息相关联的文本信息,作为参考文本信息,并根据所述参考文本信息,确定该文本信息对应的实体信息,作为该文本信息对应的预测实体。

13、可选地,将所述各文本信息以及所述文本位置信息输入到待训练的实体识别模型中的拼接层,以将每个文本信息对应的文本特征以及每个文本信息在所述非结构化文档中的文本位置信息的位置特征进行拼接,得到拼接后特征,具体包括:

14、将所述各文本信息以及所述文本位置信息输入到待训练的实体识别模型中的拼接层,以针对每个文本信息,将该文本信息对应的文本特征与该文本信息在所述非结构化文档中的文本位置信息的位置特征进行拼接,得到该文本信息对应的子拼接特征;

15、将每个文本信息对应的子拼接特征进行拼接,得到所述拼接后特征。

16、可选地,不同类型的非结构化文档对应不同的实体识别模型;

17、在将所述各文本信息以及所述文本位置信息输入到待训练的实体识别模型中之前,所述方法还包括:

18、将所述非结构化文档输入到预设的文档分类模型中,以使所述文档分类模型确定出所述非结构化文档的文档类型;

19、将所述各文本信息以及所述文本位置信息输入到待训练的实体识别模型中,具体包括:

20、将所述各文本信息以及所述文本位置信息输入到所述文档类型对应的实体识别模型中。

21、本说明书提供了一种业务风控方法,包括:

22、获取待检测非结构化文档;

23、从所述待检测非结构化文档中提取出所述待检测非结构化文档所包含的各文本信息,并确定出每个文本信息在所述待检测非结构化文档中的文本位置信息;

24、将所述各文本信息以及所述文本位置信息输入到预先训练的实体识别模型中,以使所述实体识别模型针对每个文本信息,根据该文本信息在所述非结构化文档中的文本位置信息以及其他文本信息在所述非结构化文档中的文本位置信息,从所述其他文本信息中确定与该文本信息相关联的文本信息,作为参考文本信息,并根据所述参考文本信息,确定该文本信息对应的实体信息,作为该文本信息对应的目标实体,所述实体识别模型是通过如上述模型训练方法训练得到的;

25、将每个文本信息对应的目标实体与预设的风险名单进行匹配,并根据得到的匹配结果,执行业务风控。

26、可选地,从所述待检测非结构化文档中提取出所述待检测非结构化文档所包含的各文本信息,并确定出每个文本信息在所述待检测非结构化文档中的文本位置信息,具体包括:

27、将所述待检测非结构化文档输入到预设的文档识别模型中,以使所述文档识别模型从所述待检测非结构化文档中提取出所述待检测非结构化文档所包含的各文本信息,并确定出每个文本信息在所述待检测非结构化文档中的文本位置信息,所述文档识别模型指如上述模型训练方法提及的文档识别模型。

28、可选地,不同类型的待检测非结构化文档对应不同的实体识别模型;

29、在将所述各文本信息以及所述文本位置信息输入到预先训练的实体识别模型中之前,所述方法还包括:

30、将所述待检测非结构化文档输入到预设的文档分类模型中,以确定所述待检测非结构化文档所对应的文档类型,所述文档分类模型指如上述模型训练方法提及的文档分类模型;

31、将所述各文本信息以及所述文本位置信息输入到预先训练的实体识别模型中,具体包括:

32、将所述各文本信息以及所述文本位置信息输入到本文档来自技高网...

【技术保护点】

1.一种模型训练方法,包括:

2.如权利要求1所述的方法,从所述非结构化文档中提取出所述非结构化文档所包含的各文本信息,并确定出每个文本信息在所述非结构化文档中的文本位置信息,具体包括:

3.如权利要求1所述的方法,所述实体识别模型中包含有拼接层和识别层;

4.如权利要求3所述的方法,将所述各文本信息以及所述文本位置信息输入到待训练的实体识别模型中的拼接层,以将每个文本信息对应的文本特征以及每个文本信息在所述非结构化文档中的文本位置信息的位置特征进行拼接,得到拼接后特征,具体包括:

5.如权利要求1所述的方法,不同类型的非结构化文档对应不同的实体识别模型;

6.一种业务风控方法,包括:

7.如权利要求6所述的方法,从所述待检测非结构化文档中提取出所述待检测非结构化文档所包含的各文本信息,并确定出每个文本信息在所述待检测非结构化文档中的文本位置信息,具体包括:

8.如权利要求6所述的方法,不同类型的待检测非结构化文档对应不同的实体识别模型;

9.一种模型训练装置,包括:

10.如权利要求9所述的装置,所述确定模块具体用于:将所述非结构化文档输入到预设的文档识别模型中,以使所述文档识别模型从所述非结构化文档中提取出所述非结构化文档所包含的各文本信息,并确定出每个文本信息在所述非结构化文档中的文本位置信息。

11.如权利要求9所述的装置,所述实体识别模型中包含有拼接层和识别层;

12.如权利要求11所述的装置,所述预测模块还用于:将所述各文本信息以及所述文本位置信息输入到待训练的实体识别模型中的拼接层,以针对每个文本信息,将该文本信息对应的文本特征与该文本信息在所述非结构化文档中的文本位置信息的位置特征进行拼接,得到该文本信息对应的子拼接特征;

13.如权利要求9所述的装置,不同类型的非结构化文档对应不同的实体识别模型;

14.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~8任一项所述的方法。

15.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1~8任一项所述的方法。

...

【技术特征摘要】

1.一种模型训练方法,包括:

2.如权利要求1所述的方法,从所述非结构化文档中提取出所述非结构化文档所包含的各文本信息,并确定出每个文本信息在所述非结构化文档中的文本位置信息,具体包括:

3.如权利要求1所述的方法,所述实体识别模型中包含有拼接层和识别层;

4.如权利要求3所述的方法,将所述各文本信息以及所述文本位置信息输入到待训练的实体识别模型中的拼接层,以将每个文本信息对应的文本特征以及每个文本信息在所述非结构化文档中的文本位置信息的位置特征进行拼接,得到拼接后特征,具体包括:

5.如权利要求1所述的方法,不同类型的非结构化文档对应不同的实体识别模型;

6.一种业务风控方法,包括:

7.如权利要求6所述的方法,从所述待检测非结构化文档中提取出所述待检测非结构化文档所包含的各文本信息,并确定出每个文本信息在所述待检测非结构化文档中的文本位置信息,具体包括:

8.如权利要求6所述的方法,不同类型的待检测非结构化文档对应不同的实体识别模型;

9.一种模型训练装置,包括:

10....

【专利技术属性】
技术研发人员:郑行何茂林曾凡伟徐进禹吴歌王巍孙清清宋博文
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1