多模态获取监管识别结果的方法、装置、设备及存储介质制造方法及图纸

技术编号:24938179 阅读:29 留言:0更新日期:2020-07-17 20:58
本申请涉及人工智能领域,公开了一种多模态获取监管识别结果的方法、装置、设备及存储介质,解决目前业务监管条款和业务产品的语义相似度匹配问题。本申请方法包括:创建知识图谱;根据第一预设规则、第二预设规则和实体关系文件对知识图谱进行处理得到实体和实体关系;根据实体和实体关系更新知识图谱得到目标知识图谱;通过编码器对目标知识图谱和训练文本进行分析获得融合待处理信息;按照预设策略对融合待处理信息进行随机掩面处理获得训练数据;对训练数据进行词嵌入向量处理和自制力机制处理得到目标句向量和目标词向量;按照预设权重比例计算目标句向量和目标词向量的语义余弦相似度和字符串相似度的加权平均值,获得监管识别结果。

【技术实现步骤摘要】
多模态获取监管识别结果的方法、装置、设备及存储介质
本申请涉及自然语言处理领域,尤其涉及多模态获取监管识别结果的方法、装置、设备及存储介质。
技术介绍
一些特定领域的业务产品只能通过人工审核进行监管条款识别。人工审核不仅费时费力还存在误判的可能。为解决人工审核存在的误判和管理问题,对业务条款的审核采用规则和模式匹配进行筛选和处理,其中,业务条款的审核包括对业务条款中的具体描述和业务产品的描述进行语义上的理解和匹配。通过规则和模式匹配的筛选和处理进行业务条款的审核存在业务产品情况列举不完全的问题,例如:条款需要确定产品是否有持续交费奖励,仅通过字符搜索时通过根据关键词“业务持续奖励”、“业务交费奖励”进行检索,但是不同产品可能出现的关键词不同,比如:业务持续交费奖励或业务缴费奖励。人工列举的关键词不够充足时就会漏判,而仅靠人工列举关键词既耗费人力,列举不全的可能性又比较大。目前通过相似Jaccard距离和编辑距离的方法解决业务产品情况列举不完全的问题,但是相似Jaccard距离和编辑距离只能匹配字面相似度,而无法进一步进行语义相似本文档来自技高网...

【技术保护点】
1.一种多模态获取监管识别结果的方法,其特征在于,包括:/n通过预置的知识图谱模型和业务知识体系创建业务产品待识别文本和业务规定条款信息的知识图谱;/n调用预置的业务实体识别模型根据第一预设规则对所述知识图谱进行实体识别,得到实体,所述第一预设规则用于定位条款对应的段落和匹配条款对应的语句;/n根据第二预设规则从预置的实体关系文件中提取所述实体的实体关系,所述实体关系文件包括已有的业务条款、业务产品说明书和业务产品关联信息;/n根据所述实体和所述实体关系更新所述知识图谱,得到目标知识图谱;/n通过语言Bert模型中的第一编码器和第二编码器对所述目标知识图谱和训练文本进行分析处理,获得融合待处理...

【技术特征摘要】
1.一种多模态获取监管识别结果的方法,其特征在于,包括:
通过预置的知识图谱模型和业务知识体系创建业务产品待识别文本和业务规定条款信息的知识图谱;
调用预置的业务实体识别模型根据第一预设规则对所述知识图谱进行实体识别,得到实体,所述第一预设规则用于定位条款对应的段落和匹配条款对应的语句;
根据第二预设规则从预置的实体关系文件中提取所述实体的实体关系,所述实体关系文件包括已有的业务条款、业务产品说明书和业务产品关联信息;
根据所述实体和所述实体关系更新所述知识图谱,得到目标知识图谱;
通过语言Bert模型中的第一编码器和第二编码器对所述目标知识图谱和训练文本进行分析处理,获得融合待处理信息,所述第二编码器包括两个输入口和两个输出口,所述训练文本为各预设领域的业务类型对应的多种文本;
按照预设策略对所述融合待处理信息进行随机掩面处理,获得训练数据;
对所述训练数据进行处理,得到目标句向量和目标词向量,所述目标句向量为业务产品待识别文本的句向量,所述目标词向量为业务规定条款的词向量;
计算所述目标句向量和所述目标词向量之间的语义余弦相似度,以及计算所述业务产品待识别文本和所述业务规定条款信息之间的字符串相似度;
按照预设权重比例计算所述语义余弦相似度和所述字符串相似度的加权平均值,并将大于预设阈值的加权平均值对应的业务规定条款信息作为最终的监管识别结果。


2.根据权利要求1所述的方法,其特征在于,所述通过语言Bert模型中的第一编码器和第二编码器对所述目标知识图谱和训练文本进行分析处理,获得融合待处理信息,所述第二编码器包括两个输入口和两个输出口,所述训练文本为各预设领域的业务类型对应的多种文本,包括:
通过第一编码器对所述目标知识图谱和训练文本进行分析处理,获得语义表示数据,所述训练文本为各预设领域的业务类型对应的多种文本,所述分析处理包括词法分析处理和语义特征分析处理;
对所述语义表示数据进行分类,获得第一词和第二词,所述第一词为与所述目标知识图谱的实体所对应的词,所述第二词为与非所述目标知识图谱的实体所对应的词;
通过第一输入口接收所述第一词和所述实体,以及通过第二输入口接收所述第二词,所述第二编码器包括第一输入口、第二输入口、第一输出口和第二输出口;
对所述第一词和所述实体进行编码处理,得到待融合信息;
通过加和的转换方式对所述待融合信息进行融合处理,获得融合待处理信息并通过所述第一输出口输出所述融合待处理信息;
对所述第二词进行编码处理,获得待处理信息并通过所述第二输出口输出所述待处理信息。


3.根据权利要求1所述的方法,其特征在于,所述根据所述实体和所述实体关系更新所述知识图谱,得到目标知识图谱,包括:
根据预设句式模板和依存句法分析规则在实体关系文件中获取与所述实体关联的目标实体;
对所述实体和所述目标实体进行数据预处理,得到预处理信息;
根据所述预处理信息之间的关联关系构建实体关系图,所述关联关系包括所述实体和所述目标实体同属的产品类型关系,以及所述实体和所述目标实体之间的从属关系、施动关系和属性关系;
根据所述实体关系图对所述知识图谱进行修正和补充处理,得到目标知识图谱。


4.根据权利要求1所述的方法,其特征在于,所述对所述训练数据进行处理,得到目标句向量和目标词向量,所述目标句向量为业务产品待识别文本的句向量,所述目标词向量为业务规定条款的词向量,包括:
通过激活函数对所述训练数据进行非线性处理,得到待计算数据,所述激活函数如下:



所述x表示所述训练数据;
通过掩面多头自注意力子层和多头自注意力子层将所述待计算数据中的隐向量映射到不同的空间中,并进行自注意力机制计算,得到向量矩阵;
对所述向量矩阵进行统计,得到业务产品待识别文本的候选句向量和业务规定条款的候选词向量;
根据所述候选句向量和所述候选词向量计算所述Bert模型的召回率和精确率,得到所述Bert模型的效果值;
根据所述效果值...

【专利技术属性】
技术研发人员:孙梦轩吴岸城
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1