数字文档获取方法技术

技术编号:39487462 阅读:11 留言:0更新日期:2023-11-24 11:07
本申请涉及文件数字化处理技术领域,特别是涉及一种数字文档获取方法

【技术实现步骤摘要】
数字文档获取方法、装置、计算机设备及存储介质


[0001]本申请涉及文件数字化处理
,特别是涉及一种数字文档获取方法

装置

计算机设备及存储介质


技术介绍

[0002]随着金融行业的不断发展和监管要求的不断提高,日常发布多种管理文件,以便金融机构在业务办理的场景中,能给予及时

有效的政策引导,在现行的监管体制下,监管机构一般采用纸质文件进行发布监管规则

[0003]相关人员需要根据纸质的管理文件,自行提炼理解对金融行业的监管标准,而纸质文件对于监管规则概念的内涵和外延存在不够清晰

准确的现象,多家监管机构对监管规则的定义存在同名不同义或同义不同名的情况,使各级监管机构的监管尺度不一致,因此,存在信息不通畅

监管解读有差异,机构执行标准不统一的问题,为金融机构合规经营带来很大困扰

[0004]针对上述技术问题,亟需一种数字文档获取方法

装置

计算机设备及存储介质


技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够解决信息不通畅

监管解读有差异,机构执行标准不统一问题的数字文档获取方法

装置

计算机设备

计算机可读存储介质和计算机程序产品

[0006]第一方面,本申请提供了一种数字文档获取方法

所述方法包括:
[0007]获取与预设领域中业务处理相关联的初始指引文件;
[0008]对所述初始指引文件进行影像化处理,获得第一处理结果;
[0009]对所述第一处理结果进行图文识别,获得文本格式的文件;
[0010]提取所述文本格式的文件相应的处理规则;
[0011]根据所述处理规则,对所述文本格式的文件进行信息筛选,获得目标指引文件

[0012]在其中一个实施例中,所述提取所述文本格式的文件相应的处理规则,包括:
[0013]在所述文本格式的文件中存在处理规则的情况下,获取所述处理规则在所述文本格式的文件中的位置信息;
[0014]根据所述位置信息,提取相应的处理规则

[0015]在其中一个实施例中,所述根据所述位置信息,提取相应的处理规则,包括:
[0016]根据所述位置信息,从所述文本格式的文件中获得符合预设条件下的指标文本,所述指标文本包括量化指标

限定条件及数字结果;
[0017]对所述指标文本分别进行实体消岐和语义角色标注,获得第二处理结果;
[0018]根据所述第二处理结果,获取处理规则

[0019]在其中一个实施例中,对所述指标文本进行实体消岐,包括:
[0020]对所述指标文本进行实体识别,获得所述指标文本的实体名称;
[0021]获取所述实体名称所在的上下文信息,所述上下文信息包括所述实体名称的所在段落或所在文档;
[0022]根据所述上下文信息,获取实体特征,所述实体特征包括词向量

实体类型及语法依存关系;
[0023]通过预设模型对所述实体特征进行实体消岐,获得实体消岐的结果,并将实体消岐的结果进行归一化处理

[0024]在其中一个实施例中,对所述指标文本进行语义角色标注,包括:
[0025]获取含有语义角色标签的语料库,所述语料库包括至少一个文本及对应的语义角色标注信息;
[0026]提取每一文本中各个词语的特征,所述词语的特征包括词性

词义及语法依存关系;
[0027]通过所述各个词语的特征训练长短期记忆神经网络模型,通过所述语义角色标注信息训练条件随机场模型;
[0028]根据训练后的长短期记忆神经网络模型和条件随机场模型,对所述指标文本进行预测,获得每个词语的语义角色标注结果

[0029]在其中一个实施例中,所述通过所述各个词语的特征训练长短期记忆神经网络模型,包括:
[0030]对所述各个词语的特征进行预处理,构建词向量,并设定所述长短期记忆神经网络模型的嵌入层和卷积层;
[0031]将所述词向量进行嵌入操作,对所述嵌入层的输出维度进行卷积操作,变换为适应所述卷积层的输入维度;
[0032]使用非线性函数对所述各个词语的特征进行特征合并,获得同一维度的特征;
[0033]根据所述同一维度的特征,通过设定超参数

实例化模型和定义优化器,进行训练长短期记忆神经网络模型

[0034]第二方面,本申请还提供了一种数字文档获取装置

所述装置包括:
[0035]获取模块,用于获取与预设领域中业务处理相关联的初始指引文件;
[0036]处理模块,用于对所述初始指引文件进行影像化处理,获得第一处理结果;
[0037]处理模块,还用于对所述第一处理结果进行图文识别,获得文本格式的文件;
[0038]处理模块,还用于提取所述文本格式的文件相应的处理规则;
[0039]处理模块,还用于根据所述处理规则,对所述文本格式的文件进行信息筛选,获得目标指引文件

[0040]第三方面,本申请还提供了一种计算机设备

所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0041]获取与预设领域中业务处理相关联的初始指引文件;
[0042]对所述初始指引文件进行影像化处理,获得第一处理结果;
[0043]对所述第一处理结果进行图文识别,获得文本格式的文件;
[0044]提取所述文本格式的文件相应的处理规则;
[0045]根据所述处理规则,对所述文本格式的文件进行信息筛选,获得目标指引文件

[0046]第四方面,本申请还提供了一种计算机可读存储介质

所述计算机可读存储介质,
其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0047]获取与预设领域中业务处理相关联的初始指引文件;
[0048]对所述初始指引文件进行影像化处理,获得第一处理结果;
[0049]对所述第一处理结果进行图文识别,获得文本格式的文件;
[0050]提取所述文本格式的文件相应的处理规则;
[0051]根据所述处理规则,对所述文本格式的文件进行信息筛选,获得目标指引文件

[0052]第五方面,本申请还提供了一种计算机程序产品

所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0053]获取与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数字文档获取方法,其特征在于,所述方法包括:获取与预设领域中业务处理相关联的初始指引文件;对所述初始指引文件进行影像化处理,获得第一处理结果;对所述第一处理结果进行图文识别,获得文本格式的文件;提取所述文本格式的文件相应的处理规则;根据所述处理规则,对所述文本格式的文件进行信息筛选,获得目标指引文件
。2.
根据权利要求1所述的方法,其特征在于,所述提取所述文本格式的文件相应的处理规则,包括:在所述文本格式的文件中存在处理规则的情况下,获取所述处理规则在所述文本格式的文件中的位置信息;根据所述位置信息,提取相应的处理规则
。3.
根据权利要求2所述的方法,其特征在于,所述根据所述位置信息,提取相应的处理规则,包括:根据所述位置信息,从所述文本格式的文件中获得符合预设条件下的指标文本,所述指标文本包括量化指标

限定条件及数字结果;对所述指标文本分别进行实体消岐和语义角色标注,获得第二处理结果;根据所述第二处理结果,获得处理规则
。4.
根据权利要求3所述的方法,其特征在于,对所述指标文本进行实体消岐,包括:对所述指标文本进行实体识别,获得所述指标文本的实体名称;获取所述实体名称所在的上下文信息,所述上下文信息包括所述实体名称的所在段落或所在文档;根据所述上下文信息,获取实体特征,所述实体特征包括词向量

实体类型及语法依存关系;通过预设模型对所述实体特征进行归一化处理;根据归一化处理的结果,进行实体消岐
。5.
根据权利要求3所述的方法,其特征在于,对所述指标文本进行语义角色标注,包括:获取含有语义角色标签的语料库,所述语料库包括至少一个文本及对应的语义角色标注信息;提取每一文本中各个词语的特征,所述词语的特征包括词性

词义及语法依存关系;...

【专利技术属性】
技术研发人员:池纪锋
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1