【技术实现步骤摘要】
数字文档获取方法、装置、计算机设备及存储介质
[0001]本申请涉及文件数字化处理
,特别是涉及一种数字文档获取方法
、
装置
、
计算机设备及存储介质
。
技术介绍
[0002]随着金融行业的不断发展和监管要求的不断提高,日常发布多种管理文件,以便金融机构在业务办理的场景中,能给予及时
、
有效的政策引导,在现行的监管体制下,监管机构一般采用纸质文件进行发布监管规则
。
[0003]相关人员需要根据纸质的管理文件,自行提炼理解对金融行业的监管标准,而纸质文件对于监管规则概念的内涵和外延存在不够清晰
、
准确的现象,多家监管机构对监管规则的定义存在同名不同义或同义不同名的情况,使各级监管机构的监管尺度不一致,因此,存在信息不通畅
、
监管解读有差异,机构执行标准不统一的问题,为金融机构合规经营带来很大困扰
。
[0004]针对上述技术问题,亟需一种数字文档获取方法
、
装置
、
计算机设备及存储介质
。
技术实现思路
[0005]基于此,有必要针对上述技术问题,提供一种能够解决信息不通畅
、
监管解读有差异,机构执行标准不统一问题的数字文档获取方法
、
装置
、
计算机设备
、
计算机可读存储介质和计算机程序产品
。
[0006]第一方面,本申请提供了一种数字 ...
【技术保护点】
【技术特征摘要】
1.
一种数字文档获取方法,其特征在于,所述方法包括:获取与预设领域中业务处理相关联的初始指引文件;对所述初始指引文件进行影像化处理,获得第一处理结果;对所述第一处理结果进行图文识别,获得文本格式的文件;提取所述文本格式的文件相应的处理规则;根据所述处理规则,对所述文本格式的文件进行信息筛选,获得目标指引文件
。2.
根据权利要求1所述的方法,其特征在于,所述提取所述文本格式的文件相应的处理规则,包括:在所述文本格式的文件中存在处理规则的情况下,获取所述处理规则在所述文本格式的文件中的位置信息;根据所述位置信息,提取相应的处理规则
。3.
根据权利要求2所述的方法,其特征在于,所述根据所述位置信息,提取相应的处理规则,包括:根据所述位置信息,从所述文本格式的文件中获得符合预设条件下的指标文本,所述指标文本包括量化指标
、
限定条件及数字结果;对所述指标文本分别进行实体消岐和语义角色标注,获得第二处理结果;根据所述第二处理结果,获得处理规则
。4.
根据权利要求3所述的方法,其特征在于,对所述指标文本进行实体消岐,包括:对所述指标文本进行实体识别,获得所述指标文本的实体名称;获取所述实体名称所在的上下文信息,所述上下文信息包括所述实体名称的所在段落或所在文档;根据所述上下文信息,获取实体特征,所述实体特征包括词向量
、
实体类型及语法依存关系;通过预设模型对所述实体特征进行归一化处理;根据归一化处理的结果,进行实体消岐
。5.
根据权利要求3所述的方法,其特征在于,对所述指标文本进行语义角色标注,包括:获取含有语义角色标签的语料库,所述语料库包括至少一个文本及对应的语义角色标注信息;提取每一文本中各个词语的特征,所述词语的特征包括词性
、
词义及语法依存关系;...
【专利技术属性】
技术研发人员:池纪锋,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。