【技术实现步骤摘要】
一种金融文件解析方法、系统、装置及介质
[0001]本说明书涉及信息提取
,特别涉及一种金融文件解析方法、系统、装置及介质。
技术介绍
[0002]随着互联网技术的迅速发展,各种平台、系统等会涉及对大量的、各种类型的文件(如简历文件、证券交易文件、智能投顾文件等)进行分析和处理,抽取所需的结构化的信息。例如,用户可通过某个平台、系统等投递各种格式的简历文件、证券交易文件、智能投顾文件等,如word格式的文件、PDF格式的文件、PPT格式的文件等。平台或系统等需要对文件进行分析和处理,抽取文件中的各种所需的结构化信息。
[0003]因此,希望提供一种金融文件解析方法、系统、装置及介质,能够对各种类型的文件进行分析和处理,进而抽取所需的结构化的信息,以及提高信息抽取的准确率。
技术实现思路
[0004]本说明书实施例之一提供一种金融文件解析方法,该方法包括:通过多种解析流程对待解析文件进行处理,获取多种解析结果;其中,所述多种解析结果中的每种解析结果包括:从所述待解析文件中抽取的至少一个目标字段的字 ...
【技术保护点】
【技术特征摘要】
1.一种金融文件解析方法,其特征在于,所述方法包括:通过多种解析流程对待解析文件进行处理,获取多种解析结果;其中,所述多种解析结果中的每种所述解析结果包括:从所述待解析文件中抽取的至少一个目标字段的字段结果;对所述多种解析结果进行融合,确定目标解析结果。2.根据权利要求1所述的方法,其特征在于,所述多种解析流程中的每种解析流程包括共同的多个解析步骤,对于所述多种解析流程中的任意两种解析流程:有至少一个解析步骤在所述两种解析流程中对应不同的处理方法。3.根据权利要求2所述的方法,其特征在于,所述多个解析步骤包括:文本解析步骤,用于获取所述待解析文件的文本解析结果;文本分类步骤,用于获取所述文本解析结果对应的文本段落分类结果;结果抽取步骤,用于获取所述文本段落分类结果对应的所述解析结果。4.根据权利要求3所述的方法,其特征在于,所述文本解析步骤对应的处理方法包括以下中的至少一种:通过文本解析法获取所述待解析文件的所述文本解析结果;或者通过图像解析法获取所述待解析文件的所述文本解析结果;所述文本分类步骤对应的处理方法包括以下中的至少一种:基于所述文本解析结果的文本信息,获取所述文本解析结果对应的所述文本段落分类结果;或者基于所述文本解析结果的版面信息,获取所述文本解析结果对应的所述文本段落分类结果;所述结果抽取步骤对应的处理方法包括以下中的至少一种:通过基于规则匹配的字段抽取方法获取所述文本段落分类结果对应的所述解析结果;或者通过基于自然语言处理算法的字段抽取方法获取所述文本段落分类结果对应的所述解析结果。5.根据权利要求1所述的方法,其特征在于,所述通过对所述多种解析结果进行融合,确定目标解析结果包括:对所述至少一个目标字段中的任一个所述目标字段,所述多种解析结果中包括所述目标字段的多个字段结果,至少对所述多个字段结果进行以下中的一种或多种处理,从而确定所述目标字段的目标字段结果:去除所述多个字段结果中的空值结果,基于剩余的字段结果确定所述目标字段结果;确定所述目标字段对应的文本结构规...
【专利技术属性】
技术研发人员:李翔,
申请(专利权)人:浙江同花顺云软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。