本发明专利技术属于数据处理技术领域,具体涉及一种基于目标检测的研报解析方法、装置、设备和存储介质。其中方法包括获取研报文件,通过目标检测模型对研报文件进行目标检测,得到目标检测结果;解析研报文件,获取研报文件内每一页中的字符信息,根据目标检测结果,将位于同一个目标内的字符进行合并,得到结构化信息;汇总研报文件内每一页的结构化信息,生成研报文件的结构化数据。本发明专利技术通过训练以研报版面分析为基础的目标检测模型,极大的简化了研报文件解析的流程,在不需要复杂规则的条件下,就可以充分的结构化研报内容。
【技术实现步骤摘要】
基于目标检测的研报解析方法、装置、设备和存储介质
本专利技术属于数据处理
,具体涉及一种基于目标检测的研报解析方法、装置、设备和存储介质。
技术介绍
随着互联网的快速发展,为方便更多投资者进行投资,许多券商或投资机构对于上市公司都会定期做一个专业的研究报告,研究报告通常都是以PDF文件发布的,但不同券商或投资机构研究报告的版面结构都是不同的,而且文件结构都比较复杂。解析这些PDF格式的研报文件,从中得到结构化数据,是一个常见的需求,这就不可避免的要对文件的内容进行解析与提取,但由于PDF格式文档结构的封闭性,并没有对文件中的文字、表格和图片等信息进行很好的结构化,现有技术直接抽取到的信息是离散的、不完整的、没有逻辑关系的字符片段。虽然目前解析PDF文件的工具有很多,但解析准确率普遍不高,特别是对研报文件的解析,基本上不能满足使用需求。现有的PDF文件解析的方法主要有以下两种:1)使用格式转换工具将PDF文件先转换为一种中间格式的文档,如XML或DOC等,然后从中间格式的文件中解析文件中的数据。通过将PDF文件转换为中间格式文件再进行解析的方法,虽然解析方法比较简单,且能够得到半结构化的数据,但是中间文件不能完全保持数据在原始文件中的结构和位置信息,甚至在转换过程中会丢失重要数据,这就对后续结构化提取会造成不好的影响,而且提取出来的信息,只是简单的区分为本文及图表,并没有进一步的结构化,如标题、正文、页眉、页脚等。2)获取PDF文件每一页信息,将每一页信息生成树形结构,通过复杂的手写规则将字符片段合并为段落,同时基于统计或直线检测的方法解析出文件中的表格信息,从而实现PDF文件的解析。通过手写规则直接解析PDF文件的方法,虽然能够保证不丢失文件数据,但是针对不同版面格式的文件,就需要不断的添加规则,解析方法会变得越来越复杂,而且规则之间会相互影响,使用范围比较局限,尤其是在文件结构比较复杂的情况下,准确率会显著降低。同样提取出来的信息,只是简单的区分为本文及图表,并没有进一步的结构化,如标题、正文、页眉、页脚等。中国专利“CN201710067220一种PDF文件的信息抽取方法及装置”在上述方法2)的基础上提供了一种对研报文件精细解析并有效抽取图表信息的方法。该方法首先获取PDF文件的每页信息,然后生成每页的树形结构,基于树形结构每个节点的信息,通过统计和预设规则的方法获取到每页的标题、正文、图表和配对的图标标题和图标结尾,最后汇总PDF文件每一页的结果,生成PDF文件的半结构化数据,而且获取了比上述方法更多的信息。该方法虽然一定程度上简化了研报文件后续结构化提取的流程,并且对提取到的数据进行了进一步的结构化,但是该方法本身存在一定的问题,首先,该方法只是简单的将每页中的数据分为正文、标题、图标等类别,但是研报的版面结构是复杂多变的,尤其是研报首页的版面,存在很多不是正文,且不是标题,但比较重要的文本块,该方法中并没有对这部分数据的处理进行介绍。其次,该方法是基于统计与手写规则的,这样方法就有很大的局限性,不能很好的解析具有复杂版面的研报。
技术实现思路
本专利技术针对现有技术中缺少对以PDF发布的研究报告进行准确解析的技术问题,目的在于提供一种既能简化研报文件解析流程,提高解析准确率,又能对研报数据进行充分结构化的基于目标检测的研报解析方法、装置、设备和存储介质。一种基于目标检测的研报解析方法,包括:获取研报文件,通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果;解析所述研报文件,获取所述研报文件内每一页中的字符信息,根据所述目标检测结果,将位于同一个目标内的字符进行合并,得到结构化信息;汇总所述研报文件内每一页的结构化信息,生成所述研报文件的结构化数据。可选的,所述获取研报文件,通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果之前,包括对所述目标检测模型进行训练,训练过程包括:获取多份研报文件,根据所述研报文件的版面结构,将所述研报文件中的数据块划分为不同的类别;将所述研报文件内每一页的页面均转换为图片,得到多份图片文件;根据所述类别标注所述图片文件内的图片,生成用来训练所述目标检测模型的训练数据;根据标注好的所述训练数据,利用目标检测算法训练所述目标检测模型,通过选定不同的特征提取网络,训练出适用于研报文件的目标检测模型。可选的,所述类别包括研报标题、特殊结构、统计图、结构图、表格、图表标题、图表注释、页眉、页脚、正文或正文标题中的至少一种或组合。可选的,所述目标检测算法包括SSD目标检测算法、YOLO目标检测算法或Faster-rcnn目标检测算法中的一种。可选的,对所述目标检测模型进行训练,还包括:获取新的多份研报文件,将新的所述研报文件内每一页的页面均转换为图片,得到多份图片文件;根据所述类别标注所述图片文件内的图片,生成用来训练所述目标检测模型的新的训练数据;根据标注好的新的所述训练数据,利用目标检测算法重新训练所述目标检测模型,得到重新训练后的目标检测模型。可选的,所述获取研报文件,通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果,包括:获取所述研报文件,将所述研报文件内每一页的页面转换为图片,得到图片文件,调用所述目标检测模型,将所述图片文件输入所述目标检测模型,得到所述目标检测结果。可选的,所述目标检测结果包括目标、所述目标在所述图片中的坐标位置和目标类别;所述结构化信息为具有目标类别的结构化信息。可选的,所述汇总所述研报文件内每一页的结构化信息,生成所述研报文件的结构化数据,包括:汇总所述研报文件内每一页的结构化信息,对所述结构化信息按照预设的排序规则进行排序,生成所述研报文件的结构化数据。可选的,所述预设的排序规则为按照所述结构化信息在所述研报文件出现顺序。一种基于目标检测的研报解析装置,包括:确定目标检测结果模块,用于获取研报文件,通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果;解析模块,用于解析所述研报文件,获取所述研报文件内每一页中的字符信息,根据所述目标检测结果,将位于同一个目标内的字符进行合并,得到结构化信息;生成数据模块,用于汇总所述研报文件内每一页的结构化信息,生成所述研报文件的结构化数据。一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述基于目标检测的研报解析方法的步骤。一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述基于目标检测的研报解析方法的步骤。本专利技术的积极进步效果在于:本专利技术采用基于目标检测的研报解析方法、装置、设备和存储介质,通过训练以研报版面分析为基础的目标检测模型,极大的简化了研报文件解析的流程,在不需本文档来自技高网...
【技术保护点】
1.一种基于目标检测的研报解析方法,其特征在于,包括:/n获取研报文件,通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果;/n解析所述研报文件,获取所述研报文件内每一页中的字符信息,根据所述目标检测结果,将位于同一个目标内的字符进行合并,得到结构化信息;/n汇总所述研报文件内每一页的结构化信息,生成所述研报文件的结构化数据。/n
【技术特征摘要】
1.一种基于目标检测的研报解析方法,其特征在于,包括:
获取研报文件,通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果;
解析所述研报文件,获取所述研报文件内每一页中的字符信息,根据所述目标检测结果,将位于同一个目标内的字符进行合并,得到结构化信息;
汇总所述研报文件内每一页的结构化信息,生成所述研报文件的结构化数据。
2.如权利要求1所述的基于目标检测的研报解析方法,其特征在于,所述获取研报文件,通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果之前,包括对所述目标检测模型进行训练,训练过程包括:
获取多份研报文件,根据所述研报文件的版面结构,将所述研报文件中的数据块划分为不同的类别;
将所述研报文件内每一页的页面均转换为图片,得到多份图片文件;
根据所述类别标注所述图片文件内的图片,生成用来训练所述目标检测模型的训练数据;
根据标注好的所述训练数据,利用目标检测算法训练所述目标检测模型,通过选定不同的特征提取网络,训练出适用于研报文件的目标检测模型。
3.如权利要求2所述的基于目标检测的研报解析方法,其特征在于,所述类别包括研报标题、特殊结构、统计图、结构图、表格、图表标题、图表注释、页眉、页脚、正文或正文标题中的至少一种或组合。
4.如权利要求2所述的基于目标检测的研报解析方法,其特征在于,所述目标检测算法包括SSD目标检测算法、YOLO目标检测算法或Faster-rcnn目标检测算法中的一种。
5.如权利要求2至4中任意一项所述的基于目标检测的研报解析方法,其特征在于,对所述目标检测模型进行训练,还包括:
获取新的多份研报文件,将新的所述研报文件内每一页的页面均转换为图片,得到多份图片文件;
根据所述类别标注所述图片文件内的图片,生成用来训练所述目标检测模型的新的训练数据;
根据标注好的新的所述训练数据,利用目标检测算法重新训练所述目标检测模型,得到重新训练后的目标检测模型。
6.如权利要求1...
【专利技术属性】
技术研发人员:朱召文,李宜博,李鹏,
申请(专利权)人:数库上海科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。