基于目标检测的研报解析方法、装置、设备和存储介质制造方法及图纸

技术编号:28943145 阅读:32 留言:0更新日期:2021-06-18 21:51
本发明专利技术属于数据处理技术领域,具体涉及一种基于目标检测的研报解析方法、装置、设备和存储介质。其中方法包括获取研报文件,通过目标检测模型对研报文件进行目标检测,得到目标检测结果;解析研报文件,获取研报文件内每一页中的字符信息,根据目标检测结果,将位于同一个目标内的字符进行合并,得到结构化信息;汇总研报文件内每一页的结构化信息,生成研报文件的结构化数据。本发明专利技术通过训练以研报版面分析为基础的目标检测模型,极大的简化了研报文件解析的流程,在不需要复杂规则的条件下,就可以充分的结构化研报内容。

【技术实现步骤摘要】
基于目标检测的研报解析方法、装置、设备和存储介质
本专利技术属于数据处理
,具体涉及一种基于目标检测的研报解析方法、装置、设备和存储介质。
技术介绍
随着互联网的快速发展,为方便更多投资者进行投资,许多券商或投资机构对于上市公司都会定期做一个专业的研究报告,研究报告通常都是以PDF文件发布的,但不同券商或投资机构研究报告的版面结构都是不同的,而且文件结构都比较复杂。解析这些PDF格式的研报文件,从中得到结构化数据,是一个常见的需求,这就不可避免的要对文件的内容进行解析与提取,但由于PDF格式文档结构的封闭性,并没有对文件中的文字、表格和图片等信息进行很好的结构化,现有技术直接抽取到的信息是离散的、不完整的、没有逻辑关系的字符片段。虽然目前解析PDF文件的工具有很多,但解析准确率普遍不高,特别是对研报文件的解析,基本上不能满足使用需求。现有的PDF文件解析的方法主要有以下两种:1)使用格式转换工具将PDF文件先转换为一种中间格式的文档,如XML或DOC等,然后从中间格式的文件中解析文件中的数据。通过将PDF文件转换为本文档来自技高网...

【技术保护点】
1.一种基于目标检测的研报解析方法,其特征在于,包括:/n获取研报文件,通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果;/n解析所述研报文件,获取所述研报文件内每一页中的字符信息,根据所述目标检测结果,将位于同一个目标内的字符进行合并,得到结构化信息;/n汇总所述研报文件内每一页的结构化信息,生成所述研报文件的结构化数据。/n

【技术特征摘要】
1.一种基于目标检测的研报解析方法,其特征在于,包括:
获取研报文件,通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果;
解析所述研报文件,获取所述研报文件内每一页中的字符信息,根据所述目标检测结果,将位于同一个目标内的字符进行合并,得到结构化信息;
汇总所述研报文件内每一页的结构化信息,生成所述研报文件的结构化数据。


2.如权利要求1所述的基于目标检测的研报解析方法,其特征在于,所述获取研报文件,通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果之前,包括对所述目标检测模型进行训练,训练过程包括:
获取多份研报文件,根据所述研报文件的版面结构,将所述研报文件中的数据块划分为不同的类别;
将所述研报文件内每一页的页面均转换为图片,得到多份图片文件;
根据所述类别标注所述图片文件内的图片,生成用来训练所述目标检测模型的训练数据;
根据标注好的所述训练数据,利用目标检测算法训练所述目标检测模型,通过选定不同的特征提取网络,训练出适用于研报文件的目标检测模型。


3.如权利要求2所述的基于目标检测的研报解析方法,其特征在于,所述类别包括研报标题、特殊结构、统计图、结构图、表格、图表标题、图表注释、页眉、页脚、正文或正文标题中的至少一种或组合。


4.如权利要求2所述的基于目标检测的研报解析方法,其特征在于,所述目标检测算法包括SSD目标检测算法、YOLO目标检测算法或Faster-rcnn目标检测算法中的一种。


5.如权利要求2至4中任意一项所述的基于目标检测的研报解析方法,其特征在于,对所述目标检测模型进行训练,还包括:
获取新的多份研报文件,将新的所述研报文件内每一页的页面均转换为图片,得到多份图片文件;
根据所述类别标注所述图片文件内的图片,生成用来训练所述目标检测模型的新的训练数据;
根据标注好的新的所述训练数据,利用目标检测算法重新训练所述目标检测模型,得到重新训练后的目标检测模型。


6.如权利要求1...

【专利技术属性】
技术研发人员:朱召文李宜博李鹏
申请(专利权)人:数库上海科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1