行业研究报告的搜索方法、装置及电子设备制造方法及图纸

技术编号:30428519 阅读:25 留言:0更新日期:2021-10-24 17:17
本发明专利技术提供一种行业研究报告的搜索方法、装置及电子设备,该方法包括:获取pdf格式的行业研究报告;解析行业研究报告中的文本及段落,获取段落关键特征信息;定位行业研究报告中的图表位置坐标,获取图表关键特征信息;将段落关键特征信息和图表关键特征信息输入行业标签模型,输出至少一个行业标签打分结果;根据文本、段落关键特征信息和图表关键特征信息,建立检索集群索引和映射字段,实时更新并推送检索集群索引;选择行业词或产业词为搜索输入关键词,至少根据行业标签打分结果设定排序规则;利用分布式服务架构对检索集群索引进行搜索,通过映射字段确定搜索结果,根据排序规则展示搜索结果。本发明专利技术的技术方案能够提高搜索结果的准确性。搜索结果的准确性。搜索结果的准确性。

【技术实现步骤摘要】
行业研究报告的搜索方法、装置及电子设备


[0001]本专利技术属于数据处理
,尤其涉及一种行业研究报告的搜索方法、装置及电子设备。

技术介绍

[0002]随着互联网技术的持续快速发展,数据已经渗透到当今每一个行业,并以爆炸性的速度增长,成为重要的生产要素。为了方便行业分析师从众多行业研究报告中检索到目标行业的研究报告,并从中获取需要的内容片段,需要对行业研究报告中的内容进行精细的结构化,尽可能多的识别出有效信息,并将其组织起来。
[0003]然而,现有技术中,在检索PDF格式的行业研究报告的过程中,只提取出PDF文件中的文本信息,然后构建检索集群索引,虽然可支持业务检索,但搜索的召回结果的准确性很难有保证。

技术实现思路

[0004]有鉴于此,本专利技术提供一种行业研究报告的搜索方法、装置及电子设备,提高搜索结果的准确性。
[0005]第一方面,本专利技术提供一种行业研究报告的搜索方法,采用如下技术方案:
[0006]所述行业研究报告的搜索方法包括:
[0007]获取pdf格式的行业研究报告本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种行业研究报告的搜索方法,其特征在于,包括:获取pdf格式的行业研究报告;解析所述行业研究报告中每页pdf的文本及段落,并获取段落关键特征信息;定位所述行业研究报告中的图表位置坐标,并获取图表关键特征信息;将所述段落关键特征信息和所述图表关键特征信息输入行业标签模型,输出所述行业研究报告对应的至少一个行业标签打分结果;根据所述文本、所述段落关键特征信息和所述图表关键特征信息,建立检索集群索引和映射字段,实时更新并推送所述检索集群索引;选择行业词或产业词为搜索输入关键词,并至少根据所述行业标签打分结果设定排序规则;利用分布式服务架构对所述检索集群索引进行搜索,通过所述映射字段确定搜索结果,并根据所述排序规则展示所述搜索结果。2.根据权利要求1所述的行业研究报告的搜索方法,其特征在于,所述解析所述行业研究报告中每页pdf的文本及段落包括:通过pdfminer解析所述行业研究报告中每页pdf的文本及段落,并通过预设的过滤规则过滤掉冗余的段落。3.根据权利要求1所述的行业研究报告的搜索方法,其特征在于,所述段落关键特征信息至少包括所述行业研究报告的标题、段落内容;所述图表关键特征信息至少包括所述行业研究报告的标题、图表标题。4.根据权利要求1所述的行业研究报告的搜索方法,其特征在于,所述输出所述行业研究报告对应的至少一个行业标签打分结果包括:输出所述行业研究报告对应的多个行业标签打分结果,不同行业标签对应的行业标签打分结果不同。5.根据权利要求1所述的行业研究报告的搜索方法,其特征在于,所述实时更新所述检索集群索引包括:通过canal实时消费mysql binlog,通过适配器将canal消费得到的数据异构到检索集群或消息队列,完成所述检索集群索引的实时更新。6.根据权利要求1所述的行业研究...

【专利技术属性】
技术研发人员:李朋超温馨
申请(专利权)人:北京易创新科信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1