从行业报告中抽取关键信息的方法、系统及存储介质技术方案

技术编号:36823337 阅读:19 留言:0更新日期:2023-03-12 01:10
本申请公开了一种从行业报告中抽取关键信息的方法、系统及存储介质,其涉及信息分析提取技术领域,该方法包括如下步骤:获取待抽取关键信息的行业报告文件;将所述行业报告文件的文件类型转换为标准文件类型;提取所述行业报告文件中的文本内容和图表内容;分词处理所述文本内容,得到多个分词文本内容;基于预设的关键文本列表从所有所述分词文本内容中提取关键文本内容;结合图片识别技术和文字识别技术从所述图表内容中提取关键数据内容;结合所述关键文本内容和所述关键数据内容生成所述行业报告文件的关键信息。本申请具有可以从行业研究报告中抽取出关键信息的效果。从行业研究报告中抽取出关键信息的效果。从行业研究报告中抽取出关键信息的效果。

【技术实现步骤摘要】
从行业报告中抽取关键信息的方法、系统及存储介质


[0001]本申请涉及信息分析提取
,尤其是涉及一种从行业报告中抽取关键信息的方法、系统及存储介质。

技术介绍

[0002]随着互联网的快速发展,为方便对企业以及所在行业进行研究分析,许多券商或投资机构对于上市公司都会定期做一个专业的研究报告。目前,研究报告的数量与日俱增,并且涵盖了公司研究、行业研究、宏观研究等不同的主题,如何从海量的研报文档中,筛选自己关心的研究报告,提取有效的信息,进行快速阅读是一个亟待解决的问题。
[0003]在相关技术中,可以收集全行业的研究报告,并获取研究报告中每一页的标题、正文、图表、图表标题和图表结尾等信息,进而对行业研究报告进行半结构化处理,一定程度上简化了用户分析研究报告内容的过程。
[0004]针对上述中的相关技术,专利技术人认为存在有以下缺陷:数量巨大的研究报告不仅具有不同的研究主题,还包含了各种不同的关键信息,这些关键信息可以帮助分析人员从海量研报中快速地筛选出自己需要的研报,仅对研究报告进行半结构化处理仍然难以突显出研究报告中的关键本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种从行业报告中抽取关键信息的方法,其特征在于,包括如下步骤:获取待抽取关键信息的行业报告文件;将所述行业报告文件的文件类型转换为标准文件类型;提取所述行业报告文件中的文本内容和图表内容;分词处理所述文本内容,得到多个分词文本内容;基于预设的关键文本列表从所有所述分词文本内容中提取关键文本内容;结合图片识别技术和文字识别技术从所述图表内容中提取关键数据内容;结合所述关键文本内容和所述关键数据内容生成所述行业报告文件的关键信息。2.根据权利要求1所述的从行业报告中抽取关键信息的方法,其特征在于,所述提取所述行业报告文件中的文本内容和图表内容包括如下步骤:解析所述行业报告文件,得到所述行业报告文件中的所有内容对象;遍历所有所述内容对象,并通过正则表达式识别出所述内容对象中的图表对象;定位并提取所有所述图表对象作为图表内容;剔除所有所述内容对象中的所述图表对象,将剩余的所有所述内容对象转换为文本内容。3.根据权利要求2所述的从行业报告中抽取关键信息的方法,其特征在于,所述定位并提取所有所述图表对象作为图表内容包括如下步骤:定位所述图表对象在所述行业报告文件中的对象位置;获取所述图表对象的对象属性;基于所述对象位置在所述行业报告文件中定位截取位置;基于所述对象属性在所述截取位置划定截取区域;将所述行业报告文件中位于所述截取区域的图表对象截取作为图表内容。4.根据权利要求1所述的从行业报告中抽取关键信息的方法,其特征在于,所述基于预设的关键文本列表从所有所述分词文本内容中提取关键文本内容包括如下步骤:将预设的关键文本列表中的所有关键文本词代入预设的向量计算模型,得到各个所述关键文本词的第一特征向量;将所有所述分词文本内容代入所述向量计算模型,得到各个所述分词文本内容的第二特征向量;逐个选取所述第二特征向量作为目标第二特征向量,并计算所述目标第二特征向量与所有所述第一特征向量之间的余弦相似度;判断是否存在超出预设相似度阈值的所述余弦相似度;若存在超出所述相似度阈值的余弦相似度,则将所述目标第二特征向量对应的分词文本内容作为关键文本内容,并提取所述关键文本内容;若不存在所述相似度阈值的余弦相似度,则选取下一个所述第二特征向量作为目标第二特征向量,并重复余弦相似度计算步骤。5.根据权利要求1所述的从行业报告中抽取关键信息的方法,其特征在于,所述结合图片识别技术和文字识别技术从所述图表内容中提取关键数据内容包括如下步骤:通过图片识别技术识别所述图表内容...

【专利技术属性】
技术研发人员:洪英文李孟赵丽娜
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1