研报摘要的观点详情提取方法、装置、设备和存储介质制造方法及图纸

技术编号:29307239 阅读:28 留言:0更新日期:2021-07-17 01:56
本发明专利技术属于数据处理技术领域,具体涉及一种研报摘要的观点详情提取方法、装置、设备和存储介质。其中方法包括:获取研报文件,从研报文件中获取多个文本数据和文本区块;在文本区块中查找摘要部分,从对应的文本数据中获取摘要文本;在摘要文本中根据文本特征分析出有效分类特征,根据有效分类特征按照段落顺序对摘要文本分类;根据分类提取摘要文本的观点和详情。本发明专利技术能够处理多种复杂格式的研报,且可以准确划分出研报摘要部分,在划分观点和详情时可以自适应的选择特征进行分类。时可以自适应的选择特征进行分类。时可以自适应的选择特征进行分类。

Method, device, equipment and storage medium for extracting opinion details of Research Report Abstract

【技术实现步骤摘要】
研报摘要的观点详情提取方法、装置、设备和存储介质


[0001]本专利技术属于数据处理
,具体涉及一种研报摘要的观点详情提取方法、装置、设备和存储介质。

技术介绍

[0002]为了应对信息量大而复杂的上市公司研报,帮助专业投资人员在海量研报中整合关键观点,需要在研报摘要部分提取出观点及对应的详情。而不同的券商发出的研究报告格式不同,行文也千差万别,这就给观点和详情的提取带来困难。
[0003]中国专利“CN 107358208 A一种PDF文档结构化信息提取方法及装置”提出了一种PDF文档结构化信息提取方法,此方法首先要将原始页中的目录、页眉、页脚信息删除,得到一个实际页,在实际页根据标题级别提取标题及隶属于此标题的文本内容,此方法只适用于有规范标题的文本。在获取实际页的过程中需根据关键词或规则来判断此页是否为目录、是否有页眉页脚,根据关键词或规则来判断会限制此方法的泛化能力。

技术实现思路

[0004]本专利技术针对信息量大而复杂的公司研报,难以自研报摘要中提取出观点及对应的详情的技术问题,目的在于提供一种能够在多种复杂格式的研报摘要中准确提取出观点及详情的研报摘要的观点详情提取方法、装置、设备和存储介质。
[0005]研报摘要的观点详情提取方法,包括:
[0006]获取研报文件,从所述研报文件中获取多个文本数据和多个文本区块;
[0007]在所述文本区块中查找摘要部分,根据所述摘要部分的坐标,从对应的所述文本数据中获取摘要文本;
[0008]在所述摘要文本中根据文本特征分析出有效分类特征,根据所述有效分类特征按照段落顺序对所述摘要文本分类;
[0009]根据分类提取所述摘要文本的观点和详情。
[0010]可选的,所述获取研报文件,从所述研报文件中获取多个文本数据和多个文本区块,包括:
[0011]获取研报文件,采用预设的解析工具解析所述研报文件,得到包含文本特征、坐标和页码的完整文本段落数据,按照所述文本特征划分成多个所述文本数据,所述文本特征包括文字颜色、字号、字体或是否加粗中的至少一种特征,所述文本数据的坐标包括X坐标、Y坐标、文本宽度和文本高度;
[0012]通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果作为所述文本区块,所述目标检测结果为多个目标在所述研报文件中的坐标、页码及类别信息,所述文本区块的坐标包括X坐标、Y坐标、文本区块宽度和文本区块高度。
[0013]可选的,所述类别信息包括研报标题、特殊结构、统计图、结构图、表格、图表标题、图表注释、页眉、页脚、正文或正文标题中的至少一种或组合。
[0014]可选的,所述通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果作为所述文本区块,包括:
[0015]获取所述研报文件,将所述研报文件内每一页的页面转换为图片,得到图片文件,调用所述目标检测模型,将所述图片文件输入所述目标检测模型,得到所述目标检测结果。
[0016]可选的,所述通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果作为所述文本区块后,包括:
[0017]从多个所述文本区块中筛选出类别信息为正文或正文标题的所述文本区块。
[0018]可选的,所述获取研报文件,从所述研报文件中获取多个文本数据和多个文本区块之后,还包括根据所述文本区块过滤所述文本数据,得到过滤后的文本数据:
[0019]对多个所述文本数据和筛选后的所述文本区块分别进行重构,重构的方法为从第二页开始,下一页的Y坐标减去上一页的页脚高度及本页的页眉高度,然后累加到前面的Y坐标;
[0020]判断所述文本数据的坐标是否在所述文本区块的坐标范围内,若所述文本数据的坐标在所述文本区块的坐标范围内,则保留所述文本数据,否则丢弃所述文本数据。
[0021]可选的,所述在所述文本区块中查找摘要部分,根据所述摘要部分的坐标,从对应的所述文本数据中获取摘要文本,包括:
[0022]以所述文本区块的开始位置作为摘要部分的开始部分,若任一所述文本区块中含有预设的摘要截止标志,则到含有所述摘要截止标志的所述文本区块为止都属于所述摘要部分;
[0023]若所述文本区块中不含有所述摘要截止标志,则根据相邻两个所述文本区块之间的距离获取截止位置,确定摘要截止的所述文本区块。
[0024]可选的,所述根据相邻两个所述文本区块之间的距离获取截止位置,确定摘要部分截止的所述文本区块,包括:
[0025]相邻两个所述文本区块之间的距离大于预设距离阈值时,确定摘要部分截止于前一个所述文本区块;
[0026]相邻两个所述文本区块之间具有连续的图片类别或表格类别时,确定摘要部分截止于前一个所述文本区块。
[0027]可选的,所述在所述摘要文本中根据文本特征分析出有效分类特征,根据所述有效分类特征按照段落顺序对所述摘要文本分类,包括:
[0028]统计所述研报文件中所有摘要文本的文本特征,分析所述文本特征的数量和分布,若任一所述文本特征满足预设数量条件且满足预设分布条件,则认为所述文本特征属于有效分类特征,按照段落顺序对所有摘要文本中的段落进行是否包含标题的分类;
[0029]若所述研报文件中没有一个所述文本特征满足条件,则将所述摘要文本的每一段均划分为包含标题的段落。
[0030]可选的,所述根据分类提取所述摘要文本的观点和详情,包括:
[0031]若一段段落的分类是不包含标题,则合并到上一段的详情中,默认第一段包含标题;
[0032]若一段段落的分类是包含标题,则判断当前段落的文本开头是否有加粗字体,若文本开头具有加粗字体,则加粗字体为观点,其他为详情,否则当前段落的第一句为观点,
其他为详情。
[0033]一种研报摘要的观点详情提取装置,包括:
[0034]获取数据模块,用于获取研报文件,从所述研报文件中获取多个文本数据和多个文本区块;
[0035]获取摘要文本模块,用于在所述文本区块中查找摘要部分,根据所述摘要部分的坐标,从对应的所述文本数据中获取摘要文本;
[0036]分类模块,用于在所述摘要文本中根据文本特征分析出有效分类特征,根据所述有效分类特征按照段落顺序对所述摘要文本分类;
[0037]提取观点和详情模块,用于根据分类提取所述摘要文本的观点和详情。
[0038]一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述研报摘要的观点详情提取方法的步骤。
[0039]一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述研报摘要的观点详情提取方法的步骤。
[0040]本专利技术的积极进步效果在于:本专利技术采用研报摘要的观点详情提取方法、装置、设备和存储介质,能够处理多种复杂格式的研报,且可以准确划分出研报摘要部分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种研报摘要的观点详情提取方法,其特征在于,包括:获取研报文件,从所述研报文件中获取多个文本数据和多个文本区块;在所述文本区块中查找摘要部分,根据所述摘要部分的坐标,从对应的所述文本数据中获取摘要文本;在所述摘要文本中根据文本特征分析出有效分类特征,根据所述有效分类特征按照段落顺序对所述摘要文本分类;根据分类提取所述摘要文本的观点和详情。2.如权利要求1所述的研报摘要的观点详情提取方法,其特征在于,所述获取研报文件,从所述研报文件中获取多个文本数据和多个文本区块,包括:获取研报文件,采用预设的解析工具解析所述研报文件,得到包含文本特征、坐标和页码的完整文本段落数据,按照所述文本特征划分成多个所述文本数据,所述文本特征包括文字颜色、字号、字体或是否加粗中的至少一种特征,所述文本数据的坐标包括X坐标、Y坐标、文本宽度和文本高度;通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果作为所述文本区块,所述目标检测结果为多个目标在所述研报文件中的坐标、页码及类别信息,所述文本区块的坐标包括X坐标、Y坐标、文本区块宽度和文本区块高度。3.如权利要求2所述的研报摘要的观点详情提取方法,其特征在于,所述类别信息包括研报标题、特殊结构、统计图、结构图、表格、图表标题、图表注释、页眉、页脚、正文或正文标题中的至少一种或组合。4.如权利要求2所述的研报摘要的观点详情提取方法,其特征在于,所述通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果作为所述文本区块,包括:获取所述研报文件,将所述研报文件内每一页的页面转换为图片,得到图片文件,调用所述目标检测模型,将所述图片文件输入所述目标检测模型,得到所述目标检测结果。5.如权利要求2所述的研报摘要的观点详情提取方法,其特征在于,所述通过预设的目标检测模型对所述研报文件进行目标检测,得到目标检测结果作为所述文本区块后,包括:从多个所述文本区块中筛选出类别信息为正文或正文标题的所述文本区块。6.如权利要求1所述的研报摘要的观点详情提取方法,其特征在于,所述获取研报文件,从所述研报文件中获取多个文本数据和多个文本区块之后,还包括根据所述文本区块过滤所述文本数据,得到过滤后的文本数据:对多个所述文本数据和筛选后的所述文本区块分别进行重构,重构的方法为从第二页开始,下一页的Y坐标减去上一页的页脚高度及本页的页眉高度,然后累加到前面的Y坐标;判断所述文本数据的坐标是否在所述文本区块的坐标范围内,若所述文本数据的坐标在所述文本区块的坐标范围内,则保留所述文本数据,否则丢弃所述文本数据。7.如权利要求1所述的研报摘要的观点详情提取方法,其特征在于,所述在所述文本区块中查找摘要部分,根据所述摘要部分的坐标,从对应的所述文本数据中获取摘要...

【专利技术属性】
技术研发人员:王静贾宁
申请(专利权)人:数库上海科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1