一种股票资讯智能提取方法技术

技术编号:21629722 阅读:36 留言:0更新日期:2019-07-17 11:20
本方法公开了一种通过表格抽取和文本段落相似的方法,来提取个股公告、研报的摘要。采用先分离再合并的策略,分离公告或研报的表格和纯文本,对表格进行结构化处理,对纯文本进行段落划分处理,然后结合预定义的摘要模板(关键词模板),从结构化表格中抽取关键词指标数据并填充模板;从划分段落中寻找与模板最相似的top N个作为摘要候选段落,如果结构化表格中匹配不到关键词,则从候选段落中寻找最相似的段落作为一个子摘要。该方法极大地提高了摘要的准确性,提高编辑人的编辑效率,通过不断反馈提升提取的准确率,最后真正做到自动化。

An Intelligent Extraction Method of Stock Information

【技术实现步骤摘要】
一种股票资讯智能提取方法
本专利技术涉及计算机软件领域,特别是涉及股票相关的资讯,包括上市公司发布的公告、机构发布的研报等其信息智能抽取的场景。
技术介绍
目前,个股公告、研报类型众多,每种类型公告所述重点事件不一,每种类型的个股公告繁多。作为投资者,为了自身利益,及时了解上市公司披露的个股公告、机构发布的研报内容变得很迫切。但是,每种类型的个股公告、研报众多,篇幅冗余。投资者只想了解其中的核心事件及数据(即摘要),而不是花费大量时间精力去下载浏览每一篇公告或研报的内容。目前,从技术上解决该问题方法是采用的基于事件框架的事件信息抽取,基于一整套正则表达式(专家规则),去匹配公告当中的具体事件及数据。但是,这种技术天花板低,专家规则制定繁杂,不能涵盖所有情况,匹配易错,匹配性能差。因此,很多公司针对个股公告、研报摘要的提取主要还是靠人来提取,效率较低。通过观察研究个股公告、研报发现,这些个股公告内容主要是由表格数据及文本组成,其表格条目数据介绍非常规范,结构高度相似。因此,我们专利技术一种智能提取方法,针对性地提取个股公告的表格数据以及剩余文本(剔除表格)当中的核心段落或句子,再按照一定的模板组织成摘要。
技术实现思路
本方法的目的是为了解决目前个股公告、研报人工提取摘要的方法中的技术缺陷,成本高,效率低的问题,设计出一种能快速,有效地直接生成定制的摘要的方法。为了解决上述问题,本方法采用的技术方案是:首先,把个股公告、研报内容通过一定技术转换成html格式;然后,识别出html当中的表格table标签,通过进一步切分table标签中的行tr、列td等标签,提取出表格的条目及数据;再次,提取出html剩余的文本(剔除html标签),按照标点符号切分成句子,并把每个句子切分成关键词,按照BM25算法,提取与给定模板最相似的若干句子;最后,根据提取的句子及表格条目数据,组织成摘要。由于采用上述方法,本方法的有益效果是:(1)本方法针对公告表格进行抽取,可以提取详细条目数据,准确率高,速度快,扩展性强;(2)采用文本相似算法计算与指定模块相似的句子即可,不需要制定繁杂规则;(3)指定模块(领域产品指定)只需包括关键词即可,不要专家规则。附图说明图1是本方法系统框架图。图2是本方式具体实施流程图。图3是本方式产品侧实施自动化流程图。具体实施方式该方法系统架构图如图1所示,其中各个模块的功能说明如下:1:配置抓取源URL及抓取规则;2:根据配置的抓取源URL及抓取规则,进行公告的抓取;3:利用PDF2HTML开源库,把抓取的公告转换成HTML格式;4:清理HTML中冗余的标签、样式等;5:抽取HTML中Table标签,存储成列表形式tableList;6:抽取HTML的纯文本信息,按照设定的标点符号分割成列表存储sentenceList;7:把每个表格结构化处理,抽取出表格中的条目及其数据,以<Key,Value>形式存储;8:根据预设的摘要关键词模块,根据关键词抽取出tableList中数据并填充模块。对于抽取不到的情况,从sentenceList中找到最相似的句子替换。该方法目前应用于优品-资讯-公告摘要编辑平台,供公告摘要编辑人审核参考使用,产品侧的实施方式如下:首先,公告、研报摘要编辑人进入公告摘要编辑系统,编辑人查询到某一类型的公告或研报;其次,编辑人点击公告或研报的标题对公告进行编辑,系统推荐出该公告的摘要,编辑人可以采用该摘要,也可以拒绝该摘要,通过逐渐反馈,我们逐步改进方法提取摘要准确性;最后,通过编辑人的进一步反馈,逐步优化过程,最终做到摘要提取的自动化(如图3)。该方法的处理流程图如图2所示,对于有表格存在的公告,我们重点抽取表格中的数据及其含义,对于不存在表格的公告,我们重点抽取其相似段落。该方法创新性主要有两点。第一创新点:通过提取表格来提取公告的中的核心数据。特别是投资者最关心的数据,大大提高了摘要的数据支撑。通过研究个股公告发现,对于定期报告,快报等类型公告,其中含有表格的概率为99%,如定期公告图所示,几乎全部这种类型的公告都是通过表格形式表达核心数据的,其表达方式大同小异,非常具有结构化的特性。第二创新点:通过自然语言处理技术,利用分段,分词,BM25相似性算法计算出与模板最匹配的句子。每个公告类别配置一种模板,模块包含关键词即可,不需要专家规则指导配置,大大节省人力体力。该方法还具有进一步优化空间,目前用到的文本相似性算法是BM25算法,该算法关注关键词的存在与否,没有关注相似的语义词,但我们通过词向量(wordembedding)计算句子与摘要模板关键词的语义相似度,进一步提升抽取的准确性。本文档来自技高网...

【技术保护点】
1.一种个股公告智能摘要提取方法,观察寻找个股公告特点,发现大多由表格和纯文本组成,同种类型的个股公告表格结构相似,对个股公告采用先分再合的策略,先分离表格和纯文本,分别进行各自独立的处理后,再合并处理之后的结果。

【技术特征摘要】
1.一种个股公告智能摘要提取方法,观察寻找个股公告特点,发现大多由表格和纯文本组成,同种类型的个股公告表格结构相似,对个股公告采用先分再合的策略,先分离表格和纯文本,分别进行各自独立的处理后,再合并处理之后的结果。2.根据权利要求1所述的方法,对表格的处理为,提取表格中每个条目对应的数值,结构化存储。3.根据权...

【专利技术属性】
技术研发人员:万雪婷
申请(专利权)人:武汉楚鼎信息技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1