【技术实现步骤摘要】
一种股票资讯智能提取方法
本专利技术涉及计算机软件领域,特别是涉及股票相关的资讯,包括上市公司发布的公告、机构发布的研报等其信息智能抽取的场景。
技术介绍
目前,个股公告、研报类型众多,每种类型公告所述重点事件不一,每种类型的个股公告繁多。作为投资者,为了自身利益,及时了解上市公司披露的个股公告、机构发布的研报内容变得很迫切。但是,每种类型的个股公告、研报众多,篇幅冗余。投资者只想了解其中的核心事件及数据(即摘要),而不是花费大量时间精力去下载浏览每一篇公告或研报的内容。目前,从技术上解决该问题方法是采用的基于事件框架的事件信息抽取,基于一整套正则表达式(专家规则),去匹配公告当中的具体事件及数据。但是,这种技术天花板低,专家规则制定繁杂,不能涵盖所有情况,匹配易错,匹配性能差。因此,很多公司针对个股公告、研报摘要的提取主要还是靠人来提取,效率较低。通过观察研究个股公告、研报发现,这些个股公告内容主要是由表格数据及文本组成,其表格条目数据介绍非常规范,结构高度相似。因此,我们专利技术一种智能提取方法,针对性地提取个股公告的表格数据以及剩余文本(剔除表格)当中的核心段落或句子,再按照一定的模板组织成摘要。
技术实现思路
本方法的目的是为了解决目前个股公告、研报人工提取摘要的方法中的技术缺陷,成本高,效率低的问题,设计出一种能快速,有效地直接生成定制的摘要的方法。为了解决上述问题,本方法采用的技术方案是:首先,把个股公告、研报内容通过一定技术转换成html格式;然后,识别出html当中的表格table标签,通过进一步切分table标签中的行tr、列td等标签,提取 ...
【技术保护点】
1.一种个股公告智能摘要提取方法,观察寻找个股公告特点,发现大多由表格和纯文本组成,同种类型的个股公告表格结构相似,对个股公告采用先分再合的策略,先分离表格和纯文本,分别进行各自独立的处理后,再合并处理之后的结果。
【技术特征摘要】
1.一种个股公告智能摘要提取方法,观察寻找个股公告特点,发现大多由表格和纯文本组成,同种类型的个股公告表格结构相似,对个股公告采用先分再合的策略,先分离表格和纯文本,分别进行各自独立的处理后,再合并处理之后的结果。2.根据权利要求1所述的方法,对表格的处理为,提取表格中每个条目对应的数值,结构化存储。3.根据权...
【专利技术属性】
技术研发人员:万雪婷,
申请(专利权)人:武汉楚鼎信息技术有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。