当前位置: 首页 > 专利查询>暨南大学专利>正文

一种年报文本标题自动标注系统技术方案

技术编号:22219241 阅读:28 留言:0更新日期:2019-09-30 01:24
本发明专利技术公开了一种年报文本标题自动标注系统,其具体方法为:A、对不同级别的一级标题和二级标题都要进行两次标注;B、匹配一级标题,第一次标注将完全和标题模板匹配,以及通过相似度计算达到阈值的一级标题别添加M、S标注,并筛选越级标注,第二次标注将通过相似度计算而标注的标题进行二次匹配涉及年报文本标题标注技术领域。该年报文本标题自动标注系统,发明专利技术选择采用机器视觉的方法对财务报告文本版面进行识别,并将机器视觉和规则统计文本抽取方法有机结合起来,以解决较难准确的对标题进行标注的问题。

An Automatic Annual Report Text Title Marking System

【技术实现步骤摘要】
一种年报文本标题自动标注系统
本专利技术涉及年报文本标题标注
,具体为一种年报文本标题自动标注系统。
技术介绍
财务报告文本具有严格的规范性和缜密的逻辑结构,其章节段落蕴含着丰富的披露信息,识别PDF中字体的样式作为财务报告中标题抽取的一个特征,充分分析后发现深度解析PDF格式能够实现PDF中文文本的识别,然而由于企业报送的PDF并没有严格统一的模版来要求字体等格式信息,所以即使得到PDF中各层级标题的字体,也很难将这些字体信息统一成一个抽取规则。人们视觉上接触财务报告文本的时候总是能根据某种先验知识直接判断出哪些是标题,哪些是正文文本,也就在阅读一本年报的时候,人们可以根据年报规范化的披露模式判断出PDF财务报告的篇章结构和概要内容。本专利技术人受此启发,结合数学形态学原理,本专利技术将基于视觉的年报概要识别的问题转换成基于的数学形态学的滤波行为,考虑现实操作环境,本专利技术选择采用机器视觉的方法对财务报告文本版面进行识别,并将机器视觉和规则统计文本抽取方法有机结合起来,以解决较难准确的对标题进行标注的问题。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种年报文本标题自动标注系统,解决了较难准确的对标题进行标注的问题。(二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:一种年报文本标题自动标注系统,其具体方法为:A、对不同级别的一级标题和二级标题都要进行两次标注;B、匹配一级标题,第一次标注将完全和标题模板匹配,以及通过相似度计算达到阈值的一级标题别添加M、S标注,并筛选越级标注,第二次标注将通过相似度计算而标注的标题进行二次匹配;C、对于二级标题,则计算其二级标题与模板对应一级标题所有的二级标题的匹配度,过财务报告的特点,确定该标题最终是否添加标注,对于没有二级标题的,则将其邻近的上一个和下一个标题与模板中对应的一级标题的进行匹配,通过判断其是否完全匹配,或者达到一定相似度值的,确定最终是否添加标注。优选的,步骤B中第一次标注的具体步骤为:步骤1、财务报告文本和模版完全相同的标题,标记为M。步骤2、无法在模版中匹配完全一样的标题,通过相似度计算,在模版中找出一个相似度最高的标题,标记为S。步骤3、完成步骤2后,将会出现部分不同级别标题会被标记的情况,去掉不同级别标题的标记,过统计被标记M的标题的样式,得到标题的样式。优选的,步骤B中第二次标注将通过计算相似度而给部分标题添加S标记中不符合要求的标题进行筛选。优选的,所述第二次标注具体步骤为:步骤1、读取标注为S的标题内容;步骤2、获取当前标题在模板对应标题的二级标题数量total;步骤3、若total等于0,可判断其上下文的一级标题在模版是否存在,是否位于相似位置,如果是,则将删除S标注,添加M标注,即认为其符合匹配要求;若total不等于0,则计算当前标题所有二级标题与模板对应二级标题的相似度。如果相似度值到达阈值,则删除S标注,添加M标注,否则,仅删除S标注;步骤4得到最终的标题标注结果。优选的,所述标题模板覆盖的范围仅在财务报告。(三)有益效果本专利技术提供了一种年报文本标题自动标注系统。具备以下有益效果:(1)、该年报文本标题自动标注系统,通过基于文本相似度计算提出一种考虑标题上下文信息的标题标注方法,考虑到年报标题作为一种短文本(如:税项,只有一个词的标题),直接通过余弦系数相似度计算方法较难准确的对标题进行标注,而财务报告披露内容往往有较好的上下文信息要求和规范的披露次序,结合该特点,考虑将年报标题的上下文信息结合进来考虑,再去计算标题和模版中文本行的相似度,可以较为准确的映射到标题对应的模版行,从而实现利用模版对年报进行标注,结合上下文信息的标题标注方法可以大幅提高标注的范围和准确度。附图说明图1为本专利技术第一次标注的初步匹配标题流程图;图2为本专利技术第二次标注的筛选部分标记的标题流程图;具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-2,本专利技术实施例提供一种技术方案:一种年报文本标题自动标注系统,其具体方法为:A、对不同级别的一级标题和二级标题都要进行两次标注;B、匹配一级标题,第一次标注将完全和标题模板匹配,以及通过相似度计算达到阈值的一级标题别添加M、S标注,并筛选越级标注,第二次标注将通过相似度计算而标注的标题进行二次匹配;C、对于二级标题,则计算其二级标题与模板对应一级标题所有的二级标题的匹配度,过财务报告的特点,确定该标题最终是否添加标注,对于没有二级标题的,则将其邻近的上一个和下一个标题与模板中对应的一级标题的进行匹配,通过判断其是否完全匹配,或者达到一定相似度值的,确定最终是否添加标注;进一步地,步骤B中第一次标注的具体步骤为:步骤1、财务报告文本和模版完全相同的标题,标记为M;步骤2、无法在模版中匹配完全一样的标题,通过相似度计算,在模版中找出一个相似度最高的标题,标记为S;步骤3、完成步骤2后,将会出现部分不同级别标题会被标记的情况,去掉不同级别标题的标记,过统计被标记M的标题的样式,得到标题的样式;进一步地,步骤B中第二次标注将通过计算相似度而给部分标题添加S标记中不符合要求的标题进行筛选;进一步地,第二次标注具体步骤为:步骤1、读取标注为S的标题内容;步骤2、获取当前标题在模板对应标题的二级标题数量total;步骤3、若total等于0,可判断其上下文的一级标题在模版是否存在,是否位于相似位置,如果是,则将删除S标注,添加M标注,即认为其符合匹配要求;若total不等于0,则计算当前标题所有二级标题与模板对应二级标题的相似度。如果相似度值到达阈值,则删除S标注,添加M标注,否则,仅删除S标注;步骤4得到最终的标题标注结果;进一步地,标题模板覆盖的范围仅在财务报告,本专利技术对年报分析的主要工作在“财务报告”模块,所以标题模板覆盖的范围仅在“财务报告”模块,在年报中,“财务报告”属于一级标题,其下包含二级标题、三级标题;对于标题模板而言,一级标题等同于“财务报告”中的二级标题,同理,二级标题等同于“财务报告”中的三级标题;标题模板是经人工分析100篇各个领域的年报后提取出来的,最终的标题标注结果显示该模板的覆盖性较好、标题匹配率较高,一级标题和二级标题的匹配度都可以达到80%以上。为了兼顾体现不同级别标题间的逻辑关系和提高编码的实用性两方面,标题模板编码的规则如下:一级标题:以“10000”开始,以“10000”为单位递增,即一级标题编码从数学的角度看,具备是能够被“10000”整除的显著特点;二级标题:从在其所属的一级标题的编码基础上加上“100”开始编码,以“100”为单位递增,即二级标题编码从数学的角度看,具备是能够被“100”整除且不能被“10000”整除的显著特点。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语本文档来自技高网...

【技术保护点】
1.一种年报文本标题自动标注系统,其具体方法为:A、对不同级别的一级标题和二级标题都要进行两次标注;B、匹配一级标题,第一次标注将完全和标题模板匹配,以及通过相似度计算达到阈值的一级标题别添加M、S标注,并筛选越级标注,第二次标注将通过相似度计算而标注的标题进行二次匹配;C、对于二级标题,则计算其二级标题与模板对应一级标题所有的二级标题的匹配度,过财务报告的特点,确定该标题最终是否添加标注,对于没有二级标题的,则将其邻近的上一个和下一个标题与模板中对应的一级标题的进行匹配,通过判断其是否完全匹配,或者达到一定相似度值的,确定最终是否添加标注。

【技术特征摘要】
1.一种年报文本标题自动标注系统,其具体方法为:A、对不同级别的一级标题和二级标题都要进行两次标注;B、匹配一级标题,第一次标注将完全和标题模板匹配,以及通过相似度计算达到阈值的一级标题别添加M、S标注,并筛选越级标注,第二次标注将通过相似度计算而标注的标题进行二次匹配;C、对于二级标题,则计算其二级标题与模板对应一级标题所有的二级标题的匹配度,过财务报告的特点,确定该标题最终是否添加标注,对于没有二级标题的,则将其邻近的上一个和下一个标题与模板中对应的一级标题的进行匹配,通过判断其是否完全匹配,或者达到一定相似度值的,确定最终是否添加标注。2.根据权利要求1所述的一种年报文本标题自动标注系统,其特征在于:步骤B中第一次标注的具体步骤为:步骤1、财务报告文本和模版完全相同的标题,标记为M。步骤2、无法在模版中匹配完全一样的标题,通过相似度计算,在模版中找出一个相似度最高的标题,标记为S。步骤3、完成步骤2后,将会出现部分不同级别...

【专利技术属性】
技术研发人员:梁倬骞潘定罗旭龙舜伍旭
申请(专利权)人:暨南大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1