当前位置: 首页 > 专利查询>暨南大学专利>正文

一种年报中的金融领域事件句提取方法技术

技术编号:25637852 阅读:22 留言:0更新日期:2020-09-15 21:30
发明专利技术公开了一种年报中的金融领域事件句提取方法,具体步骤为:步骤1、输入财务报告数据,步骤2、对数据进行预处理,步骤3、选取基于感知机序列标注的命名实体识别,步骤4、改进基于TextRank的关键词提取算法,步骤5、输出得出文本关键词,本发明专利技术涉及金融领域事件句提取技术领域。该年报中的金融领域事件句提取方法,解决了TextRank关键词提取算法分词时忽略命名实体,关键词提取计算算法不理想,以及容易被噪声信息干扰导致提取关键词错误的问题。

【技术实现步骤摘要】
一种年报中的金融领域事件句提取方法
专利技术涉及金融领域事件句提取
,具体为一种年报中的金融领域事件句提取方法。
技术介绍
随着互联网的兴起与信息科技的发展,大量数据以及文本以计算机作为媒体进行展现,大部分冗杂的互联网短文本需要用户花费大量时间阅读与理解,如何利用计算机快速地处理短文本与准确地提炼文本关键词或摘要成为目前自然语言处理领域的研究热点与主要问题,在自然语言处理领域中,信息抽取技术可以有效地解决问题。TextRank关键词提取算法分词时忽略命名实体,关键词提取计算算法不理想,以及容易被噪声信息干扰导致提取关键词错误。
技术实现思路
针对现有技术的不足,专利技术提供了一种年报中的金融领域事件句提取方法,解决了TextRank关键词提取算法分词时忽略命名实体,关键词提取计算算法不理想,以及容易被噪声信息干扰导致提取关键词错误的问题。为实现以上目的,专利技术通过以下技术方案予以实现:一种年报中的金融领域事件句提取方法,具体步骤为:步骤1、输入财务报告数据;步骤2、对数据进行预处理;步骤3、选取基于感知机序列标注的命名实体识别;步骤4、改进基于TextRank的关键词提取算法;步骤5、输出得出文本关键词。优选的,步骤3中基于感知机序列标注的命名实体识别的方法为:A、感知机模型进行训练;B、文本词语序列标注;C、命名实体识别分词。优选的,步骤4中改进基于TextRank的关键词提取算法,具体步骤为:a、构建TextRank图模型;b、迭代计算;c、计算词语权重;d、排名。优选的,步骤A中感知机模型具体为基于线性感知算法的机器学习基础模型,通过计算误差调整模型。优选的,步骤4中所述TextRank为基于PageRank网页排序算法改进的文本排序算法。优选的,步骤C中感知机模型通过计算误差调整模型。有益效果专利技术提供了一种年报中的金融领域事件句提取方法。具备以下有益效果:该年报中的金融领域事件句提取方法,通过构建TextRank图模型、迭代计算、计算词语权重和排名,对其不足之处进行改进,解决了TextRank关键词提取算法分词时忽略命名实体,关键词提取计算算法不理想,以及容易被噪声信息干扰导致提取关键词错误的问题。附图说明图1为本专利技术年报中的金融领域事件句提取方法的流程图。具体实施方式下面将结合专利技术实施例中的附图,对专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是专利技术一部分实施例,而不是全部的实施例。基于专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于专利技术保护的范围。请参阅图1,专利技术提供一种技术方案:一种年报中的金融领域事件句提取方法,具体步骤为:步骤1、输入财务报告数据;步骤2、对数据进行预处理;步骤3、选取基于感知机序列标注的命名实体识别;步骤4、改进基于TextRank的关键词提取算法;步骤5、输出得出文本关键词。进一步地,步骤3中基于感知机序列标注的命名实体识别的方法为:A、感知机模型进行训练;B、文本词语序列标注;C、命名实体识别分词。进一步地,步骤4中改进基于TextRank的关键词提取算法,具体步骤为:a、构建TextRank图模型;b、迭代计算;c、计算词语权重;d、排名。进一步地,步骤A中感知机模型具体为基于线性感知算法的机器学习基础模型,通过计算误差调整模型。进一步地,步骤4中TextRank为基于PageRank网页排序算法改进的文本排序算法。进一步地,步骤C中感知机模型通过计算误差调整模型。一种年报中的金融领域事件句提取方法,具体步骤为:步骤1、输入财务报告数据;步骤2、对数据进行预处理;步骤3、选取基于感知机序列标注的命名实体识别;步骤4、改进基于TextRank的关键词提取算法;步骤5、输出得出文本关键词。本专利技术步骤3中基于感知机序列标注的命名实体识别的方法为:A、感知机模型进行训练;B、文本词语序列标注;C、命名实体识别分词。本专利技术步骤4中改进基于TextRank的关键词提取算法,具体步骤为:a、构建TextRank图模型;b、迭代计算;c、计算词语权重;d、排名。本专利技术步骤A中感知机模型具体为基于线性感知算法的机器学习基础模型,通过计算误差调整模型,利用基于感知机序列标注的命名实体识别方法对TextRank算法预处理分词方法进行改进,通过识别出命名实体增加文本分词后的粒度,提高基于TextRank的关键词提取算法的准确性,步骤4中TextRank为基于PageRank网页排序算法改进的文本排序算法,步骤C中感知机模型通过计算误差调整模型。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。尽管已经示出和描述了专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,专利技术的范围由所附权利要求及其等同物限定。本文档来自技高网...

【技术保护点】
1.一种年报中的金融领域事件句提取方法,具体步骤为:/n步骤1、输入财务报告数据;/n步骤2、对数据进行预处理;/n步骤3、选取基于感知机序列标注的命名实体识别;/n步骤4、改进基于TextRank的关键词提取算法;/n步骤5、输出得出文本关键词。/n

【技术特征摘要】
1.一种年报中的金融领域事件句提取方法,具体步骤为:
步骤1、输入财务报告数据;
步骤2、对数据进行预处理;
步骤3、选取基于感知机序列标注的命名实体识别;
步骤4、改进基于TextRank的关键词提取算法;
步骤5、输出得出文本关键词。


2.根据权利要求1所述的一种年报中的金融领域事件句提取方法,其特征在于:步骤3中基于感知机序列标注的命名实体识别的方法为:
A、感知机模型进行训练;
B、文本词语序列标注;
C、命名实体识别分词。


3.根据权利要求1所述的一种年报中的金融领域事件句提取方法,其特征在于:步骤4中改进基于TextRa...

【专利技术属性】
技术研发人员:温秋华潘定梁倬骞
申请(专利权)人:暨南大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1