基于特征主题的金融情报特征提取方法及系统、存储介质技术方案

技术编号:37137313 阅读:12 留言:0更新日期:2023-04-06 21:38
本发明专利技术涉及基于特征主题的金融情报特征提取方法及系统、存储介质,通过对金融情报的预先处理,然后根据金融情报特征主题库中多维特征分别进行金融情报分词过滤、句法过滤以及特征主题模型的过滤,然后进行关键词的的计算和抽取,从而抽取出金融情报的特征。整个抽取过程基于金融情报的特征主题,通过多次过滤和计算,实现金融情报特征的精准抽取。本申请在不损伤金融情报核心信息的情况下,大幅减少要处理的金融情报分词数,以此来降低分词向量空间维数,从而简化计算,提高金融情报处理的速度和效率。其次,基于特征主题库通过基于因子分析法的特征评价函数来高效评价金融情报中的预先抽取的特征价值,更加符合金融情报分析的要求。的要求。的要求。

【技术实现步骤摘要】
基于特征主题的金融情报特征提取方法及系统、存储介质


[0001]本专利技术涉及金融数据处理
,尤其涉及基于特征主题的金融情报特征提取方法及系统、存储介质。

技术介绍

[0002]伴随着经济的全球化和金融创新的迅速发展,所有的金融机构都面临着日益多样且复杂的金融情报,如何对金融情报进行高效分析变得日益重要。
[0003]金融情报分析是对全源金融情报数据进行综合评估、分析和挖掘,从而转化为有用的情报信息以满足金融用户需求的过程。整个实现过程需要通过对金融情报数据的的特征提取和分析,才能发现价值线索,从而挖掘出金融市场变化的隐含规律,实现辅助决策的目的。因此在金融情报的挖掘和分析过程中,金融情报的特征对分析至关重要。
[0004]现有的各种信息或者数据的特征抽取都是基于常见文本信息的特征抽取,即把从文本信息中抽取出的特征词进行量化,从而实现通过特征词来表示文本信息。从而实现将文本信息从一个无结构的原始文本信息转化为结构化的计算机可以识别,并且可以处理的有序的信息,也即实现对信息进行科学的抽象,建立它的数学模型,用以描述和代替文本。
[0005]目前有关文本信息表示的研究主要集中于文本信息表示模型的选择和特征词选择算法的选取上。用于表示文本信息的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1、特征项要能够确实标识文本内容;2、特征项具有将目标文本与其他文本相区分的能力;3、特征项的个数不能太多;4、特征项分离要比较容易实现。
[0006]现有文本信息的特征抽取方式主要有以下二种:
[0007](1)基于统计的特征抽取方法:该方法通过构造评估函数,对特征集合中的每个特征进行评估,并对每个特征打分,这样每个词语都获得一个评估值,又称为权值。然后将所有特征按权值大小排序,提取预定数目的最优特征作为提取结果的特征子集。显然,对于这类型算法,决定文本特征提取效果的主要因素是评估函数的质量。
[0008](2)基于语义的特征抽取方法,方法主要有基于语境框架的文本特征提取方法:将语义分析融入统计算法,基本方法仍是“统计

抽取”,或者基于本体论的文本特征提取方法,或者基于知网的概念特征提取方法:
[0009]这两种不同的特征抽取方法从不同的角度进行文本信息的特征抽取。
[0010]随着社会的发展和技术的进步,金融情报信息巨大丰富,结构多源异构,其中海量、异构、分布的金融情报由于缺乏计算机可理解的语义,无法直接使用和理解,需要进行挖掘。传统信息挖掘所处理的数据是结构化的,而目前金融情报都是半结构化或非结构化的数据。所以金融情报分析面临的首要问题是如何在计算机中合理地表示信息,使之既要包含足够的信息以反映金融情报的特征,又不至于过于复杂使分析算法无法处理。因此金融情报的特征的抽取显得至关重要,
[0011]但是目前的金融情报的特征抽取由于存在以下原因,所以无法适应新的情报分析需求:
[0012](1)目前大多数文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。因此在这种情况下目前通常的特征抽取采用向量空间模型来描述文本向量。然而向量空间模型通常包含了大量不会成为特征项的常用词汇,为了提高系统运行效率,系统需要根据挖掘目标建立专业的分词表,这样可以在保证特征提取准确性的前提下,显著提高系统的运行效率,然而通用的词库通常不包含金融方向专用的特征词,因此无法实现降维,从而会计算量过大会严重影响文本特征的计算和抽取,在现有海量多源异构的金融情报的情况下,传统的特征抽取由于计算量过大,无法适应高速计算的需要,无法适应实时抽取的要求。
[0013](2)在传统的特征抽取中,为了实现更快的特征抽取,需要进行特征降维,这需要传统的分类器算法实现对金融情报的文本分类,但是由于传统的分类器算法是基于传统的语料库进行分词的,无法满足金融情报特有的语义特征,因此传统的分类器算法无法实现对金融情报专业信息的分类,也无法实现特征降维,无法满足金融情报高效计算和分析的要求。
[0014](3)目前在传统的特征抽取中,普遍使用评估函数进行特征选取越来越普遍,特征选取算法通过构造一个评估函数的方法,选取预定数目的最佳特征作为特征子集的结果。在传统的评估方法中,每一种评估方法都有一个选词标准,遵从这个标准,从文本集的所有词汇中选取出有某个限定范围的特征词集,但是由于评估函数的构造很简单,无法满足金融情报特有的环境,无法按照传统的方法从种抽取到合适的特征。
[0015](4)在传统的评估函数由于考虑了单词未发生的情况,对判断文本类别贡献不大,而且引入不必要的干扰,特别是在处理类分布和特征值分布高度不平衡的数据时选择精度下降,因此也无法满足金融情报特征抽取的需要。

技术实现思路

[0016]本申请为了解决上述技术问题提供基于特征主题的金融情报特征提取方法及系统、存储介质。其通过对金融情报的预先处理,然后根据金融情报特征主题库中多维特征分别进行金融情报分词过滤、句法过滤以及特征主题模型的过滤,然后进行关键词的的计算和抽取,从而抽取出金融情报的特征,整个抽取过程基于金融情报的特征主题,通过多次过滤和计算,实现了金融情报特征的精准抽取。
[0017]本申请通过下述技术方案实现:
[0018]本申请提供的基于特征主题的金融情报特征提取方法,包括:对输入的金融情报进行预处理,实现对金融情报的数据噪声和数据不一致性的预处理,以及数据异常的检测;该方法本身具有一个金融情报的特征主题库,该金融情报特征主题库拥有已有金融情报的特征,并且随着每次金融情报特征的抽取,特征主题库会不断的迭代和更新。然后根据金融情报特征主题库中的分词特征进行金融情报分词,并且进行情报分词过滤;根据金融情报特征主题库中的句法特征进行金融情报句法过滤;根据金融情报特征主题库中的特征主题模型进行特征主题模型过滤;随后,针对过滤完的金融情报进行关键词计算和抽取,根据抽取的关键词生成金融情报的特征,并且将生成的金融情报特征重新输入至金融情报特征
库,实现金融情报特征库的迭代和更新。
[0019]其中,输入的金融情报可以是结构化、半结构化或非结构化的数据。
[0020]本申请提供的基于特征主题的金融情报特征提取系统,包括:
[0021]输入模块,用于输入金融情报;
[0022]金融情报预处理模块,用于对金融情报进行预处理,实现对金融情报的数据噪声和数据不一致性的预处理,以及异常点的检测;
[0023]所述金融情报特征主题库模块,包含金融情报的特征,并且随着每次金融情报特征的抽取,特征库会不断的迭代;
[0024]金融情报分词过滤模块,用于根据金融情报特征主题库中的分词特征进行金融情报分词,并且进行分词过滤;
[0025]金融情报句法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于特征主题的金融情报特征提取方法,其特征在于:包括以下步骤:对输入的金融情报进行预处理;根据金融情报特征主题库中的分词特征进行金融情报分词,并进行情报分词过滤;根据金融情报特征主题库中的句法特征进行金融情报句法过滤;根据金融情报特征主题库中的特征主题模型进行特征主题模型过滤;对过滤完的金融情报进行关键词计算和抽取;根据抽取的关键词生成金融情报的特征,并将生成的金融情报特征重新输入至金融情报特征库,实现金融情报特征库的迭代和更新;所述金融情报特征主题库拥有已有金融情报的相关特征以及这些特征形成的特征主题;所述金融情报特征主题库拥有已有金融情报的特征,并且随着每次金融情报特征的抽取,特征主题库会不断的迭代和更新。2.根据权利要求1所述的基于特征主题的金融情报特征提取方法,其特征在于:所述对输入的金融情报进行预处理的方法包括:先对金融情报进行数据清洗,实现对金融情报的数据噪声和数据不一致性的预处理;然后对金融情报进行数据异常检测,以符合后续金融情报分析处理的格式要求。3.根据权利要求1所述的基于特征主题的金融情报特征提取方法,其特征在于:所述输入的金融情报的数据结构包括结构化数据、半结构化数据、非结构化数据。4.根据权利要求1所述的基于特征主题的金融情报特征提取方法,其特征在于:所述金融情报特征主题库包括金融情报特征主题词库、金融情报特征主题句法库和金融情报特征主题模型库;所述金融情报特征主题词库包含了关于已有金融情报的各类分词;所述金融情报特征主题句法库包含了关于已有金融情报的各类句法;金融情报特征主题模型库包含了关于已有金融情报的各类主题模型;每次进入金融情报特征主题库的金融情报,先经过金融情报特征主题检索,检索该类金融情报已有特征主题;如有,则进入相关特征主题库进行特征主题的匹配,否则直接结束本步骤。5.根据权利要求1所述的基于特征主题的金融情报特征提取方法,其特征在于:金融情报分词过滤的方法包括:首先调用金融情报特征主题库;然后检索相关分词特征主题,根据检索结果然后进行金融情报特征主题分词;随后按照主题分词进行分词过滤,过滤出符合要求的分词;所述情报句法过滤的方法包括:首先调用金融情报特征主题库;然后检索相关句法特征主题,根据检索结果然后进行金融情报特征主题句法分析;随后按照主...

【专利技术属性】
技术研发人员:王擎董青马宋磊顾见军
申请(专利权)人:成都数融科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1