【技术实现步骤摘要】
基于词属性位置关系与贝叶斯的少样本金融文本分类系统
[0001]本专利技术涉及机器学习、金融两个交叉领域,具体是一种机器学习及其优化提升学习的方法应用于金融领域内针对上市公司发布的重大公告及新闻信息的快速识别与分拣。
技术介绍
[0002]现阶段人工智能正逐步涉足各个行业领域,并为其发展提供了新的可能。金融领域,作为实时数据产生最大的行业之一,同样步入“AI+金融”时代。作为金融领域的重要任务之一,快速、准确对金融公告/新闻进行识别与分拣是非常有意义与价值的。目前已知的基于传统规则、传统机器学习范式为技术基础的识别与分拣系统,存在以下不足:
[0003](1)目前大部分的金融文本分类方法大多基于大量标注文本进行训练,无法处理只有少量样本的金融文本识别与分拣。
[0004](2)在传统机器学习的方法中并没有考虑到金融文本中不同属性词之间的位置关系,而针对同一组金融词汇,将它们打乱后重新排列,通常会表达出不同的含义,因此,金融文本中不同属性词汇的位置关系,针对金融文本的识别于分拣任务而言,是必不可少的文本特征信息 ...
【技术保护点】
【技术特征摘要】
1.一种基于词属性位置关系与贝叶斯的少样本金融文本分类系统,其特征在于:数据库模块,文本信息处理模块,贝叶斯算法模块,贝叶斯参数优化模块,显示模块。该系统的工作步骤如下:步骤1:从数据库中获取公司名词库E,动词词库V,其它财经词库F,并分别为它们建立字典树。从数据库中获取初始金融数据文本,构成金融文本集。步骤2:采用“正/逆向最大分词法”将金融文本集中每一条文本的公司名E={e1,e2,e3,......},触发词(动词)V={v1,v2,v3,......}和其他财经词汇F={f1,f2,f3,......}抽取出来;删除其他财经词汇中与公司名和触发词重叠的词。步骤3:对从金融文本集中每一条文本的公司名E={e1,e2,e3,......},触发词(动词)V={v1,v2,v3,......}和其他财经词汇F={f1,f2,f3,.....}构建以下九种不同类型的词位置关系:(a)在金融文本中,若触发词紧挨在公司名后面出现,则将其标志为p(V|E)。(b)在金融文本中,若公司名紧挨在公司名后面出现,则将其标志为p(E|E)。(c)在金融文本中,若其它财经词汇紧挨在公司名后面出现,则将其标志为p(F|E)。(d)在金融文本中,若其他财经词汇紧挨在触发词后面出现,则将其标志为:p(F|V)。(e)在金融文本中,若触发词紧挨在触发词后面出现,则将其标志为:p(V|V)。(f)在金融文本中,若公司名紧挨在触发词后面出现,则将其记为:p(E|V)。(g)在金融文本中,若公司名紧挨在其它财经词汇后面出现,则将其记为:p(E|F)。(h)在金融文本中,若触发词紧挨在其他财经词汇后面出现,则将其记为:p(V|F)(i)在金融文本中,若其他财经词汇紧挨在其他财经词汇后面出现,则将其记为:p(F|F)步骤4:分别...
【专利技术属性】
技术研发人员:刘兴高,李栓,刘静,王文海,张志猛,张泽银,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。