【技术实现步骤摘要】
一种股票资讯新闻中心词和相关股票的关联度量方法
本专利技术涉及股票数据发挖掘
,具体地涉及一种股票资讯新闻中心词和相关股票的关联度量方法。
技术介绍
项的集合称为项集;包含k个项的项集称为k-项集;支持度大于最小支持度阈值的项集为频繁项集;项集的出项频率是包含项集的事务数,简称为项集的频率,支持度计数或计数。关联规则是形如X→Y的蕴涵式,其中,X和Y分别称为关联规则的先导和后继。随着信息技术的飞速发展和网络的普及,各类有关股票的新闻信息急速膨胀。如何从海量信息中迅速、准确地获取出所需要的有用信息就成为了一个难题[1]。为了能够有效的组织和管理每时每刻都在积累更新的大量新闻数据,需要对其内容进行标注以实现结构化[2]。考虑到手工标注新闻的耗时性,准确简便地对海量的资讯新闻进行自动标注成为市场的需要。而要完成股票资讯新闻自动标注,需要构建一个存储中心词和相关股票存在共现关系的“同义词”语料库。那么在“同义词”语料库的构建中,度量股票资讯新闻中心词与相关股票是否存在关联关系是实现股票资讯新闻自动标注的一个关键问题。近年来,国内外对词关联度计算的研究大体可以分为以下两类:1)根据语义知识库来进行词关联度的计算;2)根据大规模的语料库来进行词关联度的计算。Rada和J.H.Lee等通过计算在WordNet中词节点之间上下位关系构成的最短路径来计算英文词语之间的相似度[3-4]。P.Resnik根据两个词的公共祖先节点的最大信息量来衡量两个英文词语的语义相似度[5]。E.Agirre和G.Rigau在利用WordNet计算英文词语的语义相似度时,除了节点间的路径 ...
【技术保护点】
1.一种股票资讯新闻关键词和相关股票的关联度量方法,其特征在于:包括:步骤S10、读取预备的股票资讯新闻文件中的数据,并构造事务数据库D,D={T1,T2,T3,…,Ti},事务Ti表示来自同一篇股票资讯新闻关键词组成的项集,i∈[1,n],n表示所述股票资讯新闻文件中收录的相关股票资讯新闻的篇数;步骤S20、从事务数据库D中穷尽所有的频繁项集,并生成频繁项集数据库L与频繁项集组Lk,L={L1,L2,L3,…,Lk},Lk={Fk.1,Fk.2,Fk.3,…,Fk.m},频繁项集Fk.m表示由k个股票资讯新闻关键词组成的频繁k项集,m表示序号,k与m均为正整数;步骤S30、从所述频繁项集Fk,m计算出有共现关系的若干个关联规则α→β,项集α为Fk.m的非空真子集,项集β为所述项集α关于所述频繁项集Fk.m的补集,并将所述关联规则α→β归入词共现数据库。
【技术特征摘要】
1.一种股票资讯新闻关键词和相关股票的关联度量方法,其特征在于:包括:步骤S10、读取预备的股票资讯新闻文件中的数据,并构造事务数据库D,D={T1,T2,T3,…,Ti},事务Ti表示来自同一篇股票资讯新闻关键词组成的项集,i∈[1,n],n表示所述股票资讯新闻文件中收录的相关股票资讯新闻的篇数;步骤S20、从事务数据库D中穷尽所有的频繁项集,并生成频繁项集数据库L与频繁项集组Lk,L={L1,L2,L3,…,Lk},Lk={Fk.1,Fk.2,Fk.3,…,Fk.m},频繁项集Fk.m表示由k个股票资讯新闻关键词组成的频繁k项集,m表示序号,k与m均为正整数;步骤S30、从所述频繁项集Fk,m计算出有共现关系的若干个关联规则α→β,项集α为Fk.m的非空真子集,项集β为所述项集α关于所述频繁项集Fk.m的补集,并将所述关联规则α→β归入词共现数据库。2.根据权利要求1所述的一种股票资讯新闻关键词和相关股票的关联度量方法,其特征在于:所述步骤S20具体包括:步骤S21、扫描所述事务数据库D,生成候选项集组C1,C1={E1.1,E1.2,E1.3,…,E1.w},候选项集E1.j表示由1个股票资讯新闻关键词组成的1项集,w表示序号且为正整数;步骤S22、计算所述候选项集E1.w在所述事务数据库D中的支持度计数count(E1.j),如果所述支持度计数count(E1.w)大于等于预设的最小支持度计数阈值,则将所述候选项集E1.w归入频繁项集组L1;如果所述支持度计数count(E1.w)小于所述预设的最小支持度计数阈值,则去除所述候选项集E1.w;步骤S23、将频繁项集组Lh-1中的频繁项集Fh-1.m生成候选项集Eh.s,所述候选项集Eh.s表示由h个所述股票资讯新闻关键词组成的h项集,s表示序号且为正整数,h为大于等于2的整数;步骤S24、对所述候选项集Eh.s进行非频繁剪枝处理,然后生成候选项集组Ch,Ch={Eh.1,Eh.2,…,Eh.j},j表示序号且为正整数;步骤S25、计算候选项集Eh.j在所述事务数据库D中的支持度计数count(Eh.j),如果所述支持度计数count(Eh.j)大于等于所述最小支持度计数阈值,则将所述候选项集Eh.j归入所述频繁项集组Lh,如果所述支持度计数count(Eh.j)小于最小支持度计数阈值,则去除所述候选项集Eh.j;步骤S26、从所述烦繁项集组Lh中生成候选项集组Ch+1,如果所述候选项集组Ch+1为空,则所述烦繁项集组Lh即为最大频繁项集组,最后得出所述频繁项集数据库L;如果所述候选项集组Ch+...
【专利技术属性】
技术研发人员:王家华,薛醒思,詹先银,朱钟元,范淑娟,刘艳萍,杨莹,
申请(专利权)人:福建工程学院,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。