一种股票资讯新闻中心词和相关股票的关联度量方法技术

技术编号:20655113 阅读:85 留言:0更新日期:2019-03-23 06:48
本发明专利技术提供一种股票资讯新闻关键词和相关股票的关联度量方法,包括:步骤S10、读取预备的股票资讯新闻文件中的数据,并构造事务数据库D;步骤S20、从事务数据库D中穷尽所有的频繁项集,并生成频繁项集数据库L与频繁项集组Lk;步骤S30、从所述频繁项集Fk,m计算出有共现关系的若干个关联规则α→β,项集α为Fk.m的非空真子集,项集β为所述项集α关于所述频繁项集Fk.m的补集,并将所述关联规则α→β归入词共现数据库。本发明专利技术的股票资讯新闻关键词和相关股票的关联度量方法通过挖掘算法对股票资讯新闻关键词和相关股票在不同新闻中出现的次数进行计数,使用关联度公式进行股票资讯新闻关键词与相关股票的关联度量,计算效率高,快捷可靠。

【技术实现步骤摘要】
一种股票资讯新闻中心词和相关股票的关联度量方法
本专利技术涉及股票数据发挖掘
,具体地涉及一种股票资讯新闻中心词和相关股票的关联度量方法。
技术介绍
项的集合称为项集;包含k个项的项集称为k-项集;支持度大于最小支持度阈值的项集为频繁项集;项集的出项频率是包含项集的事务数,简称为项集的频率,支持度计数或计数。关联规则是形如X→Y的蕴涵式,其中,X和Y分别称为关联规则的先导和后继。随着信息技术的飞速发展和网络的普及,各类有关股票的新闻信息急速膨胀。如何从海量信息中迅速、准确地获取出所需要的有用信息就成为了一个难题[1]。为了能够有效的组织和管理每时每刻都在积累更新的大量新闻数据,需要对其内容进行标注以实现结构化[2]。考虑到手工标注新闻的耗时性,准确简便地对海量的资讯新闻进行自动标注成为市场的需要。而要完成股票资讯新闻自动标注,需要构建一个存储中心词和相关股票存在共现关系的“同义词”语料库。那么在“同义词”语料库的构建中,度量股票资讯新闻中心词与相关股票是否存在关联关系是实现股票资讯新闻自动标注的一个关键问题。近年来,国内外对词关联度计算的研究大体可以分为以下两类:1)根据语义知识库来进行词关联度的计算;2)根据大规模的语料库来进行词关联度的计算。Rada和J.H.Lee等通过计算在WordNet中词节点之间上下位关系构成的最短路径来计算英文词语之间的相似度[3-4]。P.Resnik根据两个词的公共祖先节点的最大信息量来衡量两个英文词语的语义相似度[5]。E.Agirre和G.Rigau在利用WordNet计算英文词语的语义相似度时,除了节点间的路径长度外,还考虑到了其他一些因素,例如,概念层次树的深度,概念层次数的区域密度等[6]。在汉语词语相似度计算研究方面,王斌采用树形图中节点之间路径的方法[7],利用《同义词词林》来计算汉语词语之间的相似度。刘群等人提出一种基于《知网》的词汇相似度计算方法[8]。L.Su-jian等人提出了一种综合利用了《知网》和《同义词词林》来计算汉语词语相似度的方法[9]。在义原相似度的计算过程中,不仅考虑了义原之间的上下文关系,还考虑了义原之间的其他关系。L.Lillian利用相关熵,P.Brown等人采用平均互信息来计算词语之间的相似度[10-11]。Dagan等人使用了更为复杂的概率模型来计算词语的距离[12]。胡俊峰等人利用上下文的词汇向量空间模型来近似地描述词汇的语义,再在此基础上定义词汇的相似关系[13]。刘群利用Hopfeild神经网络进行词和词的联想[8],并用一个反映关键词之间的关联度的模糊自反矩阵来存储词和词之间的相似度量值。在上述基于语义词典的词语关联度计算方法中,都需要事先提供一个针对该领域的语义词典。由于目前不存在股票领域的语义词典,且构建该股票领域的词典成本高、时间长,因此基于语义词典的词语关联度计算方法不适合用于度量股票资讯新闻中心词和相关股票关联度。此外,传统基于统计的词语关联度计算方法不能同时兼顾词对共现频率高和低的情况,无法保证股票资讯新闻中心词与相关股票关联结果的度量质量。参考文献:[1].石爱萍.基于语义距离的Web页面关键词研究[D].江苏科技大学,2011.[2].余骁捷.新闻播报节目的内容自动标注系统[D].清华大学,2011.[3].RadaR,MiliH,BicknellE,etal.Developmentandapplicationofametriconsemanticnets[J].IEEETransactiononSystemMan&Cybernetics,1989,19(1):17-30.[4].LeeJH,KimMH,LeeYJ.InformationRetrievalBasedonConceptualDistanceinaIs-aHierarchy.JDoc49:188-207[J].JournalofDocumentation,1993,49(2):188-207.[5].ResnikP.Semanticsimilarityinataxonomy:aninformation-basedmeasureanditsapplicationtoproblemsofambiguityinnaturallanguage[M].AIAccessFoundation,1999.[6].AgirreE,RigauG.AProposalforWordSenseDisambiguationusingConceptualDistance[J].ComputerScience,2009.[7].王斌.汉英双语语料库自动对齐研究[D].中国科学院研究生院(计算技术研究所),1999.[8].刘群,李素建.基于《知网》的词汇语义相似度计算[J].中文计算语言学,2002.[9].LiS,ZhangJ,HuangX,etal.SemanticcomputationinaChinesequestion-answeringsystem[J].计算机科学技术学报(英文版),2002,17(6):933-939.[10].BrownPF,PietraSAD,PietraVJD,etal.Word-SenseDisambiguationUsingStatisticalMethods[C]//The,MeetingoftheAssociationforComputationalLinguistics.1991:264--270.[11].LeeLJ.Similarity-BasedApproachestoNaturalLanguageProcessing[J].ComputerScience,1997.[12].DaganI,LeeL,PereiraFCN.Similarity-BasedModelsofWordCooccurrenceProbabilities[J].MachineLearning,1999,34(1-3):43-69.[13].胡俊峰,俞士汶.唐宋诗中词汇语义相似度的统计分析及应用[J].中文信息学报,2002,16(4):40-45.
技术实现思路
本专利技术要解决的技术问题,在于提供一种股票资讯新闻关键词和相关股票的关联度量方法,能够增加不同频率词语对关联度影响的鲁棒性以及提高股票资讯新闻关键词与相关股票之间关联结果的度量质量。本专利技术是这样实现的:一种股票资讯新闻关键词和相关股票的关联度量方法,包括:步骤S10、读取预备的股票资讯新闻文件中的数据,并构造事务数据库D,D={T1,T2,T3,…,Ti},事务Ti表示来自同一篇股票资讯新闻关键词组成的项集,i∈[1,n],n表示所述股票资讯新闻文件中收录的相关股票资讯新闻的篇数;步骤S20、从事务数据库D中穷尽所有的频繁项集,并生成频繁项集数据库L与频繁项集组Lk,L={L1,L2,L3,…,Lk},Lk={Fk.1,Fk.2,Fk.3,…,Fk.m},频繁项集Fk.m表示由k个股票资讯新闻关键词组成的频繁k项集,m表示序号,k与m均为正整数;步骤S30、从所述频繁项集Fk,m计算出有共现关系的若干个关联规则α→β,项集α为Fk.m的非空真子集,项集β为所述项集α关本文档来自技高网
...

【技术保护点】
1.一种股票资讯新闻关键词和相关股票的关联度量方法,其特征在于:包括:步骤S10、读取预备的股票资讯新闻文件中的数据,并构造事务数据库D,D={T1,T2,T3,…,Ti},事务Ti表示来自同一篇股票资讯新闻关键词组成的项集,i∈[1,n],n表示所述股票资讯新闻文件中收录的相关股票资讯新闻的篇数;步骤S20、从事务数据库D中穷尽所有的频繁项集,并生成频繁项集数据库L与频繁项集组Lk,L={L1,L2,L3,…,Lk},Lk={Fk.1,Fk.2,Fk.3,…,Fk.m},频繁项集Fk.m表示由k个股票资讯新闻关键词组成的频繁k项集,m表示序号,k与m均为正整数;步骤S30、从所述频繁项集Fk,m计算出有共现关系的若干个关联规则α→β,项集α为Fk.m的非空真子集,项集β为所述项集α关于所述频繁项集Fk.m的补集,并将所述关联规则α→β归入词共现数据库。

【技术特征摘要】
1.一种股票资讯新闻关键词和相关股票的关联度量方法,其特征在于:包括:步骤S10、读取预备的股票资讯新闻文件中的数据,并构造事务数据库D,D={T1,T2,T3,…,Ti},事务Ti表示来自同一篇股票资讯新闻关键词组成的项集,i∈[1,n],n表示所述股票资讯新闻文件中收录的相关股票资讯新闻的篇数;步骤S20、从事务数据库D中穷尽所有的频繁项集,并生成频繁项集数据库L与频繁项集组Lk,L={L1,L2,L3,…,Lk},Lk={Fk.1,Fk.2,Fk.3,…,Fk.m},频繁项集Fk.m表示由k个股票资讯新闻关键词组成的频繁k项集,m表示序号,k与m均为正整数;步骤S30、从所述频繁项集Fk,m计算出有共现关系的若干个关联规则α→β,项集α为Fk.m的非空真子集,项集β为所述项集α关于所述频繁项集Fk.m的补集,并将所述关联规则α→β归入词共现数据库。2.根据权利要求1所述的一种股票资讯新闻关键词和相关股票的关联度量方法,其特征在于:所述步骤S20具体包括:步骤S21、扫描所述事务数据库D,生成候选项集组C1,C1={E1.1,E1.2,E1.3,…,E1.w},候选项集E1.j表示由1个股票资讯新闻关键词组成的1项集,w表示序号且为正整数;步骤S22、计算所述候选项集E1.w在所述事务数据库D中的支持度计数count(E1.j),如果所述支持度计数count(E1.w)大于等于预设的最小支持度计数阈值,则将所述候选项集E1.w归入频繁项集组L1;如果所述支持度计数count(E1.w)小于所述预设的最小支持度计数阈值,则去除所述候选项集E1.w;步骤S23、将频繁项集组Lh-1中的频繁项集Fh-1.m生成候选项集Eh.s,所述候选项集Eh.s表示由h个所述股票资讯新闻关键词组成的h项集,s表示序号且为正整数,h为大于等于2的整数;步骤S24、对所述候选项集Eh.s进行非频繁剪枝处理,然后生成候选项集组Ch,Ch={Eh.1,Eh.2,…,Eh.j},j表示序号且为正整数;步骤S25、计算候选项集Eh.j在所述事务数据库D中的支持度计数count(Eh.j),如果所述支持度计数count(Eh.j)大于等于所述最小支持度计数阈值,则将所述候选项集Eh.j归入所述频繁项集组Lh,如果所述支持度计数count(Eh.j)小于最小支持度计数阈值,则去除所述候选项集Eh.j;步骤S26、从所述烦繁项集组Lh中生成候选项集组Ch+1,如果所述候选项集组Ch+1为空,则所述烦繁项集组Lh即为最大频繁项集组,最后得出所述频繁项集数据库L;如果所述候选项集组Ch+...

【专利技术属性】
技术研发人员:王家华薛醒思詹先银朱钟元范淑娟刘艳萍杨莹
申请(专利权)人:福建工程学院
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1