一种基于篇章结构分析的股评观点分类系统及方法技术方案

技术编号:3847639 阅读:221 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于篇章结构分析的股评观点分类系统及方法,其特征在于:它包括文本选择模块、基于篇章结构分析的分类器和股评输出模块,文本选择模块将股评文本集中文本分为标题和正文中的预测性语句;基于篇章结构分析的分类器包括标题分类器和预测性语句分类器,前者输出标题可信度,后者输出预测性语句可信度;股评输出模块融合标题可信度和预测性语句可信度,并输出最终结果;文本选择模块对标题进行判断,如标题为疑问句,则其可信度置0;否则输入标题分类器;文本选择模块在正文中循环提取预测特征词所在的预测性语句;如没有对应于预测特征词的预测性语句,则提取正文的最后一个句子作为预测性语句;将预测性语句输入预测性语句分类器。

【技术实现步骤摘要】

本专利技术涉及一种数据挖掘系统及方法,特别是关于一种基于篇章结构分析 的股评观点分类系统及方法。
技术介绍
文本倾向性分析是指文本所包含的某一主题所持的观点、态度和立场, 对该文本进行倾向性分类。通常将文本分为正面的、中立的、负面的三种倾 向。文本倾向性分类在信息过滤、信息内容安全管理、舆情分析等方面有着重要应用。国外对文本倾向性研究在20世纪90年代中期开始得到普遍关注, 并出现许多较为通用的方法,如传统的文本分类方法、基于语义模式分类方 法和基于观点基准词组分类方法等。其中,传统的文本分类方法是将文本倾 向性分析作为一个基于主题的文本分类问题来对待,那么就可以使用任意一 种文本分类算法,如Naive Bayesian、 SVM、 KNN等方法。基于语义模式分类 方法是使用语义模式作为文本的基本特征,把语义信息体现到语义模式之中。 基于观点基准词组分类方法是通过计算词汇与具有强烈倾向意义的基准词的 关联程度,来确定文本中词汇的倾向性度量,从而确定文本的倾向性,这种 方法的代表就是Turney的SO-PMI算法。以上三种常用方法各有缺陷,传统的文本分类方法需要花费很大的精力 建立训练集,如训练样本不足,则会导致泛化性不足从而使得准确率得不到 保证;基于语义模式分类方法的工作量大,而且当主题或领域发生变化时, 需要重新构建寻找新的语义模式;基于观点基准词组分类方法只考虑到了词 汇的倾向性,没有从整体上对文本的倾向性进行把握,因此准确率较差。国 内对于文本倾向性的研究起步较晚,目前的研究方向主要集中在产品评论、 影评和词汇的倾向性研究等几个方面。到目前为止,不管是国内还是国外, 尚未将观点分类技术应用到股评观点分类领域。通过实验发现,如果直接将 上述的三种方法移植到股评观点分类领域中,则查准率和査全率均较差。
技术实现思路
针对上述问题,本专利技术的目的是提供一种可以输出精简、明确的股评观点 分类信息的基于篇章结构分析的股评观点分类系统及方法。为实现上述目的,本专利技术采取以下技术方案 一种基于篇章结构分析的股评观点分类方法,其特征在于它包括文本选择模块、基于篇章结构分析的分 类器模块和股评输出模块;所述基于篇章结构分析的分类器模块包括标题分类 器和预测性语句分类器;所述文本选择模块从股评数据库中提取股评文本后, 对所述股评文本的标题和正文进行分离;判断所述标题是否为疑问句,如果是 疑问句,则标题可信度S/m(^7^"0;否则利用标题分类器对标题进行观点分类, 输出标题可信度S/柳(Ce);同时,所述文本选择模块在所述正文中循环检测预测特征词表中的每一个 预测性特征词,如果存在所述预测特征词,则提取出所述预测特征词所在的句 子,放入预测性语句集S中;循环结束后,如果所述预测性语句集S为空,则提取所述正文的最后一个句子,放入所述预测性语句集s中;将所述预测性语句集S输入所述预测性语句分类器,输出相应的预测性语句可信度S/m(Cc);设置可信度阈值">0,当所述&'mO;,。2w且&'mO;,A)〈w时,则将所述S/mO;,7^作为所述股评输出模块的输出结果CWe"/"to"(巧);当所述S/m(。A)^w且S/m(^:^)〈c;时,则将所述S/m",^)作为所述股评输出模块的输出结果CWe"toto"(O;否贝IJ,利用方程l)和方程2)计算得到所述股评输出模块的输出结果<formula>formula see original document page 5</formula>其中,^和4是位置权重,所述&'m(/",,:Tc)的权重为a,所述S/m",5c)的权重为^,且a+^-i; ;,…,7;分别为所述标题的倾向性类别,a,…,化分别为 所述预测性语句集s的倾向性类别。所述预测特征词表和股评数据库由用户定义。 所述预测特征词为表示预测的动词、表示预测的名词、指示词和人称代词。所述可信度阈值w为0.8。本专利技术由于采取以上技术方案,其具有以下优点1、本专利技术由于只对股 评文本的标题和预测性语句集分别进行训练,从而减少了文本分类算法中训练 集的文本长度,无需对股评文本进行全篇幅的特征匹配,进而提高了算法的执 行速度。2、本专利技术通过利用篇章结构的分析结果很好的过滤了客观性表述, 识别并抽取表示预测观点的语句,该方法对其他领域的观点分类也具有指导意 义。3、本专利技术与观点分类领域的三种主流方法对比,在股评观点分类领域,本专利技术取得了较好的分类结果,査准率和査全率有了很大的提高。 附图说明图1是本专利技术的股评观点分类系统的模块示意图图2是本专利技术的股评观点分类方法的流程示意图 具体实施例方式下面结合附图和实施例对本专利技术进行详细的描述。在股票投资活动中,散户投资者既不知道内幕信息,也没有足够的时间来 研判股市,因此他们在投资时常常会依赖电视、网络、报刊杂志上专业股评家 的选股建议。然而大部分的股民都没有时间或精力来阅读这些股评,他们关心 的只是股票在未来是涨还是跌,所以需要为他们提供更为精简、明确的分类的 股评信息。股评观点分类方法是指给定一个股评文本集A通过构造观点分类 器将股评文本集W中的每一个股评文本ne^分成三个类别看多、看平和看 空。其中,看多是指股评文本n'预测大盘短期未来走势是看多;看平指股评 文本^预测大盘短期未来走势是看平;看空则是指股评文本^预测大盘短期 未来走势是看空。其中,看多表示这篇评论认为某只股票后市良好,投资者应 该考虑买进;看平表示这篇股评认为某只股票将是横盘震荡,投资者应该持有 或观望;看空表示这篇评论认为某只股票后市惨淡,投资者应该考虑卖出。通常,文本的篇章结构特征主要有标题、句子位置、文本的开头和结尾、 过渡句和过渡段、段落相似度和句子相关度等。由于股评文本的特性,本专利技术 的方法重点关注股评文本的标题、预测性语句的位置、开头和结尾。其中预测 性语句是指明确的预测大盘短期未来走势的语句,也即股评撰写者所表达的倾 向性观点。因此本专利技术的原理是通过对文本篇章结构进行分析,分别提取股评 文本中的标题和预测性语句,利用文本分类算法构造标题分类器和预测性语句 分类器,然后选择合适的阈值和权值对两个分类器输出的结果进行有效融合, 自动的将股评文本分为多个倾向性类别,如看多、看平和看空。如图1所示,基于以上思想,本专利技术的系统包括文本选择模块l、基于篇 章结构分析的分类器模块2和股评输出模块3。其中,用户首先在股评数据库 中设置一股评数据库A根据股评文本^ei 的篇章结构,文本选择模块l分别 提取股评数据库W中每个股评文本5的标题T和正文B,然后分析标题T并查 找正文B的预测特征词,预测特征词由用户指定的预测特征词表提供,/为股 评数据库R中的股评文本标号。提取预测特征词所在的预测性语句作为预测性 语句集S,与标题T 一同作为基于篇章结构分析的分类器模块2的训练样本集、校正样本集和测试样本集。基于篇章结构分析的分类器模块2包括利用文本分 类算法构建的标题分类器4和预测性语句分类器5,分别对文本选择模块1中 的标题T和预测性语句集S进行标题可信度57m",r》和预测性语句可信度 S^k,A)的输出,其中C表示股评文本集7 中的倾向性类别,C = 本文档来自技高网
...

【技术保护点】
一种基于篇章结构分析的股评观点分类系统,其特征在于:它包括文本选择模块、基于篇章结构分析的分类器模块和股评输出模块,所述文本选择模块将股评数据库中股评文本分为标题和正文中的预测性语句;所述基于篇章结构分析的分类器模块包括标题分类器和预测性语句分类器,标题分类器输出标题可信度,预测性语句分类器输出预测性语句可信度;所述股评输出模块对所述标题可信度和预测性语句可信度进行融合,并输出最终结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:莫倩胡航丽
申请(专利权)人:北京工商大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1