The invention relates to a method based on the data of the stock news emotional convergence method, which comprises the following steps: 1. crawling news information, form the news documents into the document stored in databases; 2. to calculate each of the heat, remove duplicate documents; 3. of the news in the document content items are pre processed, the formation of text set; 4. for each set of text sentiment analysis and comprehensive analysis of the theme of the formation of two tuple set, text topic clustering grouping; 5. to integrate all the relevant financial news, the formation of three tuple stocks based on set; 6. the above results in stocks as the core together; 7. using the visualization system the results show to the user. The present invention can provide accurate and readable reduced theme sentiment information for investors in financial markets, help investors to spend shorter time understanding and better make investment judgments, and provide important prediction model auxiliary information for quantitative fund companies.
【技术实现步骤摘要】
一种基于新闻数据的个股情绪汇聚方法
本专利技术涉及网络数据分析的
,尤其涉及到一种基于新闻数据的个股情绪汇聚方法。
技术介绍
证券市场被称为一国经济的“晴雨表”,经济运行具有周期性,而证券市场能够率先反映经济形势。一直以来,众多经济学者和股市研究者都致力于构建有效的股市分析和预测模型并形成了系统的分析方法。经典的证券投资分析方法包括基本分析法和技术分析法。基本分析法自顶向下分为三层,具体的讲包括宏观经济分析、行业分析和企业价值分析;技术分析法是根据股市行情变化进行分析的方法,通常综合运用资本定价模型和一些技术指标进行分析。由于证券市场的参与个体通常是自然人,主观心理会对投资选择产生影响,其中最关键且引人关注的是投资者对于新闻、公告等的情绪反馈,这些情绪反馈会作用于证券市场并反映在股市上。随着计算机和互联网技术的飞速发展和普及,近年来,越来越多的量化交易研究者结合计算机技术进行证券市场分析。以新闻大数据为资源,运用文本情感分析等技术对投资者情绪进行分析,进而预测股市走向的方法也变得热门。文本情感分析是文本分析的一个分支,指用自然语言处理、文本挖掘以及计算机语言 ...
【技术保护点】
一种基于新闻数据的个股情绪汇聚方法,其特征在于:包括以下步骤:S1.采用爬虫工具从各大新闻网站中爬取相关新闻信息的标题、时间、来源、内容、转载次数、评论次数,形成新闻文档di;S2.将形成的新闻文档di储存在文档储存数据库中;S3.计算得出每篇文章的热度,并去除重复文档;S4.以文档为单位对数据库中的新闻文档di中的内容contenti项进行预处理,形成文本集合wordSeti;S5.针对每个文本集合wordSeti综合情绪分析和主题分析,形成二元组集合{(topic1,sentiment1),(topic2,sentiment2),…,(topick,sentimentk ...
【技术特征摘要】
1.一种基于新闻数据的个股情绪汇聚方法,其特征在于:包括以下步骤:S1.采用爬虫工具从各大新闻网站中爬取相关新闻信息的标题、时间、来源、内容、转载次数、评论次数,形成新闻文档di;S2.将形成的新闻文档di储存在文档储存数据库中;S3.计算得出每篇文章的热度,并去除重复文档;S4.以文档为单位对数据库中的新闻文档di中的内容contenti项进行预处理,形成文本集合wordSeti;S5.针对每个文本集合wordSeti综合情绪分析和主题分析,形成二元组集合{(topic1,sentiment1),(topic2,sentiment2),…,(topick,sentimentk)};S6.针对个股,整合所有相关财经新闻,求得某一支个股关于某一主题的情绪倾向以及其热度,形成基于个股的三元组集合{(topic2,sentiment2,heat1),(topic2,sentiment2,heat2),…,(topick,sentimentk,heatk)};S7.将S3-S6的结果以个股为核心进行汇聚,并存入文档储存数据库;S8.选用可视化系统将结果展示给用户。2.根据权利要求1所述的一种基于新闻数据的个股情绪汇聚方法,其特征在于:所述步骤S3计算每篇文章热度newsHeat的计算公式如下:newsHeat=∑forwardi+∑commenti,其中,∑forwardi代表新闻i的转发数量,∑commenti代表新闻i的评论数量。3.根据权利要求1所述的一种基于新闻数据的个股情绪汇聚方法,其特征在于:所述步骤S4中预处理的具体步骤为:采用文本分析工具,以标点符号为标识,对每一个待处理的文本进行分句,再对得到的每个句子Si进行分词处理,去除停用词、特殊符号,形成由词或短语组成的文本集合wordSeti。4.根据权利要求1所述的一种基于新闻数据的个股情绪汇聚方法,其特征在于:所述步骤S5的具体步骤如下:S51.求出单文本的情绪值sentiment,标记文本集合情绪倾向;S52.根据步骤S51得出的单文本的情绪值sentiment,求出每个主题的情绪值sentiment(topic),从而抽象出一系列(topick,sentimentk)二元组,并以该一系列二元组为标识进行文本主题聚类分组。5.根据权利要求4所述的一种基于新闻数据的个股情绪汇聚方法,其特征在于:所述步骤S51具体标记方式采用积极词频与消极词频比例的方式得到财经新闻所代表的乐观与悲观情绪,单文本的情绪值sentiment由下式计算获得:其中,∑Pos代表新闻中词性为积极词汇的个数,∑Neg代表新闻中词性为消极词汇的个数,sentiment代表新闻文本的情绪倾向,sentiment越大,代表表面上该财经新闻信息看好未来金融市场或者相关股票的发展,认为股价会上涨,反之,则看衰未来金融市场或...
【专利技术属性】
技术研发人员:郑子彬,翁灵玲,周育人,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。