一种基于文本机器学习的舆情走向预测方法技术

技术编号：18592180 阅读：22 留言：0更新日期：2018-08-04 20:02

本发明专利技术提出一种基于文本机器学习的舆情走向预测方法。具体来说，就是对当前互联网上大量的社交媒体消息、新闻内容等信息进行分词、清洗、过滤等处理后，提取某些事件词语，并统计这些事件词语在某段时间出现的频次，根据词语的权重筛选出对应文本中的目标词语以及绘制事件词语频次的变化轨迹，通过目标词语提取网民观点，判断舆论传播路径等，进而利用这些观点数据来训练机器学习模型。最终利用训练好的模型来预测未来一段时间的舆情走向。

A prediction method of public opinion trend based on text machine learning

The invention proposes a prediction method of public opinion trend based on text machine learning. Specifically, after sorting, cleaning and filtering a large number of social media messages, news content and other information on the Internet, some event words are extracted and the frequency of these event words appearing in a certain period of time is counted, and the target words and expressions in the corresponding text are selected and drawn according to the weight of the words. The change track of the frequency of the event words and expressions, through the target words, to extract the views of the netizens, to judge the path of public opinion transmission, and then to use these views to train the machine learning model. Finally, we use the trained model to predict the trend of public opinion in the future.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本机器学习的舆情走向预测方法
本专利技术属于自然语言处理中文本机器学习领域，具体为一种基于文本机器学习的舆情走向预测方法。
技术介绍
在大数据时代，互联网舆情信息变得更为复杂繁琐，而且信息传播渠道快速裂变，信息处理的时效性需求更强，以至于几乎无法通过传统的、人工的手段来及时、全面地掌握、跟踪、分析和辅助舆情决策。“数据爆炸”、“信息超载”使得政府和各行各业对舆情预测的需求不断上升，在这样的市场背景下，舆情预测行业成为很有“技术含量”的阳光产业。目前，网络舆情分析方法主要是将信息处理方法与传统领域特有的技术分析方法相结合，重采集和处理，轻分析，尽管目前已经开始研究如何借助于计算机工具实现网络舆情分析，但大部分研究主要从文本层次对网络舆情外部特征进行简单的零碎统计处理，没有深入分析网络舆情信息内容中所隐含的知识逻辑关联和舆情传播趋势的关系，从而影响了网络舆情分析的效果和结果信度。
技术实现思路
为解决现有技术存在的问题，本专利技术提出一种基于文本机器学习的舆情走向预测方法。具体来说，就是对当前互联网上大量的社交媒体消息、新闻内容等信息进行分词、清洗、过滤等处理后，提取某些事件词语，并统计这些事件词语在某段时间出现的频次，根据词语的权重筛选出对应文本中的目标词语以及绘制事件词语频次的变化轨迹，通过目标词语提取网民观点，判断舆论传播路径等，进而利用这些观点数据来训练机器学习模型。最终利用训练好的模型来预测未来一段时间的舆情走向。本专利技术以网络社交媒体、论坛、微博信息以及时政相关的新闻文本为研究对象，从自然语言处理的角度出发，来研究社交媒介、时政新闻文本中词...

【技术保护点】
1.一种基于文本机器学习的舆情走向预测方法，其特征在于：包括以下步骤：步骤1：采用中文分词工具对采集的新闻文本进行分词；步骤2：对于通过步骤1得到的每个文本中词语，采用TF‑IDF方法获得每个词语的权值，并将权值较大的m个词语作为文本的核心特征词，核心特征词组成文本的特征向量；步骤3：依据每个文本的特征向量，采用以下过程将描述同类事件的文本聚类：步骤3.1：随机挑选k个文本的特征向量作为初始的聚类中心；步骤3.2：计算其余文本的特征向量到聚类中心的距离，将其余文本的特征向量聚类到距离最近的聚类中心，得到k个聚类；步骤3.3：根据k个聚类中，每个聚类中的文本的特征向量，重新计算k个聚类中心；步骤3.4：重新计算k个文本的特征向量到聚类中心的距离，将k个文本的特征向量聚类到距离最近的聚类中心，再次得到k个聚类，并根据k个聚类中，每个聚类中的文本的特征向量，重新计算k个聚类中心；步骤3.5：判断以下条件是否满足：1)、每个聚类中的文本的特征向量没有变化；2)、每个聚类的中心没有变化；若任一条件得到满足，则进入步骤4，否则返回步骤3.4；步骤4：选择聚类中文本数量达到设定阈值的聚类作为重点事件...

【技术特征摘要】
2018.01.20 CN 20181005579541.一种基于文本机器学习的舆情走向预测方法，其特征在于：包括以下步骤：步骤1：采用中文分词工具对采集的新闻文本进行分词；步骤2：对于通过步骤1得到的每个文本中词语，采用TF-IDF方法获得每个词语的权值，并将权值较大的m个词语作为文本的核心特征词，核心特征词组成文本的特征向量；步骤3：依据每个文本的特征向量，采用以下过程将描述同类事件的文本聚类：步骤3.1：随机挑选k个文本的特征向量作为初始的聚类中心；步骤3.2：计算其余文本的特征向量到聚类中心的距离，将其余文本的特征向量聚类到距离最近的聚类中心，得到k个聚类；步骤3.3：根据k个聚类中，每个聚类中的文本的特征向量，重新计算k个聚类中心；步骤3.4：重新计算k个文本的特征向量到聚类中心的距离，将k个文本的特征向量聚类到距离最近的聚类中心，再次得到k个聚类，并根据k个聚类中，每个聚类中的文本的特征向量，重新计算k个聚类中心；...

【专利技术属性】
技术研发人员：张怡，张璐璐，唐成凯，张玲玲，何怡，万志刚，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人