一种文本数据的信息处理方法、装置制造方法及图纸

技术编号：20242394 阅读：45 留言：0更新日期：2019-01-29 23:21

本发明专利技术提供一种基于文本数据的信息处理方法、装置，该方法包括：获取文本数据；基于所述文本数据和已经训练好的分类模型得到所述文本数据的情绪倾向结果，其中，所述情绪倾向结果包括正面情绪的数量或负面情绪的数量；根据所述情绪倾向结果得到所述文本数据的经济信心指数。根据本发明专利技术的方法、系统及计算机存储介质，基于自然语言处理技术和机器学习方法，弥补了传统方法的数据采集时间长、成本高固有缺陷，为后续程序提供良好的数据基础。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本数据的信息处理方法、装置
本申请涉及计算机
，特别涉及数据处理的方法及装置。
技术介绍
当前，我国对各种指数的研究主要是由国家统计局采用传统的调查方法进行汇总计算而成，完成该项工作需要大量的人力、物力、金钱以及时间成本，同时，这些数据的公布往往存在一定时期的滞后。在互联网时代，信息传输速度极快，网络数据资源呈现爆炸式增长，通过对互联网文本数据的挖掘及分析可以获取及时、全面的经济信息，进而编制出一系列反映经济形势发展趋势的指数，在这些指数中蕴含着网民对当前经济形势的总体评价，对经济前景、收入水平、收入预期以及消费心理状态的主观感受，有助于政府和企业及时有效的做出相关决策。目前基于网络文本的消费者信心指数，多是利用网络搜索数据，虽然大量的搜索数据可以表征一定的趋势性(如流感爆发)，但如果能从文本中抽取也主观性的观点以及心理感觉受的话，可以更加准确的对经济信心指数进行研究。因此，现有技术中存在数据采集时间长、成本高的缺陷。
技术实现思路
考虑到上述问题而提出了本专利技术。本专利技术提供了一种文本数据的信息处理方法、系统及计算机存储介质，弥补了传统方法的数据采集...

【技术保护点】
1.一种基于文本数据的信息处理方法，其特征在于，所述方法包括：获取文本数据；基于所述文本数据和已经训练好的分类模型得到所述文本数据的情绪倾向结果，其中，所述情绪倾向结果包括正面情绪的数量或负面情绪的数量；根据所述情绪倾向结果得到经济信心指数。

【技术特征摘要】
1.一种基于文本数据的信息处理方法，其特征在于，所述方法包括：获取文本数据；基于所述文本数据和已经训练好的分类模型得到所述文本数据的情绪倾向结果，其中，所述情绪倾向结果包括正面情绪的数量或负面情绪的数量；根据所述情绪倾向结果得到经济信心指数。2.如权利要求1所述的信息处理方法，其特征在于，所述获取文本数据包括：基于互联网爬虫技术获取互联网中的所述文本数据。3.如权利要求1所述的信息处理方法，其特征在于，所述得到所述文本数据的情绪倾向结果包括：对所述文本数据进行特征提取得到所述文本数据的分类特征，其中，分类特征包括观点触发词特征、观点主题特征、短语句法特征、词语表示特征、情感词特征、或情感上下文特征中的至少一个。4.如权利要求3所述的信息处理方法，其特征在于，所述分类模型的训练包括：对已经标注情绪倾向的训练样本进行分类特征提取，并将所述分类特征作为输入，所述训练样本的情绪倾向结果作为输出，训练得到分类模型。5.如权利要求4所述的信息处理方法，其特征在于，所述分类模型包括支持向量机模型，或随机森林模型、或决策树模型、或朴素贝叶斯模型。6.如权利要求3-5中任一项所述的信息处理方法，其特征在于，所述进行观点触发词特征提取包括：基于文本样本，采用TFIDF计算文本样本中的词的权重，得到观点触发词的集合；根据所述观点触发词对所述文本数据进行观点触发词特征提取；或者所述进行观点主题特征提取包括：基于预定的观点主题关键词对所述文本数据进行观点主题特征提取；或者所述进行短语句法特征提取包括：采用短语句法分析器对所述文本数据进...

【专利技术属性】
技术研发人员：付博，
申请(专利权)人：北京国信宏数科技有限责任公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人