一种文本数据的信息处理方法、装置制造方法及图纸

技术编号:20242394 阅读:32 留言:0更新日期:2019-01-29 23:21
本发明专利技术提供一种基于文本数据的信息处理方法、装置,该方法包括:获取文本数据;基于所述文本数据和已经训练好的分类模型得到所述文本数据的情绪倾向结果,其中,所述情绪倾向结果包括正面情绪的数量或负面情绪的数量;根据所述情绪倾向结果得到所述文本数据的经济信心指数。根据本发明专利技术的方法、系统及计算机存储介质,基于自然语言处理技术和机器学习方法,弥补了传统方法的数据采集时间长、成本高固有缺陷,为后续程序提供良好的数据基础。

【技术实现步骤摘要】
一种文本数据的信息处理方法、装置
本申请涉及计算机
,特别涉及数据处理的方法及装置。
技术介绍
当前,我国对各种指数的研究主要是由国家统计局采用传统的调查方法进行汇总计算而成,完成该项工作需要大量的人力、物力、金钱以及时间成本,同时,这些数据的公布往往存在一定时期的滞后。在互联网时代,信息传输速度极快,网络数据资源呈现爆炸式增长,通过对互联网文本数据的挖掘及分析可以获取及时、全面的经济信息,进而编制出一系列反映经济形势发展趋势的指数,在这些指数中蕴含着网民对当前经济形势的总体评价,对经济前景、收入水平、收入预期以及消费心理状态的主观感受,有助于政府和企业及时有效的做出相关决策。目前基于网络文本的消费者信心指数,多是利用网络搜索数据,虽然大量的搜索数据可以表征一定的趋势性(如流感爆发),但如果能从文本中抽取也主观性的观点以及心理感觉受的话,可以更加准确的对经济信心指数进行研究。因此,现有技术中存在数据采集时间长、成本高的缺陷。
技术实现思路
考虑到上述问题而提出了本专利技术。本专利技术提供了一种文本数据的信息处理方法、系统及计算机存储介质,弥补了传统方法的数据采集时间长、成本高固有缺陷,为后续程序提供良好的数据基础。根据本专利技术一方面,提供了一种文本数据的信息处理方法,所述方法包括:获取文本数据;基于所述文本数据和已经训练好的分类模型得到所述文本数据的情绪倾向结果,其中,所述情绪倾向结果包括正面情绪的数量或负面情绪的数量;根据所述情绪倾向结果得到经济信心指数。示例性地,所述获取文本数据包括:基于互联网爬虫技术获取互联网中的所述文本数据。示例性地,所述得到所述文本数据的情绪倾向结果包括:对所述文本数据进行特征提取得到所述文本数据的分类特征,其中,分类特征包括观点触发词特征、观点主题特征、短语句法特征、词语表示特征、情感词特征、或情感上下文特征中的至少一个。示例性地,所述分类模型的训练包括:对已经标注情绪倾向的训练样本进行分类特征提取,并将所述分类特征作为输入,所述训练样本的情绪倾向结果作为输出,训练得到分类模型。示例性地,所述分类模型包括支持向量机模型,或随机森林模型、或决策树模型、或朴素贝叶斯模型。示例性地,所述进行观点触发词特征提取包括:基于文本样本,采用TFIDF计算文本样本中的词的权重,得到观点触发词的集合;根据所述观点触发词对所述文本数据进行观点触发词特征提取;或者,所述进行观点主题特征提取包括:基于预定的观点主题关键词对所述文本数据进行观点主题特征提取;或者,所述进行短语句法特征提取包括:采用短语句法分析器对所述文本数据进行短语句法特征提取;或者所述进行词语表示特征提取包括:基于词语向量表示学习对所述文本数据进行词语表示特征提取。示例性地,所述进行情感词特征提取包括:基于已经标注情感倾向极性得分的文本样本,提取情感词作为输入,极性得分作为输出,训练情感词模型;根据所述文本数据和所述情感词模型,得到所述文本数据的情感词极性得分作为情感词特征。示例性地,所述进行情感上下文特征提取包括:基于文本数据中的所述情感词特征得到所述情感上下文特征;其中,如果所述情感的句子没有包含转折词或否定词,则所述句子的情感上下文特征为所述情感词的极性得分;如果所述情感词所在的句子中包含否定词则所述句子的情感上下文特征为将所述情感词的极性得分取反;如果所述情感词所在的句子中包含转折词则所述句子的情感上下文特征为包含所述转折词的句子中情感词的极性得分。示例性地,根据所述情绪倾向结果得到经济信心指数包括:根据如下公式计算经济信心指数:其中,其中N表示文本数据中分类特征的数量,PosN表示分类特征包含的表达正面情绪的数量,NegN表示分类特征包含的表达负面情绪的数量。根据本专利技术另一方面,提供了一种文本数据的信息处理装置,所述装置包括:数据采集模块,用于获取文本数据;分类模块,用于基于所述文本数据和已经训练好的分类模型得到所述文本数据的情绪倾向结果,其中,所述情绪倾向结果包括正面情绪的数量或负面情绪的数量;计算模块,用于根据所述情绪倾向结果得到经济信心指数。参见附图3,附图3示出了本专利技术实施例的一种文本数据的信息处理装置的示意性框图。其中,所述装置300包括:数据采集模块310,用于获取文本数据;分类模块320,用于基于所述文本数据和已经训练好的分类模型得到所述文本数据的情绪倾向结果,其中,所述情绪倾向结果包括正面情绪的数量或负面情绪的数量;计算模块330,用于根据所述情绪倾向结果得到经济信心指数。示例性地,所述分类模块320包括:特征提取模块321,用于对所述文本数据进行特征提取得到所述文本数据的分类特征;模型模块323,用于训练的分类模型。其中,分类特征包括观点触发词特征、观点主题特征、短语句法特征、词语表示特征、情感词特征、或情感上下文特征中的至少一个。示例性地,所述分类模型包括支持向量机模型,或随机森林模型、或决策树模型、或朴素贝叶斯模型。示例性,计算模块330包括:根据如下公式计算经济信心指数:其中,其中N表示文本数据中分类特征的数量,PosN表示分类特征包含的表达正面情绪的数量,NegN表示分类特征包含的表达负面情绪的数量。根据本专利技术另一方面,提供了一种文本数据的信息处理系统,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求上述方法的步骤。根据本专利技术另一方面,提供了一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机执行时实现上述方法的步骤。根据本专利技术实施例的文本数据的推荐方法、系统和计算机存储介质,通过结合文本处理和机器学习等相关技术,弥补了传统方法的数据采集时间长、成本高固有缺陷,为后续程序提供良好的数据基础。附图说明通过结合附图对本专利技术实施例进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本专利技术实施例的进一步理解,并且构成说明书的一部分,与本专利技术实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中,相同的参考标号通常代表相同部件或步骤。图1是用于实现根据本专利技术实施例的一种文本数据的信息处理方法的示意性流程图;图2是用于实现根据本专利技术实施例的不同短语所对应的短语句法路径的示意性原理图;图3是用于实现根据本专利技术实施例的一种文本数据的信息处理装置的示意性框图。具体实施方式为了使得本专利技术的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本专利技术的示例实施例。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是本专利技术的全部实施例,应理解,本专利技术不受这里描述的示例实施例的限制。基于本专利技术中描述的本专利技术实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本专利技术的保护范围之内。首先,参考图1来描述用于本专利技术实施例的一种文本数据的信息处理方法的示意流程图,包括:首先,在步骤S110,获取文本数据;在步骤S120,基于所述文本数据和已经训练好的分类模型得到所述文本数据的情绪倾向结果,其中,所述情绪倾向结果包括正面情绪的数量或负面情绪的数量;最后,在步骤S130,根据所述情绪倾向结果得到经济信心指数。根据本专利技术实施例,步骤S110可以进一步包括:所述本文档来自技高网...

【技术保护点】
1.一种基于文本数据的信息处理方法,其特征在于,所述方法包括:获取文本数据;基于所述文本数据和已经训练好的分类模型得到所述文本数据的情绪倾向结果,其中,所述情绪倾向结果包括正面情绪的数量或负面情绪的数量;根据所述情绪倾向结果得到经济信心指数。

【技术特征摘要】
1.一种基于文本数据的信息处理方法,其特征在于,所述方法包括:获取文本数据;基于所述文本数据和已经训练好的分类模型得到所述文本数据的情绪倾向结果,其中,所述情绪倾向结果包括正面情绪的数量或负面情绪的数量;根据所述情绪倾向结果得到经济信心指数。2.如权利要求1所述的信息处理方法,其特征在于,所述获取文本数据包括:基于互联网爬虫技术获取互联网中的所述文本数据。3.如权利要求1所述的信息处理方法,其特征在于,所述得到所述文本数据的情绪倾向结果包括:对所述文本数据进行特征提取得到所述文本数据的分类特征,其中,分类特征包括观点触发词特征、观点主题特征、短语句法特征、词语表示特征、情感词特征、或情感上下文特征中的至少一个。4.如权利要求3所述的信息处理方法,其特征在于,所述分类模型的训练包括:对已经标注情绪倾向的训练样本进行分类特征提取,并将所述分类特征作为输入,所述训练样本的情绪倾向结果作为输出,训练得到分类模型。5.如权利要求4所述的信息处理方法,其特征在于,所述分类模型包括支持向量机模型,或随机森林模型、或决策树模型、或朴素贝叶斯模型。6.如权利要求3-5中任一项所述的信息处理方法,其特征在于,所述进行观点触发词特征提取包括:基于文本样本,采用TFIDF计算文本样本中的词的权重,得到观点触发词的集合;根据所述观点触发词对所述文本数据进行观点触发词特征提取;或者所述进行观点主题特征提取包括:基于预定的观点主题关键词对所述文本数据进行观点主题特征提取;或者所述进行短语句法特征提取包括:采用短语句法分析器对所述文本数据进...

【专利技术属性】
技术研发人员:付博
申请(专利权)人:北京国信宏数科技有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1