舆情极性预测方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:21453969 阅读:36 留言:0更新日期:2019-06-26 04:47
本发明专利技术涉及舆情极性预测方法、装置、计算机设备及存储介质,该方法包括获取舆情数据;基于双数组字典树的AC自动机对待分析数据进行情感特征信息提取,以得到特征数据;通过舆情极性预测模型对特征数据进行极性预测,以得到预测结果;输出所述预测结果。本发明专利技术通过双数组字典树的存储结构来构建情感词典,减少了磁盘IO读写次数和占用的物理存储空间,利用基于双数组字典树的AC自动机将舆情数据在情感词典内进行情感特征信息提取,将字符比较转化为状态转移,扫描待分析数据时完全不需要回溯,避免了多次回退扫描问题,通过舆情极性预测模型对特征数据进行极性预测,有效提高舆情极性预测分析的效率和准确性。

【技术实现步骤摘要】
舆情极性预测方法、装置、计算机设备及存储介质
本专利技术涉及信息处理方法,更具体地说是指舆情极性预测方法、装置、计算机设备及存储介质。
技术介绍
随着微信、微博等应用的快速发展,越来越多的网民通过互联网来表达观点。网络信息和社会信息的融合对社会产生的影响越来越大,甚至关系到国家的信息安全和长治久安。由于互联网上的信息量十分庞大,依靠人工的方法无法处理海量的舆情数据,要想全面、完整的获取舆情总体态势情况,需要依靠情感极性分析技术对舆情信息进行自动地监控及分析。现有的舆情分析应用系统,普遍采用的是关键词分析方法,不仅效率低,准确率也不高。基于传统的中文分词,进行模式匹配要多次回退扫描文本,性能效率比较低;现有的舆情分析应用系统采用较为粗糙地统计方法计算情感极性,由于特征信息的局限及上下文语境的影响,准确率不高;舆情情感词典占用存储空间比较大,带来性能上的损耗。因此,有必要设计一种新的方法,以解决中文分词的速度低、极性预测准确率低、性能上的损耗大的问题。
技术实现思路
本专利技术的目的在于克服现有技术的缺陷,提供舆情极性预测方法、装置、计算机设备及存储介质。为实现上述目的,本专利技术采用以下技术方案:舆情极性预测方法,包括:获取舆情数据;基于双数组字典树的AC自动机对待分析数据进行情感特征信息提取,以得到特征数据;通过舆情极性预测模型对特征数据进行极性预测,以得到预测结果;输出所述预测结果。其进一步技术方案为:所述基于双数组字典树的AC自动机是基于情感词典对待分析数据进行情感特征信息提取的多模匹配算法,所述情感词典是基于双数组字典树构建的。其进一步技术方案为:所述基于双数组字典树的AC自动机对待分析数据进行情感特征信息提取,以得到特征数据,包括:利用基于双数组字典树的AC自动机对待分析数据进行模式匹配,以得到输出结果;对输出结果进行情感特征信息提取,以得到特征数据。其进一步技术方案为:所述对基于双数组字典树的AC自动机进行模式匹配,以得到输出结果,包括:对所述待分析数据拆分为若干个字符;根据所述字符搜索情感词典;判断所述字符是否匹配;若匹配,则输出匹配的字符至设定集合中,以形成输出结果;判断当前的字符是否为最后一个字符;若是,则进入所述对输出结果进行情感特征信息提取,以得到特征数据;若否,则获取下一字符;返回所述根据所述字符搜索情感词典;若不匹配,则转向失效函数指向的字符;判断所述失效函数指向的字符是否空;若否,则输出所述失效函数指向的字符至设定集合中,以形成输出结果;返回所述判断当前的字符是否为最后一个字符;若是,则进入结束步骤。其进一步技术方案为:所述对输出结果进行情感特征信息提取,以得到特征数据,包括:将输出结果划分为若干个原子词语;建立用于存储数组图的邻接表;利用原子词语的偏移量确定原子词语的位置;将原子词语加入到邻接表内的数组相应的位置;基于维特比算法计算数组中两个节点的原子词语之间的距离;对邻接表存储的整个数组图进行打分;将所述距离最短的原子词语、位置以及属性信息加入设定的情感特征数据集合,以形成特征数据。其进一步技术方案为:所述通过舆情极性预测模型对特征数据进行极性预测,以得到预测结果中,所述舆情极性预测模型是通过情感词典所提取的情感特征数据集输入XGBoost模型中得到分类特征后,将分类特征输入至逻辑回归模型训练所得的模型。其进一步技术方案为:所述舆情极性预测模型是通过情感词典所提取的情感特征数据集输入XGBoost模型中得到分类特征后,将分类特征输入至逻辑回归模型进行训练所得的模型,包括:根据情感词典所提取的情感特征数据集构造决策树;将决策树输入至XGBoost模型中,以得到XGBoost模型和情感词典所提取的情感特征数据集实际输出的残差;根据所述残差构造新决策树;利用新决策树迭代所述决策树,以得到情感特征信息组合;将所述情感特征信息组合输入逻辑回归模型中,对逻辑回归模型进行训练;对训练后的逻辑回归模型进行模型持久化处理,以得到舆情极性预测模型。本专利技术还提供了舆情极性预测装置,包括:舆情数据获取单元,用于获取舆情数据;提取单元,用于基于双数组字典树的AC自动机对待分析数据进行情感特征信息提取,以得到特征数据;预测单元,用于通过舆情极性预测模型对特征数据进行极性预测,以得到预测结果;输出单元,用于输出所述预测结果。本专利技术还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。本专利技术还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。本专利技术与现有技术相比的有益效果是:本专利技术通过双数组字典树的存储结构来构建情感词典,减少了磁盘IO读写次数和占用的物理存储空间,利用基于双数组字典树的AC自动机将舆情数据在情感词典内进行情感特征信息提取,将字符比较转化为状态转移,扫描待分析数据时完全不需要回溯,避免了多次回退扫描问题,通过舆情极性预测模型对特征数据进行极性预测,有效提高舆情极性预测分析的效率和准确性。下面结合附图和具体实施例对本专利技术作进一步描述。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的舆情极性预测方法的应用场景示意图;图2为本专利技术实施例提供的舆情极性预测方法的流程示意图;图3为本专利技术实施例提供的舆情极性预测方法的子流程示意图;图4为本专利技术实施例提供的舆情极性预测方法的子流程示意图;图5为本专利技术实施例提供的舆情极性预测方法的子流程示意图;图6为本专利技术实施例提供的舆情极性预测方法的子流程示意图;图7为本专利技术实施例提供的状态转移图;图8为本专利技术实施例提供的失效函数的示意图;图9为本专利技术实施例提供的舆情极性预测示意图;图10为本专利技术实施例提供的舆情极性预测装置的示意性框图;图11为本专利技术实施例提供的计算机设备的示意性框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。请参阅图1和图2,图1为本专利技术实施例提供的舆情极性预测方法的应用场景示意图。图2为本专利技术实施例提供的舆情极性预测方本文档来自技高网...

【技术保护点】
1.舆情极性预测方法,其特征在于,包括:获取舆情数据;基于双数组字典树的AC自动机对待分析数据进行情感特征信息提取,以得到特征数据;通过舆情极性预测模型对特征数据进行极性预测,以得到预测结果;输出所述预测结果。

【技术特征摘要】
1.舆情极性预测方法,其特征在于,包括:获取舆情数据;基于双数组字典树的AC自动机对待分析数据进行情感特征信息提取,以得到特征数据;通过舆情极性预测模型对特征数据进行极性预测,以得到预测结果;输出所述预测结果。2.根据权利要求1所述的舆情极性预测方法,其特征在于,所述基于双数组字典树的AC自动机是基于情感词典对待分析数据进行情感特征信息提取的多模匹配算法,所述情感词典是基于双数组字典树构建的。3.根据权利要求2所述的舆情极性预测方法,其特征在于,所述基于双数组字典树的AC自动机对待分析数据进行情感特征信息提取,以得到特征数据,包括:利用基于双数组字典树的AC自动机对待分析数据进行模式匹配,以得到输出结果;对输出结果进行情感特征信息提取,以得到特征数据。4.根据权利要求3所述的舆情极性预测方法,其特征在于,所述对基于双数组字典树的AC自动机进行模式匹配,以得到输出结果,包括:对所述待分析数据拆分为若干个字符;根据所述字符搜索情感词典;判断所述字符是否匹配;若匹配,则输出匹配的字符至设定集合中,以形成输出结果;判断当前的字符是否为最后一个字符;若是,则进入所述对输出结果进行情感特征信息提取,以得到特征数据;若否,则获取下一字符;返回所述根据所述字符搜索情感词典;若不匹配,则转向失效函数指向的字符;判断所述失效函数指向的字符是否空;若否,则输出所述失效函数指向的字符至设定集合中,以形成输出结果;返回所述判断当前的字符是否为最后一个字符;若是,则进入结束步骤。5.根据权利要求4所述的舆情极性预测方法,其特征在于,所述对输出结果进行情感特征信息提取,以得到特征数据,包括:将输出结果划分为若干个原子词语;建立用于存储数组图的邻接表;利用原子词语的偏移量确定原子词语的位置;将原子词语加入到邻接表内的数组相应的位置;基于维特比算法计算数组中...

【专利技术属性】
技术研发人员:耿伟谷国栋周起如
申请(专利权)人:深圳市赛为智能股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1