System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及计算机应用,更具体地涉及一种舆情数据的查询方法。
技术介绍
1、随着信息技术的飞速发展,社交媒体组成的舆情平台作为信息载体平台越来越重要,汇聚各类主流舆情平台主题数据并加以分析也随之越来越普遍;以往互联网舆情事件查询,需要人为确认事件关键词,然后在各个舆情平台查询筛选,最后汇聚排序,这种方式存在着耗时长、无法自动化等问题。
2、舆情分析工作过程中,需要根据某平台的某条消息反映的事件问题,自动检索各个平台对此事件舆情情况,来追踪事件的发酵过程和程度;精准高效的批量查询相同事件舆情的方法就尤为重要。
技术实现思路
1、鉴于上述问题,本公开提供了一种可以批量查询相同事件的舆情数据的查询方法。
2、本公开提供了一种舆情数据的查询方法,包括:对待查询舆情信息进行预处理,得到预处理后的待查询舆情信息;预处理至少包括内容分词、词性标识和命名体识别;利用词性标识结果、命名体识别结果,重组与扩展待查询舆情信息,得到重组扩展信息;重组扩展信息为对待查询舆情信息重组与扩展后得到的多个词组的集合;计算舆情数据库中的舆情信息与重组扩展信息之间的相似度,将相似度大于预设阈值的舆情数据存储至相同事件列表;舆情数据库包括各平台采集的舆情信息。
3、根据本公开的实施例,对待查询舆情信息的内容进行预处理,包括:将待查询舆情信息进行内容分词,得到分词结果;针对分词结果中的每个分词进行词性标识;利用词性标识结果,对待查询舆情信息进行重组,得到重组信息;重组信息为对待查询舆情信
4、根据本公开的实施例,利用词性标识结果,对待查询舆情信息进行重组,包括:根据词性标识结果,针对每一个名词,以名词为基础选取预设数量的临近的分词作为词组;剔除词组中重复的词组,得到重组信息。
5、根据本公开的实施例,命名体识别结果包括重组信息中每一词组是否为命名实体,和每一命名实体词组的实体类别;实体类别包括人名、机构名、地名;利用命名体识别结果,根据业务词典库扩展重组信息,得到重组扩展信息包括:根据实体类别确认业务词典库,利用业务词典库扩展命名实体词组,得到重组扩展信息。
6、根据本公开的实施例,得到重组扩展信息,之前还包括:针对重组信息中的每一词组和扩展后的命名实体词组进行词性识别,剔除与预设词性不一致的词组,得到重组扩展信息。
7、根据本公开的实施例,计算舆情数据库中的舆情信息与重组扩展信息之间的相似度,之前还包括:构建舆情数据库,包括:采集各平台的舆情数据;舆情数据至少包括舆情信息、发布时间、平台、发布者;对舆情信息进行内容分词、词性标识,利用词性标识结果,得到重组后的舆情信息;重组后的舆情信息为对舆情信息重组后得到的多个词组的集合;以发布时间、平台、发布者为主键,将重组后的舆情信息存储至舆情数据库。
8、根据本公开的实施例,计算舆情数据库中的舆情信息与舆情扩展信息之间的相似度,包括:确定重组扩展信息与舆情信息的重叠词组;利用重叠词组的词性,确定重叠词组的重要程度分类;根据预设的词组分类权重,得到重叠词组的重叠程度;利用重叠程度,计算重组扩展信息与舆情信息之间的相似度;其中,重叠词组的重叠程度的计算公式如下:
9、
10、式中,n为舆情扩展信息的词组总数;m为舆情信息与舆情扩展信息的重叠词组总数;a为预设的重要词组权重值,b为预设的非重要词组权重值;b为重叠词组中非重要词组的个数;k为预设调整系数。
11、本公开的第二方面提供了一种舆情数据的查询装置,配置为能够用于实现上述舆情数据的查询方法,包括:信息预处理模块,用于对待查询舆情信息进行预处理,得到预处理后的待查询舆情信息;预处理至少包括内容分词、词性标识和命名体识别;词组生成模块,用于利用词性标识结果、命名体识别结果,重组与扩展待查询舆情信息,得到重组扩展信息;重组扩展信息为对待查询舆情信息重组与扩展后得到的多个词组的集合;相似度计算模块,用于计算舆情数据库中的舆情信息与重组扩展信息之间的相似度,将相似度大于预设阈值的舆情数据存储至相同事件列表;舆情数据库包括各平台采集的舆情信息。
12、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述舆情数据的查询方法。
13、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述舆情数据的查询方法。
14、根据本公开提供的舆情数据的查询方法,通过自然语言分析,对舆情内容进行预处理。由于,对舆情内容进行重组扩展后能更精准的匹配事件,因此,至少部分的解决了特征提取不精准的技术问题,实现了高效、自动化查询相同事件的舆情的技术效果。
本文档来自技高网...【技术保护点】
1.一种舆情数据的查询方法,其特征在于,包括:
2.根据权利要求1所述的方法,其中,所述对待查询舆情信息的内容进行预处理,包括:
3.根据权利要求2所述的方法,其中,所述利用词性标识结果,对所述待查询舆情信息进行重组,包括:
4.根据权利要求2所述的方法,其中,所述命名体识别结果包括所述重组信息中每一词组是否为命名实体,和每一命名实体词组的实体类别;所述实体类别包括人名、机构名、地名;所述利用命名体识别结果,根据业务词典库扩展所述重组信息,得到重组扩展信息包括:
5.根据权利要求4所述的方法,其中,所述得到所述重组扩展信息,之前还包括:
6.根据权利要求1所述的方法,其中,所述计算舆情数据库中的舆情信息与所述重组扩展信息之间的相似度,之前还包括:
7.根据权利要求6所述的方法,其中,所述计算舆情数据库中的舆情信息与所述舆情扩展信息之间的相似度,包括:
8.一种舆情数据的查询装置,其特征在于,配置为能够用于实现权利要求1~7任一项所述的舆情数据的查询方法,包括:
9.一种电子设备,包括:
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。
...【技术特征摘要】
1.一种舆情数据的查询方法,其特征在于,包括:
2.根据权利要求1所述的方法,其中,所述对待查询舆情信息的内容进行预处理,包括:
3.根据权利要求2所述的方法,其中,所述利用词性标识结果,对所述待查询舆情信息进行重组,包括:
4.根据权利要求2所述的方法,其中,所述命名体识别结果包括所述重组信息中每一词组是否为命名实体,和每一命名实体词组的实体类别;所述实体类别包括人名、机构名、地名;所述利用命名体识别结果,根据业务词典库扩展所述重组信息,得到重组扩展信息包括:
5.根据权利要求4所述的方法,其中,所述得到所述重...
【专利技术属性】
技术研发人员:刘春来,向亮,
申请(专利权)人:武汉众智数字技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。