一种基于搜索记录的敏感词汇标记系统技术方案

技术编号:17596905 阅读:102 留言:0更新日期:2018-03-31 10:08
本发明专利技术公开了一种基于搜索记录的敏感词汇标记系统,其包括:顺序连接的文本获取部、文本拆分部、信息获取部和信息分析部,信息分析部还连接文本拆分部;进一步,信息获取部包括:依次连接的短语名获取单元和短语信息统计单元;信息分析部包括:连接短语信息统计单元、第一/二缓存区和敏感词汇库的第一/二信息判别单元,其中,第一/二缓存区还连接敏感词汇库。通过文本获取部获取众多用户搜索记录,进一步拆分统计包含的短语及短语信息,从而根据相应的标记要求标记出敏感词汇。本系统可有效利用了网络媒体的广播性,解决及时发掘新闻热点问题,从而及时对观众进行引导。系统结构简单,实用价值高。

A sensitive vocabulary marking system based on search records

The invention discloses a sensitive marker system, based on the search records including: text sequentially connected text acquisition section, resolution department, information acquisition and the Ministry of information analysis, information analysis department is also connected with text resolution; further, information acquisition part comprises successively connected phrase name acquisition unit and phrase information statistics unit; information analysis part includes: connecting phrase information statistical unit, the first / two buffer area and the sensitive vocabulary first / two information discrimination unit, wherein the first / two buffer is also connected with sensitive vocabulary. Through the text Acquisition Department, we can get a lot of user search records, and further split the phrases and phrase information contained in statistics, thus marking sensitive words according to the corresponding marking requirements. This system can effectively utilize the broadcast of network media, and solve the hot issue of news in time, so as to guide the audience in time. The structure of the system is simple and the practical value is high.

【技术实现步骤摘要】
一种基于搜索记录的敏感词汇标记系统
本专利技术涉及数据分析领域,尤其是一种基于搜索记录的敏感词汇标记系统。
技术介绍
科技的快速发展引起了信息传递的多样化,经济水平的提高又对人们工作效率提出新的要求。伴随着信息时代的发展,各种信息都在井喷式的增加,同时,信息的传递已不仅仅局限在新闻媒体的现场获取报道,已逐步发展到通过网络新媒体供人们查阅。而媒体工作者的人员又有限,而新闻的发生又往往不受人为控制和预测,而很多时候,第一手新闻的发现和发布都是普通网民,而对于突发性的新闻或谈论热点,往往在短时间内会引起众多网民的激烈讨论,而对应的新闻或热点,就需要及时发现以判断其价值观,进而对网民进行正确引导。
技术实现思路
本专利技术的专利技术目的在于:针对上述存在的问题,提供一种基于众多网民在特定时间段对某一问题的提及频率和参与提及该问题的网民数量,主动从网络大数据中获取突发新闻点的方案,解决新闻获取的不及时问题,以及媒体工作人员数量对获取新闻效率的限制问题。本专利技术采用的技术方案如下:一种基于搜索记录的敏感词汇标记系统,包括:顺序连接的文本获取部、文本拆分部、信息获取部和信息分析部,信息分析部还连接文本文档来自技高网...
一种基于搜索记录的敏感词汇标记系统

【技术保护点】
一种基于搜索记录的敏感词汇标记系统,其特征为,包括:顺序连接的文本获取部、文本拆分部、信息获取部和信息分析部,信息分析部还连接文本拆分部,其中:文本获取部,用于获取若干用户的搜索记录;文本拆分部,用于将所述若干用户的搜索记录分别拆分为若干短语;信息获取部,用于分别统计拆分后的所有短语中,各短语的短语信息;信息分析部,用于标记所述各短语中,短语信息携带的信息满足标记要求的短语为敏感词汇。

【技术特征摘要】
1.一种基于搜索记录的敏感词汇标记系统,其特征为,包括:顺序连接的文本获取部、文本拆分部、信息获取部和信息分析部,信息分析部还连接文本拆分部,其中:文本获取部,用于获取若干用户的搜索记录;文本拆分部,用于将所述若干用户的搜索记录分别拆分为若干短语;信息获取部,用于分别统计拆分后的所有短语中,各短语的短语信息;信息分析部,用于标记所述各短语中,短语信息携带的信息满足标记要求的短语为敏感词汇。2.如权利要求1所述的系统,其特征为,所述文本拆分部用于:将所述若干用户的搜索记录,按词性拆分为若干短语。3.如权利要求2所述的系统,其特征为,所述短语信息包括:短语数量和预定时段该短语出现的频率。4.如权利要去3所述的系统,其特征为,所述标记要求为:短语出现的频率下限和/或短语数量下限。5.如权利要求4所述的系统,其特征为,所述信息获取部包括:短语名获取单元,用于遍历所述拆分后的所有短语,获取若干短语名,所述若干短语名分别为在所述所有短语中至少出现一次的若干短语;短语信息统计单元,连接短语名获取单元,用于分别统计在预定时段所述若干短语名对应的短语在所述所有短语中出现的数量;和分析出所述若干短语名对应的短语在所述预定时段出现的频率。6.如权利要求5所述的系统,其特征为,还包括,连接所述信息分析部的敏感词汇库,用于...

【专利技术属性】
技术研发人员:罗艳
申请(专利权)人:四川九鼎智远知识产权运营有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1