一种基于多语种舆情预警的方法技术

技术编号：36942002 阅读：58 留言：0更新日期：2023-03-22 19:03

本发明专利技术涉及一种基于多语种舆情预警的方法。本发明专利技术通过数据语种判断，进行归类翻译，满足中文用户简单阅读海内外全媒体数据的关键点；通过相近事件信息算法，实现简称、缩写、错别字、相近错别字、近义词等内容的识别，并进行相近信息事件归类，达到信息相近聚类的关键点，从而达到对不同语种所公布的信息进行舆情监测的目的，检测面更广，获取的信息更加的全面，舆情监测更加及时到位。舆情监测更加及时到位。舆情监测更加及时到位。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多语种舆情预警的方法

[0001]本专利技术涉及网络信息处理
，具体为一种基于多语种舆情预警的方法。

技术介绍

[0002]具互联网各大机构统计，截止2021年,全球总人口数量达到78亿,互联网用户数量约达到48亿人,截止2022年1月,全球互联网用户数量达到49.5亿人,同比增长4％,互联网用户占总人口的62.5％。以及各大社交新闻平台发表内容越来越多，互联网和信息化技术发展越来越快等问题，网络信息对日常生活造成的影响也越来越大。随之而来的国内外网络舆情问题，便成了影响社会、企业稳定的重要因素，需要对海量舆情数据进行监控、分析以及预警。
[0003]目前的技术通常是针对中文简体的数据进行关键词抓取，如出现关键词频繁触发的问题，则判断为舆情问题，并进行预警通知。
[0004]而现如今该技术已无法满足全球各地多语种多社交平台自由发表言论的情况，且预警结果更多是跟关键词命中有关，无法满足舆情信息在出现未知关键内容时的问题。

技术实现思路

[0005]鉴于现有技术中所存在的问题，本专利...

【技术保护点】

【技术特征摘要】
1.一种基于多语种舆情预警的方法，其特征在于：包括步骤如下：步骤一、通过数据爬虫技术进行国内全媒体和国外全媒体的数据采集，将采集到的数据进行临时存放；步骤二、将采集回来临时存放的数据，通过判断规则进行数据发表语种的分类，并将分类好的被判定为中文繁体或其他语种的数据新增一个中译文翻译结果字段，将翻译后的数据储存到该字段，最终将翻译完成后的数据及被判定为中文简体的数据存放入采集数据库；步骤三、将所有采集到并入库的数据，都默认加入突发事件预警队列，通过常见分词提词的方式得到多个词语，并统计词汇出现次数，如多个词汇出现次数触碰到设定阈值，则判断该信息为突发信息，同步进行常用的关键词匹配逻辑，并将其作为预警信息通知用户；步骤四、将判断为突发信息的词汇进行自研相近事件信息算法处理，如有相近事件信息，则同样统计到信息预警队列，通过常见分词提词的方式得到多个词语，并统计词汇出现次数，如多个词汇出现次数触碰到设定阈值，...

【专利技术属性】
技术研发人员：田平，陈学言，张庆余，王波，
申请(专利权)人：广东数源智汇科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人