一种基于多语种舆情预警的方法技术

技术编号:36942002 阅读:43 留言:0更新日期:2023-03-22 19:03
本发明专利技术涉及一种基于多语种舆情预警的方法。本发明专利技术通过数据语种判断,进行归类翻译,满足中文用户简单阅读海内外全媒体数据的关键点;通过相近事件信息算法,实现简称、缩写、错别字、相近错别字、近义词等内容的识别,并进行相近信息事件归类,达到信息相近聚类的关键点,从而达到对不同语种所公布的信息进行舆情监测的目的,检测面更广,获取的信息更加的全面,舆情监测更加及时到位。舆情监测更加及时到位。舆情监测更加及时到位。

【技术实现步骤摘要】
一种基于多语种舆情预警的方法


[0001]本专利技术涉及网络信息处理
,具体为一种基于多语种舆情预警的方法。

技术介绍

[0002]具互联网各大机构统计,截止2021年,全球总人口数量达到78亿,互联网用户数量约达到48亿人,截止2022年1月,全球互联网用户数量达到49.5亿人,同比增长4%,互联网用户占总人口的62.5%。以及各大社交新闻平台发表内容越来越多,互联网和信息化技术发展越来越快等问题,网络信息对日常生活造成的影响也越来越大。随之而来的国内外网络舆情问题,便成了影响社会、企业稳定的重要因素,需要对海量舆情数据进行监控、分析以及预警。
[0003]目前的技术通常是针对中文简体的数据进行关键词抓取,如出现关键词频繁触发的问题,则判断为舆情问题,并进行预警通知。
[0004]而现如今该技术已无法满足全球各地多语种多社交平台自由发表言论的情况,且预警结果更多是跟关键词命中有关,无法满足舆情信息在出现未知关键内容时的问题。

技术实现思路

[0005]鉴于现有技术中所存在的问题,本专利技术公开了一种基于多语种舆情预警的方法,包括步骤如下:步骤一、通过数据爬虫技术进行国内全媒体和国外全媒体的数据采集,将采集到的数据进行临时存放,而数据爬虫应用的为其常用技术;步骤二、将采集回来临时存放的数据,通过判断规则进行数据发表语种的分类,并将分类好的被判定为中文繁体或其他语种的数据新增一个中译文翻译结果字段,将翻译后的数据储存到该字段,最终将翻译完成后的数据及被判定为中文简体的数据存放入采集数据库;步骤三、将所有采集到并入库的数据,都默认加入突发事件预警队列,通过常见分词提词的方式得到多个词语,并统计词汇出现次数,如多个词汇出现次数触碰到设定阈值,则判断该信息为突发信息,同步进行常用的关键词匹配逻辑,并将其作为预警信息通知用户;步骤四、将判断为突发信息的词汇进行自研相近事件信息算法处理,如有相近事件信息,则同样统计到信息预警队列,通过常见分词提词的方式得到多个词语,并统计词汇出现次数,如多个词汇出现次数触碰到设定阈值,将该信息判断为突发信息,并作为预警信息通知用户,以达到智能算法预警推送的功能。
[0006]作为本专利技术的一种优选方案,步骤二中所述数据发表语种的具体分类判断规则如下:(1)判断是否为中文简体:既该数据文本不包含标点符号的内容90%以上的字符为中文简体时,则将其归类到中文简体;
(2)判断是否为中文繁体或其他语种:既该数据文本不包含标点符号的内容90%以上的字符为中文繁体或其他语种时,则将其归类到中文繁体或其他语种。
[0007]作为本专利技术的一种优选方案,步骤三中统计词汇出现次数的统计方式是在排除广告词词库、助词词库、代词词库的基础上计算的。
[0008]作为本专利技术的一种优选方案,步骤四中所述自研相近事件信息算法是通过大批量相近词汇、相近事件、相近内容进行训练学习得出,用于判断一个词汇或信息是否有相近的信息或事件。
[0009]本专利技术的有益效果:本专利技术通过数据语种判断,进行归类翻译,满足中文用户简单阅读海内外全媒体数据的关键点;通过相近事件信息算法,实现简称、缩写、错别字、相近错别字、近义词等内容的识别,并进行相近信息事件归类,达到信息相近聚类的关键点,从而达到对不同语种所公布的信息进行舆情监测的目的,检测面更广,获取的信息更加的全面,舆情监测更加及时到位。
附图说明
[0010]图1为专利技术的语种分类判断规则示意图;
具体实施方式
[0011]实施例1
[0012]一种基于多语种舆情预警的方法,结合目前对国外媒体社交软件在讨论国际事件时的数据分析监测实验,包括步骤如下:步骤一、通过数据爬虫技术进行国内全媒体和国外全媒体的数据采集,将采集到的数据进行临时存放;其中,数据爬虫应用的为其常用技术,该信息是可以被采集的,采集过程是合法合规的;步骤二、将临时存放的数据取出,通过判断规则进行数据发表语种的分类,并将分类好的被判定为中文繁体或其他语种的数据新增一个中译文翻译结果字段,将翻译后的数据储存到该字段,最终将翻译完成后的数据及被判定为中文简体的数据存放入采集数据库;如图1所示,分类判断规则为:(1)判断是否为中文简体:既该数据文本不包含标点符号的内容90%以上的字符为中文简体时,则将其归类到中文简体;(2)判断是否为中文繁体或其他语种:既该数据文本不包含标点符号的内容90%以上的字符为中文繁体或其他语种时,则将其归类到中文繁体或其他语种;步骤三、将所有采集到并入库的数据,都默认加入突发事件预警队列,通过常见分词提词的方式得到多个词语,并统计词汇出现次数,该统计方式是在排除广告词词库、助词词库、代词词库的基础上计算的。从中提取词汇,如其中的词汇出现次数触碰到设定阈值,在以此词汇持续分析其他数据,如触发到一定阈值,则判断该信息为突发信息,同步进行常用的关键词匹配逻辑,并将其作为预警信息通知用户;步骤四、将判断为突发信息的词汇进行自研相近事件信息算法处理,如提及的词汇有相近信息,则通过算法处理,得到相近事件,则同样将提到的词汇频次统计到信息预警
队列,通过常见分词提词的方式得到多个词语,并统计词汇出现次数,如多个词汇出现次数触碰到设定阈值,将该信息判断为突发信息,并作为预警信息通知用户,以达到智能算法预警推送的功能。
[0013]所述自研相近事件信息算法是通过大批量相近词汇、相近事件、相近内容进行训练学习得出,用于判断一个词汇或信息是否有相近的信息或事件。
[0014]本文中未详细说明的部分为现有技术。
[0015]上述虽然对本专利技术的具体实施例作了详细说明,但是本专利技术并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本专利技术宗旨的前提下做出各种变化,而不具备创造性劳动的修改或变形仍在本专利技术的保护范围以内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多语种舆情预警的方法,其特征在于:包括步骤如下:步骤一、通过数据爬虫技术进行国内全媒体和国外全媒体的数据采集,将采集到的数据进行临时存放;步骤二、将采集回来临时存放的数据,通过判断规则进行数据发表语种的分类,并将分类好的被判定为中文繁体或其他语种的数据新增一个中译文翻译结果字段,将翻译后的数据储存到该字段,最终将翻译完成后的数据及被判定为中文简体的数据存放入采集数据库;步骤三、将所有采集到并入库的数据,都默认加入突发事件预警队列,通过常见分词提词的方式得到多个词语,并统计词汇出现次数,如多个词汇出现次数触碰到设定阈值,则判断该信息为突发信息,同步进行常用的关键词匹配逻辑,并将其作为预警信息通知用户;步骤四、将判断为突发信息的词汇进行自研相近事件信息算法处理,如有相近事件信息,则同样统计到信息预警队列,通过常见分词提词的方式得到多个词语,并统计词汇出现次数,如多个词汇出现次数触碰到设定阈值,...

【专利技术属性】
技术研发人员:田平陈学言张庆余王波
申请(专利权)人:广东数源智汇科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1