一种关键词生成方法、舆情监测方法、装置、设备和介质制造方法及图纸

技术编号:27772324 阅读:31 留言:0更新日期:2021-03-23 12:53
本发明专利技术属于网络监控技术领域,尤其涉及一种关键词生成方法、舆情监测方法、装置、设备和介质。所述方法包括:获取环境语料信息,从所述环境语料信息中提取语料词,得到语料词集合;根据预设的噪音语料词库对所述语料词集合包含的语料词进行筛选,以去除噪音语料词;对去除噪音语料词后的所述语料词集合中的各个语料词进行权重计算,并将权重由高到低的预设数量的语料词集合成关键词集合进行输出。本发明专利技术实施例中提供的关键词生成方法能够通过对环境语料信息进行语料词提取分析,自动生成环境舆情相关的关键词,提高关键词生成的速度和全面性,有助于提高环境舆情监测的效率和效果。

【技术实现步骤摘要】
一种关键词生成方法、舆情监测方法、装置、设备和介质
本专利技术属于网络监控
,尤其涉及一种关键词生成方法、舆情监测方法、装置、设备和介质。
技术介绍
随着信息化的发展和社交网络的兴起,环境污染信息通过微博、网络论坛、微信公众号、自媒体平台等多种渠道在互联网中传播并引起讨论,这类网络舆情表达了民众对环境状况、环境污染、安全监管所产生的关注态度,这在一定程度上拓宽政府了解环境状况与民意的渠道,但也增大了政府网络舆情监测的难度。关键词通常是一段简短、具有总结性的内容,它能够描述较长文本中的主题信息。高质量的关键词能够为舆情监测系统提供索引信息,为用户提供高度精炼、有价值的信息。关键词的抽取技术是自然语言处理中的一个重要任务,它在信息检索、问答系统、文本摘要、搜索引擎索引等任务上发挥着重要作用。环境领域的关键词可为环境领域的舆情监测提供检索词汇,提高舆情监测精度和效率。目前,传统的关键词生成方法,以领域专家经验为主导,在对概念的遴选上有严格的规范要求,大多是手工编撰,使得关键词更新慢、成本高。由于网络舆情与传统舆情不同,其具有的互动性与即时性更强,用语更加丰富与多元化,情绪化与非理性化更加明显。因而传统的关键词生成方法在面向网络语料时,存在一定局限。所以,目前主要依靠传统的人为定义环境舆情关键词的方式更新慢、对人的依赖性大,不能够及时的反映网络传播的真实性,不便于环境舆情的监测。
技术实现思路
本专利技术实施例的目的在于提供一种关键词生成方法,旨在解决现有技术主要依靠人为定义舆情关键词的方式存在更新慢、依赖性大且不及时的缺点。本专利技术实施例是这样实现的,一种关键词生成方法,所述方法包括:获取环境语料信息,从所述环境语料信息中提取语料词,得到语料词集合;根据预设的噪音语料词库对所述语料词集合包含的语料词进行筛选,以去除噪音语料词;对去除噪音语料词后的所述语料词集合中的各个语料词进行权重计算,并将权重由高到低的预设数量的语料词集合成关键词集合进行输出。本专利技术实施例的另一目的在于提供一种舆情监测方法,所述方法包括:获取环境舆情信息,对所述环境舆情信息进行分词处理,确定至少一个舆情语料词;将所述舆情语料词与预设的关键词集合中的关键词进行比较,若所述舆情语料词中至少一个与所述预设的关键词集合中的关键词相同,则发送报警信息至客户端进行报警,所述预设的关键词集合由执行本专利技术实施例中的关键词生成方法得到。本专利技术实施例的另一目的在于提供一种关键词生成装置,所述装置包括:语料词提取单元,用于获取环境语料信息,从所述环境语料信息中提取语料词,得到语料词集合;语料词筛选单元,用于根据预设的噪音语料词库对所述语料词集合包含的语料词进行筛选,以去除噪音语料词;关键词确定单元,用于对去除噪音语料词后的所述语料词集合中的各个语料词进行权重计算,并将权重由高到低的预设数量的语料词集合成关键词集合进行输出。本专利技术实施例的另一目的在于提供一种舆情监测装置,所述装置包括:信息获取单元,用于获取环境舆情信息,对所述环境舆情信息进行分词处理,确定至少一个舆情语料词;信息监测单元,用于将所述舆情语料词与预设的关键词集合中的关键词进行比较,若所述舆情语料词中至少一个与所述预设的关键词集合中的关键词相同,则发送报警信息至客户端进行报警,所述预设的关键词集合由执行本专利技术实施例中的关键词生成方法得到。本专利技术实施例的另一目的在于提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行本专利技术实施例中的关键词生成方法或舆情监测方法的步骤。本专利技术实施例的另一目的在于提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行本专利技术实施例中的关键词生成方法或舆情监测方法的步骤。本专利技术实施例提供的一种关键词生成方法,通过对环境语料信息进行语料词的筛选和计算,能够快速地将网络中的环境语料关键词提取出来,提高了关键词生成的速度和准确性,能够实时跟上网络舆情言论更新的速度。附图说明图1为本专利技术实施例提供的关键词生成方法的应用环境图;图2为本专利技术实施例提供的关键词生成方法的流程图;图3为本专利技术实施例提供的提取语料词的流程图;图4为本专利技术实施例提供的去除噪音语料词的流程图;图5为本专利技术实施例提供的另一种关键词生成方法的流程图;图6为本专利技术实施例提供的舆情监测方法的流程图;图7为本专利技术实施例提供的关键词生成装置的结构框图;图8为本专利技术实施例提供的语料词提取单元的结构框图;图9为本专利技术实施例提供的关键词确定单元的结构框图;图10为本专利技术实施例提供的另一种关键词生成装置的结构框图;图11为本专利技术实施例提供的舆情监测装置的结构框图;图12为一个实施例中计算机设备的内部结构框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。图1为本专利技术实施例提供的关键词生成方法的应用环境图,如图1所示,在该应用环境中,包括终端110以及计算机设备120。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端110以及计算机设备120可以通过网络进行连接,本专利技术在此不做限制。计算机设备120可以是独立的物理服务器或终端,也可以是多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。在本专利技术实施例的上述实施环境中,本专利技术的关键词生成方法应用于其中一个计算机设备120,从终端110和其他计算机设备中获取环境语料数据,通过执行本专利技术实施例中的关键词生成方法确定关键词。实施例一如图2所示,在一个实施例中,提出了一种关键词生成方法,本实施例主要以该方法应用于上述图1中的计算机设备120来举例说明。一种关键词生成方法,具体可以包括以下步骤:步骤S202,获取环境语料信息,从环境语料信息中捉取语料词,得到语料词集合。在本专利技术实施例中,环境语料信息是指与环境领域相关的语料信息,比如环境论坛、环境政务投诉论坛、省市政府的生态环境局局长公开信箱、各级行政单元的12369环境网络举报平台等网络平台公开的环境语料信息,本专利技术实施例中获取环境语料信息的方式可以是通过网络爬虫技本文档来自技高网...

【技术保护点】
1.一种关键词生成方法,其特征在于,所述方法包括:/n获取环境语料信息,从所述环境语料信息中提取语料词,得到语料词集合;/n根据预设的噪音语料词库对所述语料词集合包含的语料词进行筛选,以去除噪音语料词;/n对去除噪音语料词后的所述语料词集合中的各个语料词进行权重计算,并将权重由高到低的预设数量的语料词集合成关键词集合进行输出。/n

【技术特征摘要】
1.一种关键词生成方法,其特征在于,所述方法包括:
获取环境语料信息,从所述环境语料信息中提取语料词,得到语料词集合;
根据预设的噪音语料词库对所述语料词集合包含的语料词进行筛选,以去除噪音语料词;
对去除噪音语料词后的所述语料词集合中的各个语料词进行权重计算,并将权重由高到低的预设数量的语料词集合成关键词集合进行输出。


2.根据权利要求1所述的关键词生成方法,其特征在于,所述获取环境语料信息,从所述环境语料信息中提取语料词,得到语料词集合,具体包括:
获取环境语料信息,所述环境语料信息至少包括至少一个语料文本;
对所述语料文本的文字从左到右和/或从右到左依次与预设词库字典库中的词进行对比,确定所述语料文本中包含的所有语料词,并生成语料词集合。


3.根据权利要求2所述的关键词生成方法,其特征在于,所述对去除噪音语料词后的所述语料词集合中的语料词进行权重计算,并将权重由高到低的预设数量的语料词构成关键词集合进行输出,具体包括:
根据一个语料词在一个所述语料文本中出现的次数和在同一所述语料文本中所有语料词出现的次数之和计算所述一个语料词的出现频率;
根据所述环境语料信息中包含所述语料文本的数量和包含有所述一个语料词的所述语料文本的数量,来计算所述一个语料词的逆向文件频率;
根据所述一个语料词的所述出现频率和所述逆向文件频率计算所述一个语料词的权重;
将所述语料词集合中的所有语料词的权重计算之后,将权重由高到低的预设数量的语料词集合成关键词集合进行输出。


4.根据权利要求1所述的关键词生成方法,其特征在于,所述根据预设的噪音语料词库对所述语料词集合包含的语料词进行筛选,以去除噪音语料词,具体为:
将所述语料词集合包含的语料词逐一与预设的噪音语料词库中包含的噪音语料词进行对比,若一致,则将所述语料词从所述语料词集合中筛除;所述预设的噪音语料词库中包含的噪音语料词至少包括停用词和标点符号中的一种或两种的组合。


5.根据权利要求1所述的关键词生成方法,其特征在于,所述将所述语料词集合中的所有语料词的权重计算之后,将权重由高到低的预设数量的语料词作为关键词进行输出之前,还包括:
将所述权重由高到低的预设数量的语料...

【专利技术属性】
技术研发人员:黄翔张明锋
申请(专利权)人:福建师范大学地理研究所
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1