基于自然语言处理技术的公网海量信息监测方法和系统技术方案

技术编号:20389789 阅读:26 留言:0更新日期:2019-02-20 02:49
本发明专利技术涉及一种基于自然语言处理技术的公网海量信息监测方法和系统、计算机设备、计算机存储介质。上述方法包括:以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据并使用自然语言处理技术对其进行文本分析;对各个公网文本数据进行分词处理,识别公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量;其中,有效词为公网文本数据中除停止词之外的词;所述有效词库为记录各个词分别对应的词权重的数据库;根据所述词向量将所述公网文本数据分类,分别对各类公网文本数据进行监测。其具有较高的监测效率,有效提高了相应的监测效果。

【技术实现步骤摘要】
基于自然语言处理技术的公网海量信息监测方法和系统
本专利技术涉及互联网
,特别是涉及一种基于自然语言处理技术的公网海量信息监测方法和系统、计算机设备、计算机存储介质。
技术介绍
随着互联网技术的高速发展,网民规模得到迅速扩大,越来越多的网民乐意通过微博、微信等互联网平台表达观点,网络信息传播的速度可以达到数小时之内传遍全球,因此及时掌握相关舆情等公网海量信息,无论对企业还是对相关管理机构,都有着至关重要的作用。而传统的舆情监测等网络信息(公网海量信息)监测手段需要依据相关信息主题进行相应的识别和筛选,再依据筛选后的信息实现其中的网络信息监测,这样容易造成信息遗漏,使监测效果差。
技术实现思路
基于此,有必要针对传统方案容易造成信息遗漏,使基于自然语言处理技术的公网海量信息监测效果差的技术问题,提供一种基于自然语言处理技术的公网海量信息监测方法和系统、计算机设备、计算机存储介质。一种基于自然语言处理技术的公网海量信息监测方法,包括:以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据;对各个公网文本数据进行分词处理,识别所述公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量;其中,所述有效词为公网文本数据中除停止词之外的词;所述有效词库为记录各个词分别对应的词权重的数据库;根据所述词向量将所述公网文本数据分类,分别对各类公网文本数据进行监测。上述基于自然语言处理技术的公网海量信息监测方法,可以根据预设的高频词爬取第一设定时间段内的公网文本数据,识别上述公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量,以将所述公网文本数据分类,再分别对各类公网文本数据进行监测;可以按类别对公网文本数据进行相应监测,具有较高的监测效率,且上述监测过程以公网文本数据所包括的有效词为依据,有效提高了相应的监测效果。在一个实施例中,所述词向量为依次记录相应公网文本数据中有效词词权重以及设定值的n维向量,n为有效词库的词量;所述根据所述词向量将所述公网文本数据分类的过程包括:分别计算任意两个词向量之间的余弦值,在所述余弦值大于相似阈值时,将所述余弦值对应的两个公网文本数据确定为一类文本数据。本实施例可以保证对公网文本数据进行分类处理的准确性。作为一个实施例,所述的分别计算任意相邻两个词向量之间的余弦值,在所述余弦值大于相似阈值时,将所述余弦值对应的两个公网文本数据确定为一类文本数据过程之后,还包括:将包括相同公网文本数据的多类文本数据确定为一类文本数据。本实施例中,与同一个公网文本数据为同类文本数据的多个公网文本数据之间的相似度较高,将这些文本数据确定为一类文本数据,以便采样相同或相似的监测方案同时对更多个公网文本数据进行网络信息监测,可以提高相应的监测效率。在一个实施例中,所述分别对各类公网文本数据进行监测的过程包括:识别各个公网数据文本的情感倾向参数;其中,所述情感倾向参数为表征相应公网数据文本积极程度的参数;将所述情感倾向参数小于情感阈值的公网文本数据确定为消极文本数据;统计各类公网文本数据的消极文本数据的个数,根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测。本实施例中,若消极文本数据的个数较多,表征该类公网文本数据可以引起相关舆论危机,需要进行预警等处理,以保证相关舆情处理的及时性。作为一个实施例,识别公网数据文本的情感倾向参数的过程包括:提取所述公网数据文本中的特征情感词,根据所述情感词库记录的各个情感词对应的情感偏向值确定所述特征情感词的情感偏向值;其中,所述情感词库为记录各个情感词分别对应的情感偏向值的数据库;计算所述公网数据文本对应的各个情感偏向值的平均值,根据所述平均值确定该公网数据文本的情感倾向参数。本实施例可以对公网数据文本的情感倾向参数进行准确确定。作为一个实施例,所述根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测的过程包括:若消极文本数据的个数大于或等于相应类别公网文本数据总数的设定比例,则产生预警信息。本实施例在消极文本数据的个数大于或等于相应类别公网文本数据总数的设定比例时产生预警信息,以便相关用户及时获知上述预警信息,可以进行相应应对,以预防舆论危机的产生。在一个实施例中,所述以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据的过程之前,还包括:采集第二设定时间段内的舆情事件,获取所述舆情事件中出现次数大于次数阈值的有效词,将所获取的有效词确定为高频词。本实施例可以对第二设定时间段内的舆情事件所包括的文本信息进行整理,运用统计学方法获取上述舆情事件中出现次数大于次数阈值的有效词,以识别舆情事件的高频词,实现对第一设定时间段内公网文本数据的爬取,保证爬取所得到的公网文本数据的有效性。一种基于自然语言处理技术的公网海量信息监测系统,包括:爬取模块,用于以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据;识别模块,用于对各个公网文本数据进行分词处理,识别所述公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量;其中,所述有效词为公网文本数据中除停止词之外的词;所述有效词库为记录各个词分别对应的词权重的数据库;监测模块,用于根据所述词向量将所述公网文本数据分类,分别对各类公网文本数据进行监测。上述基于自然语言处理技术的公网海量信息监测系统,可以根据预设的高频词爬取第一设定时间段内的公网文本数据,识别上述公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量,以将所述公网文本数据分类,再分别对各类公网文本数据进行监测;可以按类别对公网文本数据进行相应监测,具有较高的监测效率,且上述监测过程以公网文本数据所包括的有效词为依据,有效提高了相应的监测效果。一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例提供的基于自然语言处理技术的公网海量信息监测方法。一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述任一实施例提供的基于自然语言处理技术的公网海量信息监测方法。根据本专利技术的基于自然语言处理技术的公网海量信息监测方法,本专利技术还提供一种计算机设备和计算机存储介质,用于通过程序实现上述网络信息监测方法。上述计算机设备和计算机存储介质能够提高网络信息监测效果。附图说明图1为一个实施例的基于自然语言处理技术的公网海量信息监测方法流程图;图2为一个实施例的基于自然语言处理技术的公网海量信息监测系统结构示意图;图3为一个实施例的计算机系统模块图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。需要说明的是,本专利技术实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特本文档来自技高网...

【技术保护点】
1.一种基于自然语言处理技术的公网海量信息监测方法,其特征在于,包括:以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据;对各个公网文本数据进行分词处理,识别所述公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量;其中,所述有效词为公网文本数据中除停止词之外的词;所述有效词库为记录各个词分别对应的词权重的数据库;根据所述词向量将所述公网文本数据分类,分别对各类公网文本数据进行监测。

【技术特征摘要】
1.一种基于自然语言处理技术的公网海量信息监测方法,其特征在于,包括:以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据;对各个公网文本数据进行分词处理,识别所述公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量;其中,所述有效词为公网文本数据中除停止词之外的词;所述有效词库为记录各个词分别对应的词权重的数据库;根据所述词向量将所述公网文本数据分类,分别对各类公网文本数据进行监测。2.根据权利要求1所述的基于自然语言处理技术的公网海量信息监测方法,其特征在于,所述词向量为依次记录相应公网文本数据中有效词词权重以及设定值的n维向量,n为有效词库的词量;所述根据所述词向量将所述公网文本数据分类的过程包括:分别计算任意两个词向量之间的余弦值,在所述余弦值大于相似阈值时,将所述余弦值对应的两个公网文本数据确定为一类文本数据。3.根据权利要求2所述的基于自然语言处理技术的公网海量信息监测方法,其特征在于,所述的分别计算任意相邻两个词向量之间的余弦值,在所述余弦值大于相似阈值时,将所述余弦值对应的两个公网文本数据确定为一类文本数据过程之后,还包括:将包括相同公网文本数据的多类文本数据确定为一类文本数据。4.根据权利要求1至3任一项所述的基于自然语言处理技术的公网海量信息监测方法,其特征在于,所述分别对各类公网文本数据进行监测的过程包括:识别各个公网数据文本的情感倾向参数;其中,所述情感倾向参数为表征相应公网数据文本积极程度的参数;将所述情感倾向参数小于情感阈值的公网文本数据确定为消极文本数据;统计各类公网文本数据的消极文本数据的个数,根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测。5.根据权利要求4所述的基于自然语言处理技术的公网海量信息监测方法,其特征在于,识别公网数据文本的情感倾向参数的过程包括:提取所述公网数据文本中的特征情感词,...

【专利技术属性】
技术研发人员:江颖钟山沈超张馨陈锦聪
申请(专利权)人:广州帷策智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1