基于自然语言处理技术的公网海量信息监测方法和系统技术方案

技术编号：20389789 阅读：26 留言：0更新日期：2019-02-20 02:49

本发明专利技术涉及一种基于自然语言处理技术的公网海量信息监测方法和系统、计算机设备、计算机存储介质。上述方法包括：以预设的高频词作为关键词，爬取第一设定时间段内的公网文本数据并使用自然语言处理技术对其进行文本分析；对各个公网文本数据进行分词处理，识别公网文本数据的有效词，根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重，以及依次记录公网文本数据中有效词词权重的词向量；其中，有效词为公网文本数据中除停止词之外的词；所述有效词库为记录各个词分别对应的词权重的数据库；根据所述词向量将所述公网文本数据分类，分别对各类公网文本数据进行监测。其具有较高的监测效率，有效提高了相应的监测效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于自然语言处理技术的公网海量信息监测方法和系统
本专利技术涉及互联网
，特别是涉及一种基于自然语言处理技术的公网海量信息监测方法和系统、计算机设备、计算机存储介质。
技术介绍
随着互联网技术的高速发展，网民规模得到迅速扩大，越来越多的网民乐意通过微博、微信等互联网平台表达观点，网络信息传播的速度可以达到数小时之内传遍全球，因此及时掌握相关舆情等公网海量信息，无论对企业还是对相关管理机构，都有着至关重要的作用。而传统的舆情监测等网络信息(公网海量信息)监测手段需要依据相关信息主题进行相应的识别和筛选，再依据筛选后的信息实现其中的网络信息监测，这样容易造成信息遗漏，使监测效果差。
技术实现思路
基于此，有必要针对传统方案容易造成信息遗漏，使基于自然语言处理技术的公网海量信息监测效果差的技术问题，提供一种基于自然语言处理技术的公网海量信息监测方法和系统、计算机设备、计算机存储介质。一种基于自然语言处理技术的公网海量信息监测方法，包括：以预设的高频词作为关键词，爬取第一设定时间段内的公网文本数据；对各个公网文本数据进行分词处理，识别所述公网文本数据的有效词，根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重，以及依次记录公网文本数据中有效词词权重的词向量；其中，所述有效词为公网文本数据中除停止词之外的词；所述有效词库为记录各个词分别对应的词权重的数据库；根据所述词向量将所述公网文本数据分类，分别对各类公网文本数据进行监测。上述基于自然语言处理技术的公网海量信息监测方法，可以根据预设的高频词爬取第一设定时间段内的公网文本数据，识别上述公网文本数据的有效...

【技术保护点】
1.一种基于自然语言处理技术的公网海量信息监测方法，其特征在于，包括：以预设的高频词作为关键词，爬取第一设定时间段内的公网文本数据；对各个公网文本数据进行分词处理，识别所述公网文本数据的有效词，根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重，以及依次记录公网文本数据中有效词词权重的词向量；其中，所述有效词为公网文本数据中除停止词之外的词；所述有效词库为记录各个词分别对应的词权重的数据库；根据所述词向量将所述公网文本数据分类，分别对各类公网文本数据进行监测。

【技术特征摘要】
1.一种基于自然语言处理技术的公网海量信息监测方法，其特征在于，包括：以预设的高频词作为关键词，爬取第一设定时间段内的公网文本数据；对各个公网文本数据进行分词处理，识别所述公网文本数据的有效词，根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重，以及依次记录公网文本数据中有效词词权重的词向量；其中，所述有效词为公网文本数据中除停止词之外的词；所述有效词库为记录各个词分别对应的词权重的数据库；根据所述词向量将所述公网文本数据分类，分别对各类公网文本数据进行监测。2.根据权利要求1所述的基于自然语言处理技术的公网海量信息监测方法，其特征在于，所述词向量为依次记录相应公网文本数据中有效词词权重以及设定值的n维向量，n为有效词库的词量；所述根据所述词向量将所述公网文本数据分类的过程包括：分别计算任意两个词向量之间的余弦值，在所述余弦值大于相似阈值时，将所述余弦值对应的两个公网文本数据确定为一类文本数据。3.根据权利要求2所述的基于自然语言处理技术的公网海量信息监测方法，其特征在于，所述的分别计算任意相邻两个词向量之间的余弦值，在所述余弦值大于相似阈值时，将所述余弦值对应的两个公网文本数据确定为一类文本数据过程之后，还包括：将包括相同公网文本数据的多类文本数据确定为一类文本数据。4.根据权利要求1至3任一项所述的基于自然语言处理技术的公网海量信息监测方法，其特征在于，所述分别对各类公网文本数据进行监测的过程包括：识别各个公网数据文本的情感倾向参数；其中，所述情感倾向参数为表征相应公网数据文本积极程度的参数；将所述情感倾向参数小于情感阈值的公网文本数据确定为消极文本数据；统计各类公网文本数据的消极文本数据的个数，根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测。5.根据权利要求4所述的基于自然语言处理技术的公网海量信息监测方法，其特征在于，识别公网数据文本的情感倾向参数的过程包括：提取所述公网数据文本中的特征情感词，...

【专利技术属性】
技术研发人员：江颖，钟山，沈超，张馨，陈锦聪，
申请(专利权)人：广州帷策智能科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人