用于海外投资风险预警的网络舆情检测方法及系统技术方案

技术编号:20329907 阅读:29 留言:0更新日期:2019-02-13 06:13
本发明专利技术涉及一种用于海外投资风险预警的网络舆情检测方法及系统,所述网络舆情检测方法包括:采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息;根据所述有效舆情信息,确定海外投资风险情报。本发明专利技术通过采用聚焦爬虫技术,进行网络数据的采集和处理,可有效综合国际舆情信息,进而根据所述有效舆情信息,确定海外投资风险情报,可提高海外投资风险预警的及时性和准确性。

【技术实现步骤摘要】
用于海外投资风险预警的网络舆情检测方法及系统
本专利技术涉及网络舆情监测领域,特别是涉及一种用于海外投资风险预警的网络舆情检测方法及系统。
技术介绍
我国走出去企业面临各国政治、经济、产业、技术、金融、税收、政策、资源、环保、生态、生物、自然灾害等多维度风险因素,加之战争动乱、恐怖活动、反华势力等不利影响,往往使我国海外投资项目遭受重大损失的案例时有发生。国际舆情是在全球范围社会空间内,人们对于政治、经济、社会、道德等某一现象和问题所表达的信念、态度、意见和情绪等现象。舆情监测对于我国走出去企业的投资安全具有重要意义,利用互联网舆情监控系统,可以从纷繁复杂的涉华舆情信息中及时预判出即将出现的政治、经济、文化、宗教、社会风险,并通知年企业提前做好预案。然而,由于无法有效的综合国际舆情信息,从而导致海外投资风险预警的及时性和准确性都比较差。
技术实现思路
为了解决现有技术中的上述问题,即为了解决有效的综合国际舆情信息,提高海外投资风险预警的及时性和准确性,本专利技术提供了一种用于海外投资风险预警的网络舆情检测方法及系统。为解决上述技术问题,本专利技术提供了如下方案:一种用于海外投资风险预警的网络舆情检测方法,所述网络舆情检测方法包括:采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息;根据所述有效舆情信息,确定海外投资风险情报。可选的,所述采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息,具体包括:通过过滤无关页面和链接,获取主题相关页面;对主题相关页面中的数据进行格式统一和语义理解,得到标准词汇;根据所述标准词汇,分析情感倾向,确定网民观点;根据所述网民观点,进行事件分析及层级构建,挖掘提炼出有效舆情信息。可选的,所述根据所述有效舆情信息,确定海外投资风险情报,具体包括:从所述有效舆情信息中,识别热点事件的信息内容,以文本形式保存;通过各所述信息内容,对不同话题进行关联检测;根据关联检测结果,将针对同一话题的报道归为一类舆情信息;追踪各类舆情信息的后续报道,分析对应话题的发展趋势以及倾向性,探究出不同的事件在网络舆情中的发生发展和演变机理,确定海外投资风险情报。可选的,所述通过各所述信息内容,对不同话题进行关联检测,具体采用以下任意方法:相似度计算方法,话题检测方法,话题追踪方法,极性词典的构建及情感分析方法。可选的,(1)通过各所述信息内容,基于相似度计算方法,对不同话题进行关联检测,具体包括:建立信息内容的特征向量;通过以下欧氏距离计算公式获取信息内容间相似度:其中,n表示信息内容的特征向量数量,k=1,2,…,n;xak表示第a信息内容的第k个特征向量,xbk表示第二信息内容的第k个特征向量,dab表示第a信息内容与第b信息内容的相似度值;根据各相似度值,进行聚类并去掉冗余信息;(2)通过各所述信息内容,基于话题检测方法,对不同话题进行关联检测,具体包括:根据以下公式,将m个特征空间中的特征点划分为指定为q类:其中,Cj是第j个聚类类别,μj是第j个聚类类别所对应的聚类中心,xi是属于类别Cj的数据点;R表示基于话题检测方法的关联检检测结果;(3)通过各所述信息内容,基于话题追踪方法,对不同话题进行关联检测,具体包括:在基于话题检测方法的关联检检测结果的基础上进行话题追踪分析,分析结果为整个话题的起因、发展、消亡过程;通过自适应话题追踪算法完成话题追踪,构造多个话题修正模型,实现话题动态的及时反馈;(4)通过各所述信息内容,基于极性词典的构建及情感分析方法,对不同话题进行关联检测,具体包括:基于基础词典、网络词词典、领域词典以及修饰词词典中至少一者,构建极性词典;基于极性词典的情感分析,在极性词典的匹配基础上,采用支持向量机SVM方法完成极性分类。可选的,所述分析对应话题的发展趋势以及倾向性具体采用以下方法中至少一者:溯源分析、态势分析、趋势预测、波及范围分析、影响程度分析、重点任务社会关系图谱、舆论倾向分析。可选的,所述网络舆情检测方法还包括:接收用户查询请求;根据所述查询请求,进行检索,得到数据信息;将数据信息以图形图像可视化的形式呈现出来;生成的初级报告。可选的,所述网络舆情检测方法还包括:通过分布式综合集成数据库,对有效舆情信息及海外投资风险情报进行存储和管理。可选的,所述通过分布式综合集成数据库对有效舆情信息及海外投资风险情报进行存储和管理,具体包括:基于Hadoop搭建大数据云存储平台,支持结构化数据、半结构化数据和非结构化数据的分布式存储和并行计算,实现PB级多源异构大数据的批量和流式处理。为解决上述技术问题,本专利技术还提供了如下方案:一种用于海外投资风险预警的网络舆情检测系统,所述网络舆情检测系统包括:采集处理单元,用于采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息;舆情分析单元,用于根据所述有效舆情信息,确定海外投资风险情报。根据本专利技术的实施例,本专利技术公开了以下技术效果:本专利技术通过采用聚焦爬虫技术,进行网络数据的采集和处理,可有效综合国际舆情信息,进而根据所述有效舆情信息,确定海外投资风险情报,可提高海外投资风险预警的及时性和准确性。附图说明图1是本专利技术用于海外投资风险预警的网络舆情检测方法的流程图;图2是本专利技术用于海外投资风险预警的网络舆情检测方法的实施例示意图;图3是本专利技术用于海外投资风险预警的网络舆情检测系统的模块结构示意图。符号说明:采集处理单元—1,舆情分析单元—2,接收单元—3,查询单元—4,生成单元—5。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。本专利技术的目的在于提供一种用于海外投资风险预警的网络舆情检测方法,通过采用聚焦爬虫技术,进行网络数据的采集和处理,可有效综合国际舆情信息,进而根据所述有效舆情信息,确定海外投资风险情报,可提高海外投资风险预警的及时性和准确性。如图1所示,本专利技术用于海外投资风险预警的网络舆情检测方法包括:步骤100:采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息。步骤200:根据所述有效舆情信息,确定海外投资风险情报。步骤300:接收用户查询请求。步骤400:根据所述查询请求,进行检索,得到数据信息;将数据信息以图形图像可视化的形式呈现出来。步骤500:生成的初级报告。其中,聚焦爬虫是在普通爬虫的基础上引入页面相关性分析和URL优先级判断两个模块。在步骤100中,所述采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息,具体包括:步骤101:通过过滤无关页面和链接,获取主题相关页面;步骤102:对主题相关页面中的数据进行格式统一和语义理解,得到标准词汇;步骤103:根据所述标准词汇,分析情感倾向,确定网民观点;步骤104:根据所述网民观点,进行事件分析及层级构建,挖掘提炼出有效舆情信息。在步骤200中,所述根据所述有效舆情信息,确定海外投资风险情报,具体包括:步骤201:从所述有效舆情信息中,识别热点事件的信息内容,以文本形式保存。步骤202:通过各所述信息内容,对不同话题进行关联检测。可具体采用相似度计算方法,话题检测方法,话题追踪方法,极性词典的构建及情感分析方法中任意一者,对不本文档来自技高网...

【技术保护点】
1.一种用于海外投资风险预警的网络舆情检测方法,其特征在于,所述网络舆情检测方法包括:采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息;根据所述有效舆情信息,确定海外投资风险情报。

【技术特征摘要】
1.一种用于海外投资风险预警的网络舆情检测方法,其特征在于,所述网络舆情检测方法包括:采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息;根据所述有效舆情信息,确定海外投资风险情报。2.根据权利要求1所述的用于海外投资风险预警的网络舆情检测方法,其特征在于,所述采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息,具体包括:通过过滤无关页面和链接,获取主题相关页面;对主题相关页面中的数据进行格式统一和语义理解,得到标准词汇;根据所述标准词汇,分析情感倾向,确定网民观点;根据所述网民观点,进行事件分析及层级构建,挖掘提炼出有效舆情信息。3.根据权利要求1所述的用于海外投资风险预警的网络舆情检测方法,其特征在于,所述根据所述有效舆情信息,确定海外投资风险情报,具体包括:从所述有效舆情信息中,识别热点事件的信息内容,以文本形式保存;通过各所述信息内容,对不同话题进行关联检测;根据关联检测结果,将针对同一话题的报道归为一类舆情信息;追踪各类舆情信息的后续报道,分析对应话题的发展趋势以及倾向性,探究出不同的事件在网络舆情中的发生发展和演变机理,确定海外投资风险情报。4.根据权利要求3所述的用于海外投资风险预警的网络舆情检测方法,其特征在于,所述通过各所述信息内容,对不同话题进行关联检测,具体采用以下任意方法:相似度计算方法,话题检测方法,话题追踪方法,极性词典的构建及情感分析方法。5.根据权利要求4所述的用于海外投资风险预警的网络舆情检测方法,其特征在于,(1)通过各所述信息内容,基于相似度计算方法,对不同话题进行关联检测,具体包括:建立信息内容的特征向量;通过以下欧氏距离计算公式获取信息内容间相似度:其中,n表示信息内容的特征向量数量,k=1,2,…,n;xak表示第a信息内容的第k个特征向量,xbk表示第二信息内容的第k个特征向量,dab表示第a信息内容与第b信息内容的相似度值;根据各相似度值,进行聚类并去掉冗余信息;(2)通过各所述信息内容,基于话题检测方法,对不同话题进行关联检测,具体包括:根据以下公式,将m个特征空间中的特征点划分为指定为q类:其中,Cj是第j个聚类类别...

【专利技术属性】
技术研发人员:薛文芳李林静孙哲南
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1