【技术实现步骤摘要】
互联网数据分析方法、装置、电子装置及介质
本申请涉及计算机
,特别是涉及互联网数据分析方法、装置、电子装置及存储介质。
技术介绍
近年来,互联网在我国快速发展、迅速普及,日益成为人民群众关注社会热点事件和表达意见的重要渠道。随着我国信息化建设加快推进,互联网在为信息交流带来方便的同时,也为互联网敏感信息的传播提供的便利。互联网敏感信息一经出现就会引起网民的格外关注,进而产生巨大的舆论压力。借助现代信息技术,网络敏感信息的传播方式、传播速度、影响范围里几何级数增长,危害巨大,加强此类信息的有效监管,对确保我国构建和谐社会、创造良好的网络文化环境具有重要意义。现有互联网数据分析技术立足于当下,常见于网络监控机构防治即时情况下的热点内容。但互联网上存在海量数据,网络监管机构或企业往往会在监管到一些热点内容被迅猛传播,但无法对该热点内容的源头回溯和发现该热点内容的传播途径与扩散方式,无法对互联网敏感信息进行有效防护。目前针对相关技术中无法对热点内容的源头回溯和发现热点内容的传播途径与扩散方式的问题,尚未提出有效 ...
【技术保护点】
1.一种互联网数据分析方法,其特征在于,包括:/n从多个预设引擎中爬取与目标文本关联的多个待分析的文本;/n按照预设解析规则对所述多个待分析的文本进行解析处理,得到所述多个待分析的文本的多个维度的关键要素;/n将所述多个维度的关键要素按预设方式进行排列,得到关键要素集群;/n在所述关键要素集群中挖掘所述目标文本的溯源信息,其中,所述溯源信息至少包括所述目标文本的起源信息、传播途径信息。/n
【技术特征摘要】
1.一种互联网数据分析方法,其特征在于,包括:
从多个预设引擎中爬取与目标文本关联的多个待分析的文本;
按照预设解析规则对所述多个待分析的文本进行解析处理,得到所述多个待分析的文本的多个维度的关键要素;
将所述多个维度的关键要素按预设方式进行排列,得到关键要素集群;
在所述关键要素集群中挖掘所述目标文本的溯源信息,其中,所述溯源信息至少包括所述目标文本的起源信息、传播途径信息。
2.根据权利要求1所述的互联网数据分析方法,其特征在于,从多个预设引擎中爬取与目标文本关联的多个待分析的文本包括:
获取所述目标文本,并提取所述目标文本的数据信息,其中,所述数据信息至少包括标题、文本内容、关键词;
根据所述数据信息从所述多个预设引擎中爬取多个所述文本,其中,所述文本的数据信息包括所述目标文本的数据信息。
3.根据权利要求1所述的互联网数据分析方法,其特征在于,按照预设解析规则对所述多个待分析的文本进行解析处理,得到所述多个待分析的文本的多个维度的关键要素包括:利用多个维度的正则表达式对所述多个待分析的文本进行解析,得到所述多个待分析的文本的多个维度的关键要素,其中,所述多个维度包括时间维度、空间维度、用户名维度、账号维度。
4.根据权利要求3所述的互联网数据分析方法,其特征在于,所述多个维度的正则表达式包括:通过机器学习算法对预设目标文本库进行训练得到多种格式的正则表达式,其中,所述多种格式包括时间格式、空间格式、用户名格式、账号格式。
5.根据权利要求1所述的互联网数据分析方法,其特征在于,将所述多个维度的关键要素按预设方式进行排列,得到关键要素集群包括:
按第一要素对应的时间的先后顺序对所述多个维度的关键要素进行排序,得到关键要素序列,其中,所述第一要素包括所述多个维度的关键要素中的时间要素;
在所述关键要素序列中检测预设时间内的第二要素,聚合所述第二要素得到多个维度的关键要素集,其中,所述第二要素包括所述多个维度的关键...
【专利技术属性】
技术研发人员:黄巍峰,范渊,
申请(专利权)人:杭州安恒信息技术股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。