一种数据处理方法、装置、计算机设备、存储介质制造方法及图纸

技术编号:34773432 阅读:11 留言:0更新日期:2022-08-31 19:40
本申请涉及一种数据处理方法、装置、计算机设备、存储介质,其中,该方法包括:对目标聊天软件中的群聊信息进行爬取;基于爬取到的所述群聊信息和预设的对应类型的关键词库,确定所述群聊信息中的目标信息的类型;基于爬取到的所述群聊信息中的关键元素,构建已确定类型的目标信息之间的数据关联关系。相比于现有技术中人工下载安装目标聊天软件,查看聊天信息寻找相关线索的方法,本申请能够自动采集数据,对数据进行分类并基于关键元素构建数据关联关系,采集效率高,数据关联关系清楚,解决了现有技术中人工采集数据效率低,数据关系追溯难的问题。难的问题。难的问题。

【技术实现步骤摘要】
一种数据处理方法、装置、计算机设备、存储介质


[0001]本专利技术涉及网络信息分析
,具体涉及一种数据处理方法、装置、计算机设备、存储介质。

技术介绍

[0002]聊天软件中群聊信息具有信息量大且庞杂的特点,现有的聊天信息处理方法,需要追踪人自行下载聊天软件到手机或电脑,使用手机号码注册账号登陆后,基于关键词搜索相关群聊并加入,通过人工查阅记录群聊信息。
[0003]上述方式需要耗费大量的人力成本,数据采集效率低,同时人工加群存在数量限制,无法满足加入多个群获取所需信息的应用要求,导致复杂线索无法追溯。
[0004]针对上述技术问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]基于现有技术的不足之处,本专利技术提供了一种数据处理方法、装置、计算机设备、存储介质,以至少解决现有人工采集数据效率低,数据关系追溯难的问题。
[0006]第一方面,本申请提出了一种数据处理方法,所述方法包括:
[0007]对目标聊天软件中的群聊信息进行爬取;
[0008]基于爬取到的所述群聊信息和预设的对应类型的关键词库,确定所述群聊信息中的目标信息的类型;
[0009]基于爬取到的所述群聊信息中的关键元素,构建已确定类型的目标信息之间的数据关联关系。
[0010]在一实施例中,所述对目标聊天软件中的群聊信息进行爬取之前,还包括:
[0011]基于关键词或经纬度,搜索使用所述目标聊天软件的群并加入。
[0012]在一实施例中,所述基于爬取到的所述群聊信息和预设的对应类型的关键词库,确定所述群聊信息中的目标信息的类型,包括:
[0013]获取所述目标信息与所述预设的对应类型的关键词库的匹配值;
[0014]在所述匹配值大于预设值的情况下,确定所述目标信息的类型为所述预设的关键词库对应的类型。
[0015]在一实施例中,所述获取所述目标信息和所述预设的对应类型的关键词库的匹配值,包括:
[0016]为所述目标信息分配权重;
[0017]获取所述目标信息与预设的对应类型的关键词库匹配到的频次;
[0018]基于所述权重和所述频次,加权计算得到所述目标信息与所述预设的对应类型的关键词库的匹配值。
[0019]在一实施例中,所述基于爬取到的所述群聊信息中的关键元素,构建已确定类型的目标信息之间的数据关联关系,包括:
[0020]基于所述关键元素,构建所述已确定类型的目标信息之间群与群的关联关系,群与人员的关联关系,和/或人员与人员的关联关系。
[0021]在一实施例中,所述对目标聊天软件中的群聊信息进行爬取之后,还包括:
[0022]对爬取到的群聊信息进行分词处理和高频词统计,得到满足预设频率要求的高频词,将所述高频词添加进所述预设的对应类型的关键词库。
[0023]在一实施例中,在所述基于爬取到的所述群聊信息中的关键元素,构建已确定类型的目标信息之间的数据关联关系之前,所述方法还包括:
[0024]提取所述群聊信息的关键元素;其中,所述关键元素包括以下至少之一:网站URL地址、QQ号、微信号、以及邮箱地址。
[0025]第二方面,本申请提供了一种数据处理装置,所述装置包括:
[0026]数据爬取模块,对目标聊天软件中的群聊信息进行爬取;
[0027]信息分类模块,基于爬取到的所述群聊信息和预设的对应类型的关键词库,确定所述群聊信息中的目标信息的类型;
[0028]以及关联分析模块,基于爬取到的所述群聊信息中的关键元素,构建已确定类型的目标信息之间的数据关联关系。
[0029]第三方面,本申请提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的数据处理方法。
[0030]第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的数据处理方法。
[0031]相比于
技术介绍
,本申请提供的数据处理方法、装置、计算机设备、存储介质,对目标聊天软件中的群聊信息进行爬取;基于爬取到的所述群聊信息和预设的对应类型的关键词库,确定所述群聊信息中的目标信息的类型;基于爬取到的所述群聊信息中的关键元素,构建已确定类型的目标信息之间的数据关联关系。相比于现有技术中人工下载安装目标聊天软件,查看聊天信息寻找相关线索的方法,本申请能够自动采集数据、对数据进行分类并基于关键元素构建数据关联关系,采集效率高,数据关联关系清楚,解决了现有技术中人工采集数据效率低,数据关系追溯难的问题。
[0032]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0033]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0034]图1是本申请一个实施例中数据处理方法的终端的硬件结构框;
[0035]图2是本申请一个实施例中数据处理方法的流程图;
[0036]图3是本申请一个实施例中确定目标信息类型的流程图;
[0037]图4是本申请一个实施例中获取目标信息匹配值的流程图;
[0038]图5是本申请一个实施例中群和人员关联关系的示意图;
[0039]图6是本申请一个优选实施例中数据处理方法的流程图;
[0040]图7是本申请实施例的数据处理装置的结构框图;
[0041]图8为本申请实施例的计算机设备的结构示意图。
具体实施方式
[0042]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的
技术实现思路
的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
[0043]在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
[0044]除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属
内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:对目标聊天软件中的群聊信息进行爬取;基于爬取到的所述群聊信息和预设的对应类型的关键词库,确定所述群聊信息中的目标信息的类型;基于爬取到的所述群聊信息中的关键元素,构建已确定类型的目标信息之间的数据关联关系。2.如权利要求1所述的数据处理方法,其特征在于,所述对目标聊天软件中的群聊信息进行爬取之前,还包括:基于关键词或经纬度,搜索使用所述目标聊天软件的群并加入。3.如权利要求1所述的数据处理方法,其特征在于,所述基于爬取到的所述群聊信息和预设的对应类型的关键词库,确定所述群聊信息中的目标信息的类型,包括:获取所述目标信息与所述预设的对应类型的关键词库的匹配值;在所述匹配值大于预设值的情况下,确定所述目标信息的类型为所述预设的关键词库对应的类型。4.如权利要求3所述的数据处理方法,其特征在于,所述获取所述目标信息和所述预设的对应类型的关键词库的匹配值,包括:为所述目标信息分配权重;获取所述目标信息与预设的对应类型的关键词库匹配到的频次;基于所述权重和所述频次,加权计算得到所述目标信息与所述预设的对应类型的关键词库的匹配值。5.如权利要求1所述的数据处理方法,其特征在于,所述基于爬取到的所述群聊信息中的关键元素,构建已确定类型的目标信息之间的数据关联关系,包括:基于所述关键元素,构建所述已确定类型的目标信息之间群与群的关联关系,...

【专利技术属性】
技术研发人员:左婵娟范渊
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1