一种针对社交文本的用户画像分析方法及系统技术方案

技术编号:33968122 阅读:14 留言:0更新日期:2022-06-30 01:51
本发明专利技术公开了一种针对社交文本的用户画像分析方法及系统,属于文本分析技术领域,针对现有技术中存在的无法对特殊通信软件的服务器进行网络监管,且大部分特殊通信软件具有用户匿名、端对端加密通话,以及聊天信息自动销毁等功能,无法对用户的历史数据进行统计,以及无法通过用户的历史数据生成用户画像的问题,本发明专利技术的技术方案为:输入前一天的所有发言数据,经过账号信息提取和个人信息提取模块处理后,将结果更新到画像数据库中,当对某个用户进行画像时,通过画像输出模块从画像数据库中调取该用户的所有数据,根据预设模板,输出分析报告。输出分析报告。输出分析报告。

【技术实现步骤摘要】
一种针对社交文本的用户画像分析方法及系统


[0001]本专利技术属于文本分析
,具体涉及一种针对社交文本的用户画像分析方法及系统。

技术介绍

[0002]随着时代的进步和发展,互联网逐渐成为人们生活中不可或缺的一部分,然而,随着互联网的普及,网络诈骗已蔓延至各个领域,且随着互联网的日益更新,网络诈骗的方式也层出不穷。
[0003]现有技术中,从事网络诈骗的特殊人员主要使用即时的特殊通信软件进行交流或交易,做出一系列犯罪行为。
[0004]现有技术中,存在以下技术问题:无法对特殊通信软件的服务器进行网络监管,且大部分特殊通信软件具有用户匿名、端对端加密通话,以及聊天信息自动销毁等功能,无法对用户的历史数据进行统计,以及无法通过用户的历史数据生成用户画像。

技术实现思路

[0005]针对现有技术中存在的无法对特殊通信软件的服务器进行网络监管,且大部分特殊通信软件具有用户匿名、端对端加密通话,以及聊天信息自动销毁等功能,无法对用户的历史数据进行统计,以及无法通过用户的历史数据生成用户画像的问题,本专利技术提出了一种针对社交文本的用户画像分析方法及系统,其目的为:通过画像数据库对用户ID进行画像分析,保证了即时获取诈骗线索和用户ID的身份线索。
[0006]为实现上述目的本专利技术所采用的技术方案是:提供一种针对社交文本的用户画像分析方法,包括:S1:每天定时获取特殊通信软件的前一天24小时的所有用户的发言数据,对所述发言数据进行清洗处理,得到原始数据;S2:统计所述原始数据中所有的用户ID,并基于用户ID提取该用户ID的统计数据,对该统计数据进行统计生成账号数据,将账号数据输出到结果字典中,所述账号数据包括:账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称;S3:自定义各类具有个人信息的主题,然后根据不同的主题构建不同的词库或规则,对原始数据进行信息的抽取,得到具有个人信息的信息数据,将获取到的信息数据输出到结果字典中;S4:将结果字典中的账号数据和信息数据根据用户ID进行分类,然后将对应字段保存到画像数据库中;若用户ID不在画像数据库中,直接将对应字段写入画像数据库;若用户ID已存在画像数据库中,则按照字段更新具体对应内容;S5:系统接受输入一个特殊通信软件的用户ID,从画像数据库中调取该用户ID的账号数据和信息数据,并根据预设模板,即时输出该用户ID的分析报告。
[0007]较优的,本专利技术S1中,所述发言数据包括:用户ID、用户昵称、发言文本和发言时
间;对发言数据进行清洗处理包括:删除文本长度小于3和大于200的数据、去除发言文本中的不可见字符串和表情符号和剔除机器人账号相关数据。
[0008]较优的,本专利技术S2中,统计数据包括:用户ID、用户昵称、发言群组ID、发言群组名称、发言时间;账号数据具体为:账号出入时间段:统计发言时间最早发言日期和最后发言日期,作为该用户ID的账号出入时间段;活跃时段:统计24小时内发言数量最多的一个或几个时间段;活跃月份:统计发言数量最多的一个月或几个月;加入群组数量:统计发言群组id的唯一值数量;活跃群组:统一发言数量最多的发言群组名称;使用过的昵称:统计用户昵称的唯一值,及第一次使用时间。
[0009]较优的,本专利技术S3具体为:S3.1:自定义各类具有个人信息的主题;S3.2:针对不同主题构建不同的触发词词库,并定时更新;S3.3:基于arc

standard转移系统的神经网络分类模型生成依存句法分析器,通过所述依存句法分析器对原始数据进行信息的依存句法关系提取,得到分词字典、词性字典和句法结构字典;对句法结构字典中的每一个节点进行分析,判断其结构关系;所述结构关系包括:主语词修饰、宾语修饰、时间词修饰、否定词修饰、虚拟词修饰、当前节点词性、上层所有节点词义和上层所有节点词性;S3.4:根据不同的主题并结合其触发词词库制定不同规则,若S3.3中节点在结构关系判断中符合制定的规则,则将节点处的词抽取出来,输出到结果字典中。
[0010]较优的,本专利技术S3具体为:自定义各类具有个人信息的主题;然后基于发言文本中不同主题的语句表达特点,构建各类主题的关键词词库,然后通过FlashText算法将所有关键词词库中词语构建为字典树结构,最后通过字典树对发言文本进行关键词匹配,获取信息数据并输出到结果字典中。
[0011]较优的,本专利技术S3具体为:自定义各类具有个人信息的主题;根据不同的主题,编写不同的正则表达式规则,应用到发言文本上,获取信息数据并输出到结果字典中。
[0012]本专利技术还提出一种针对社交文本的用户画像分析系统,包括:数据提取及清洗模块:用于每天定时获取特殊通信软件的前一天24小时的所有用户的发言数据,对所述发言数据进行清洗处理,得到原始数据;账号数据提取模块:用于统计所述原始数据中所有的用户ID,并基于用户ID提取该用户ID的统计数据,对该统计数据进行统计生成账号数据,将账号数据输出到结果字典中,所述账号数据包括:账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称;个人信息提取模块:用于自定义各类具有个人信息的主题,然后根据不同的主题构建不同的词库或规则,对原始数据进行信息的抽取,得到具有个人信息的信息数据,将获取到的信息数据输出到结果字典中;信息存储模块:用于将结果字典中的账号数据和信息数据根据用户ID进行分类,然后将对应字段保存到画像数据库中;若用户ID不在画像数据库中,直接将对应字段写入
画像数据库;若用户ID已存在画像数据库中,则按照字段更新具体对应内容;画像输出模块:用于系统接受输入一个特殊通信软件的用户ID,从画像数据库中调取该用户ID的账号数据和信息数据,并根据预设模板,即时输出该用户ID的分析报告。
[0013]较优的,本专利技术个人信息提取模块具体步骤为:步骤1:自定义各类具有个人信息的主题;步骤2:针对不同主题构建不同的触发词词库,并定时更新;步骤3:基于arc

standard转移系统的神经网络分类模型生成依存句法分析器,通过所述依存句法分析器对原始数据进行信息的依存句法关系提取,得到分词字典、词性字典和句法结构字典;对句法结构字典中的每一个节点进行分析,判断其结构关系;所述结构关系包括:主语词修饰、宾语修饰、时间词修饰、否定词修饰、虚拟词修饰、当前节点词性、上层所有节点词义和上层所有节点词性;步骤4:根据不同的主题并结合其触发词词库制定不同规则,若步骤3中节点在结构关系判断中符合制定的规则,则将节点处的词抽取出来,输出到结果字典中。
[0014]较优的,本专利技术个人信息提取模块具体为:自定义各类具有个人信息的主题;然后基于发言文本中不同主题的语句表达特点,构建各类主题的关键词词库,然后通过FlashText算法将所有关键词词库中词语构建为字典树结构,最后通过字典树对发言文本进行关键词匹配,获取信息数据并输出到结果字典中。
[0015]较优的,本专利技术个人信息提取模块具体为:自定义各类具有个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对社交文本的用户画像分析方法,其特征在于,包括:S1:每天定时获取特殊通信软件的前一天24小时的所有用户的发言数据,对所述发言数据进行清洗处理,得到原始数据;S2:统计所述原始数据中所有的用户ID,并基于用户ID提取该用户ID的统计数据,对该统计数据进行统计生成账号数据,将账号数据输出到结果字典中,所述账号数据包括:账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称;S3:自定义各类具有个人信息的主题,然后根据不同的主题构建不同的词库或规则,对原始数据进行信息的抽取,得到具有个人信息的信息数据,将获取到的信息数据输出到结果字典中;S4:将结果字典中的账号数据和信息数据根据用户ID进行分类,然后将对应字段保存到画像数据库中;若用户ID不在画像数据库中,直接将对应字段写入画像数据库;若用户ID已存在画像数据库中,则按照字段更新具体对应内容;S5:系统接受输入一个特殊通信软件的用户ID,从画像数据库中调取该用户ID的账号数据和信息数据,并根据预设模板,即时输出该用户ID的分析报告。2.根据权利要求1所述的一种针对社交文本的用户画像分析方法,其特征在于,S1中,所述发言数据包括:用户ID、用户昵称、发言文本和发言时间;对发言数据进行清洗处理包括:删除文本长度小于3和大于200的数据、去除发言文本中的不可见字符串和表情符号和剔除机器人账号相关数据。3.根据权利要求1所述的一种针对社交文本的用户画像分析方法,其特征在于,S2中,统计数据包括:用户ID、用户昵称、发言群组ID、发言群组名称、发言时间;账号数据具体为:账号出入时间段:统计发言时间最早发言日期和最后发言日期,作为该用户ID的账号出入时间段;活跃时段:统计24小时内发言数量最多的一个或几个时间段;活跃月份:统计发言数量最多的一个月或几个月;加入群组数量:统计发言群组id的唯一值数量;活跃群组:统一发言数量最多的发言群组名称;使用过的昵称:统计用户昵称的唯一值,及第一次使用时间。4.根据权利要求1所述的一种针对社交文本的用户画像分析方法,其特征在于,S3具体为:S3.1:自定义各类具有个人信息的主题;S3.2:针对不同主题构建不同的触发词词库,并定时更新;S3.3:基于arc

standard转移系统的神经网络分类模型生成依存句法分析器,通过所述依存句法分析器对原始数据进行信息的依存句法关系提取,得到分词字典、词性字典和句法结构字典;对句法结构字典中的每一个节点进行分析,判断其结构关系;所述结构关系包括:主语词修饰、宾语修饰、时间词修饰、否定词修饰、虚拟词修饰、当前节点词性、上层所有节点词义和上层所有节点词性;S3.4:根据不同的主题并结合其触发词词库制定不同规则,若S3.3中节点在结构关系判断中符合制定的规则,则将节点处的词抽取出来,输出到结果字典中。5.根据权利要求1所述的一种针对社交文本的用户画像分析方法,其特征在于,S3具体
为:自定义各类具有个人信息的主题;然后基于发言文本中不同主题的语句表达特点,构建各类主题的关键词词库,然后通过FlashTe...

【专利技术属性】
技术研发人员:王剑辉张瑞冬童永鳌朱鹏伍仪洲韩硕刘晓雪
申请(专利权)人:成都无糖信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1