一种基于AI的社交数据处理系统技术方案

技术编号:39183220 阅读:9 留言:0更新日期:2023-10-27 08:30
本发明专利技术公开了一种基于AI的社交数据处理系统。本发明专利技术中,预处理模块的内部设置有特征处理模块,缺失出具识别模块,异常数据识别模块和算法模块,使得在对社交数据融合进行指数计算参考的数据经过了处理,从而可以对参考的社交数据中异常数据和缺失数据进行处理识别,利用k

【技术实现步骤摘要】
一种基于AI的社交数据处理系统


[0001]本专利技术属于社交数据处理
,具体为一种基于AI的社交数据处理系统。

技术介绍

[0002]网络相亲是一种较为先进的婚介方式,通过网络可以帮助人们随时随地的了解世界各地的朋友,并结合自己的需求进行筛选,选择出最合适自己的交往对象。此时就需要对社交数据进行处理。
[0003]但是常见的处理系统缺少对于数据的预处理,使得后续的系统在使用过程中,会出现数据缺失,从而影响了使用时的便利性。

技术实现思路

[0004]本专利技术的目的在于:为了解决上述提出的问题,提供一种基于AI的社交数据处理系统。
[0005]本专利技术采用的技术方案如下:一种基于AI的社交数据处理系统,包括供电模块、信息采集模块、数据预处理模块、AI处理模块、数据结果展示模块、系统授权模块、用户列表采集模块、用户关系采集模块、用户列表采集模块、数据解析实模块、上下文特征生成模块、缺失数据识别模块和数据补全模块,所述供电模块的输出端连接有所述信息采集模块的输入端,所述信息采集模块的输出端连接有所述数据预处理模块的输入端,所述数据预处理模块的输出端连接有所述AI处理模块的输入端,所述AI处理模块的输出端连接有所述数据结果展示模块的输入端。
[0006]在一优选的实施方式中,所述信息采集模块的内部设置有系统授权模块、用户列表采集模块、用户关系采集模块、用户列表采集模块和数据解析实模块,所述系统授权模块、用户列表采集模块、用户关系采集模块、用户列表采集模块和数据解析实模块的整体输出端连接有所述信息采集模块的输入端;
[0007]所述数据预处理模块的内部设置有上下文特征生成模块、缺失数据识别模块和数据补全模块,所述上下文特征生成模块、缺失数据识别模块和数据补全模块的整体输出端连接有所述数据预处理模块的输入端。
[0008]在一优选的实施方式中,所述系统授权模块首先要进行OAuth授权认证,根据用户应用环境的不同:所述系统授权模块通过微博给用户提供两种OAuth2.0的授权方式:Authorizationcodegra和Implicitgrant;Authorizationcodegrant方式主要适用于有server端的应用,它要先请求code,然后再用code申请accesstoken,而Implicitgrant方式主要适用于client端访问的应用,直接一步就可以获得accesstoken,两种授权方式授权认证后,对API接口的调用是没有区别的。用户通过授权认证之后获得访问令牌,就可以使用API接口来进行数据采集。用户通过API接口访问用户资源需要先向服务器发送GET/POST请求命令,资源服务器收到请求命令后,需要对用户的访问令牌accesstoken进行验证,若验证无误,就会返回XML或JSON格式的数据,通过解析得到用户需要的信息。
[0009]在一优选的实施方式中,所述用户列表采集模块对用户关注人进行数据采集主要是为了获取用户关注人的openid,openid唯一标识着这些用户关注人,把用户关注人的openid作为种子节点,就可以采用BFS进行用户关系数据的采集。因此,推荐名人列表API封装后,最终的目的就是要得到用户关注人的openid,而推荐用户关注人接口trends/famouslist返回的数据中没有openid字段,故采用推荐用户关注人接口trends/famouslist和根据用户ID获取用户信息接口user/infos相结合的方式获取Top N个用户关注人的openid;所述用户关系采集模块采用API接口获取数据,实际上采用了HTTP轮询协议的方式,通过编程实现GET请求方法来获取用户信息。获取用户关系数据时,先把获取到的推荐用户关注人的openid作为种子节点加入存储队列中。定义要进行用户关系采集的种子节点的数目,然后沿着用户关系网,采用BFS进行用户关系列表的采集,并把采集得到的用户数据加入存储队列中进行用户多维度的数据采集。
[0010]在一优选的实施方式中,所述用户列表采集模块从用户关系数据中通过random函数随机选取用户的openid并保存在一个list中。然后把list中的用户openid加入到消息对列中,从而获取该用户发表的最新的博文。在博文的采集过程中同样采用HashMap的方式来去除重复的用户,避免微博数据的重复采集;所述用户列表采集模块具体实现过程如下:首先,使用Bayes Classifer()构造Bayes分类器对文本进行分类,要先加载极易中文分词组件对博文进行中文分词,使用split(String text,String splitToken)对采集的每条博文使用分割标记进行分词。使用IsStopWord()判断分词是否存在停用表中,去除分词中的一些无实际意义的停用词,从而得到了博文文本的属性向量。
[0011]在一优选的实施方式中,所述数据解析实模块的解析过程如下:
[0012](1)把采集得到的XML数据转变成一棵文档树;doc=DocumentHelper.parseText(xml);
[0013](2)获取文档树的根节点,从而拿到根节点的名字;Element rootElt=doc.getRootElement();
[0014](3)获取根节点下的子节点,遍历子节点,就可以得到子节点下的节点的值。以此类推,不断的解析不同层次下的子节点,遍历完所有的节点后完成解析。
[0015]以遍历子节点info下节点的值为例。
[0016][0017]在一优选的实施方式中,所述上下文特征生成模块利用特征处理和样本生成模块对之前获得的社交数据生成上下文特征,并使用ONEHOT向量表示,然后将这些特征结果生成样本。
[0018]在一优选的实施方式中,所述缺失数据识别模块的步骤分为两步,首先将数据库中社交数据集导入到excel文件中,将文件格式修改为.csv等格式文件;其次R语言识别保存该文件的路径,将文件的数据导入到R语言环境中,通过is.na函数识别数据集中的缺失数据;为了更清晰的表达缺失数据在整个数据集中个数和占比,table函数统计缺失和非缺失数据各自所含数据个数,aggr函数绘制出缺失数据的占比图;再进行异常数据识别,进行异常数据识别时,先识别连续重复数据,先识别出每个月社交数据中相同的数据,这些数据中存在连续和非连续的相同数据;然后判断出这些相同数据中是否出现长时间连续的重复数据;对于准实时社交数据的补全如下所示:准实时数据前后相邻的10个值如果呈现规律波动,也就是每相邻两个点的波动的绝对值都相同,则按照波动规律进行数据补全;如果相邻值不呈现规律波动。
[0019]在一优选的实施方式中,所述AI处理模块先使用DRAM中的AI处理器可用空间分成n个区块,AI处理器从DRAM中的第i区块读取AI运算输入数据及数据模型参数;之后分析数据模型参数需求,当数据模型参数需求的暂存空间大于SRAM空间时,将AI运算拆分为m个AI子运算;再为各AI子运算的输出结果分配对应的DRAM区本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于AI的社交数据处理系统,包括供电模块(1)、信息采集模块(2)、数据预处理模块(3)、AI处理模块(4)、数据结果展示模块(5)、系统授权模块(6)、用户列表采集模块(7)、用户关系采集模块(8)、用户列表采集模块(9)、数据解析实模块(10)、上下文特征生成模块(11)、缺失数据识别模块(12)和数据补全模块(13),其特征在于:所述供电模块(1)的输出端连接有所述信息采集模块(2)的输入端,所述信息采集模块(2)的输出端连接有所述数据预处理模块(3)的输入端,所述数据预处理模块(3)的输出端连接有所述AI处理模块(4)的输入端,所述AI处理模块(4)的输出端连接有所述数据结果展示模块(5)的输入端。2.如权利要求1所述的一种基于AI的社交数据处理系统,其特征在于:所述信息采集模块(2)的内部设置有系统授权模块(6)、用户列表采集模块(7)、用户关系采集模块(8)、用户列表采集模块(9)和数据解析实模块(10),所述系统授权模块(6)、用户列表采集模块(7)、用户关系采集模块(8)、用户列表采集模块(9)和数据解析实模块(10)的整体输出端连接有所述信息采集模块(2)的输入端;所述数据预处理模块(3)的内部设置有上下文特征生成模块(11)、缺失数据识别模块(12)和数据补全模块(13),所述上下文特征生成模块(11)、缺失数据识别模块(12)和数据补全模块(13)的整体输出端连接有所述数据预处理模块(3)的输入端。3.如权利要求1所述的一种基于AI的社交数据处理系统,其特征在于:所述系统授权模块(6)首先要进行OAuth授权认证,根据用户应用环境的不同:所述系统授权模块(6)通过微博给用户提供两种OAuth2.0的授权方式:Authorizationcodegra和Implicitgrant。4.如权利要求1所述的一种基于AI的社交数据处理系统,其特征在于:所述用户列表采集模块(7)对用户关注人进行数据采集主要是为了获取用户关注人的openid,openid唯一标识着这些用户关注人,把用户关注人的openid作为种子节点,就可以采用BFS进行用户关系数据的采集。5.如权利要求1所述的一种基于AI的社交数据处理系统,其特征在于:所述用户列表采集模块(9)从用户关系数据中通过random函数随机选取用户的openid并保存在一个list中;然后把list中的用户openid加入到消息对列中,从而获取该用户发表的最新的博文。6.如权利要求1所述的一种基于AI的社交数据处理系统,其特征在于:所述数据解析实模块(10)的解析过程如下:(1)把采集得到的XML数据转变成一棵文档树;doc=DocumentHelper.parseText(xml);(2)获取文档树的根节点,从而拿到根节点的名字;Element rootElt=doc.getRootElement();(3)获取根节点下的子节点,遍历子...

【专利技术属性】
技术研发人员:李佩文高猛凌晨
申请(专利权)人:苏州萌咪网络科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1