【技术实现步骤摘要】
一种基于人工智能的互联网大数据处理系统及方法
[0001]本专利技术涉及互联网数据处理
,具体为一种基于人工智能的互联网大数据处理系统及方法。
技术介绍
[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为,使计算机能实现更高层次的应用。人工智能与思维科学的关系是实践和理论的关系,人工智能是处于思维科学的技术应用层次,是它的一个应用分支。从思维观点看,人工智能不仅限于逻辑思维,要考虑形象思维、灵感思维才能促进人工智能的突破性的发展。
[0003]在互联网日益繁荣的大环境下,网络平台已经逐渐成为人们日常获取消息的途径,应运而生的新媒体平台众多,但良莠不齐,有些新媒体平台经常发布虚假信息或模棱两可的不确定信息,而在当前的环境下,对于虚假信息或模棱两可的不确定信息的鉴别十分困难,同时对其的传播影响和途径也难以控制。
技术实现思路
[0004]本专利技术的目的在于提供一种基于人工智能的互联网大数据处理系统及方法,以解决上述
技术介绍
中提出的问题。
[0005]为了解决上述技术问题,本 ...
【技术保护点】
【技术特征摘要】
1.一种基于人工智能的互联网大数据处理方法,其特征在于:该方法包括以下步骤:S1、获取新媒体账号的运行数据与运维数据,构建新媒体宣传账号预测模型,生成新媒体宣传账号集合;S2、获取新媒体宣传账号集合中的所有新媒体宣传账号,抓取各个账号的互联网后台运维数据,创建机器学习模型进行分类;S3、通过机器学习模型,以人工智能的方式判断任一新媒体宣传账号是否属于恶意营销号,对符合的账号标记为恶意营销号;S4、对判断为恶意营销号的新媒体宣传账号发出预警信息,责令整改,并构建第一监督模型,对判断为恶意营销号的账号发布信息进行监督,在规定时长内,满足监督阈值,解除恶意营销号标记。2.根据权利要求1所述的一种基于人工智能的互联网大数据处理方法,其特征在于:所述构建新媒体宣传账号预测模型包括:以登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数为自变量,以宣传账号概率值为因变量,构建新媒体宣传账号预测模型:其中,y0代表新媒体账号为新媒体宣传账号概率值;x1、x2、x3、x4分别代表登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数的归一化数据;w1、w2、w3、w4分别代表登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数的权重比例;代表误差数据;设置训练集数据选取时长为T0;所述登录地点变换频率包括:其中,L1为T0时间内登录地点变换次数;K1为登录地点变换频率;t1为时间周期量;代表取整;所述平均每日发布次数选取T0时间内的整天数,即每一天的0点整到24点记为整天;所述关键词匹配数据包括:获取T0时间内任一整天的热点文章,所述热点文章根据新媒体账号所在平台的热点排名选取,以时间优先发布的作为对照集,获取对照集内有关于热点的特征记为集合C1={a1、a2、
…
、a
n
},获取待检测新媒体账号有关于热点的特征记为集合C2={b1、b2、
…
、b
n
};根据公式:其中,D为两组热点文章的相似程度;i代表序号;分别获取在T0时间内同一新媒体账号下所有整天的热点文章相似程度,求取平均值作为关键词匹配数据;
所述单条消息平均浏览人数包括:获取T0时间内同一新媒体账号下所有消息的浏览人数,利用三倍标准差方法剔除异常数据,选取剩余数据的平均值作为单条消息平均浏览人数;对登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数进行归一化处理,记为x1、x2、x3、x4;构建宣传账号概率阈值,若y0超出概率阈值,记录账号为新媒体宣传账号,并计入集合A,集合A为新媒体宣传账号合集。3.根据权利要求2所述的一种基于人工智能的互联网大数据处理方法,其特征在于:所述机器学习模型包括:获取集合A中的所有新媒体宣传账号的运维数据;所述运维数据包括账号消息删减数据、举报数据、违规数据、粉丝激增数据;利用集合A中的所有新媒体宣传账号的运维数据构建一个数据集U;其中,数据集中包括β条数据,每条数据具备γ条特征,所述γ条特征来源于运维数据;所述账号消息删减数据为新媒体宣传账号下对其自己发布的热点消息的删减次数;初始化E个聚类中心;记为聚类矩阵U1;计算任一条数据R与E个聚类中心的距离,将任一条数据R归入距离最近的聚类中心中;其中,G代表任一条数据R与E个聚类中心的距离;v代表序号;P代表数据,1≤P≤β;j代表聚类中心,1≤j≤E;c
Pv
属于[c
11
…
c
1γ
];d
jv
属于[d
11
…
d
1γ
];若存在任一条数据距离不同的聚类中心的距离相等,则随机归入一个聚类中心;将数据集U中所有数据归类完毕后,生成新的数据集U2;U2={S1、S2、
…
、S
E
}其中,S1、S2、
…
、S
E
分别代表E个聚类中心归类后的数据集;对每一类的聚类中心进行更新,新的聚类中心为S1、S2、
…
、S
E
任一个数据集中所有对象在各个维度的均值;记录新的聚类中心与原聚类中心的维度距离为h1;不断生成新的聚类中心,并计算每一个新的聚类中心与前一个聚类中心的维度距离,记成集合;
在聚类中心不再发生变化时,终止分类,输...
【专利技术属性】
技术研发人员:成叶,
申请(专利权)人:南京鼎傲科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。