一种互联网大数据分析提取方法技术

技术编号:32513840 阅读:16 留言:0更新日期:2022-03-02 11:04
本发明专利技术提供了一种互联网大数据分析提取方法,包括:步骤1、根据数据的特点,将数据对象划分为不同的部分和类型,得到所要提取的数据范围;步骤2、建立回归模型,并根据实测数据来求解模型的各参数,然后评价回归模型是否能够拟合实测数据,如果能够拟合,则根据自变量作进一步缩小所要提取的数据范围;步骤3、根据数据的特征属性将数据分成两个以上聚合类,每一个聚合类中的元素具有相同的特性,对所要抓取的数据进行分组;步骤4、采用相似匹配法来计算两个数据的相似程度;步骤5、用词频作为统计指标,表明数据所反馈的数据段信息;步骤6、得到数据分析结果。本发明专利技术利用基于嵌入映射的表征学习算法自动完成,计算效率高。计算效率高。计算效率高。

【技术实现步骤摘要】
一种互联网大数据分析提取方法


[0001]本专利技术属于大数据
,尤其涉及一种互联网大数据分析提取方法。

技术介绍

[0002]大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
[0003]目前,很多采用网络爬虫方式,从公开网站抓取相关信息,然后进行结构化处理和存储,可能会被大量的过期信息、钓鱼网站信息等无用信息干扰,数据准确性和实用性较低。因此,需要深入研究互联网数据提取方法,解决其数据可信度和准确性提高的问题。
[0004]现有大数据的智能处理系统至少具有如下缺点:现有数据技术缺乏对非结构化数据的分析,丢失了大量有效信息,影响业务的分析结果;现有的数据分析和提取过分依赖于人力的特征提取,准确性低、计算效率差,对用户请求响应缓慢,影响用户体验;不同的服务通常采用不同的数据处理和特征提取方法,造成大量的冗余数据处理,并且不同服务的数据单元的特征不相兼容。

技术实现思路

[0005]专利技术目的:本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种互联网大数据分析提取方法,其排除了精准度和可信度低的数据,得到可信度和精准度更高的正查数据,相较于现有技术不是简单的获取,而是通过各种算法对原始数据进行了分析和提取,以此获得准确度高和可信度高的数据。
[0006]本专利技术方法具体包括如下步骤:
[0007]步骤1、根据数据的特点,将数据对象划分为不同的部分和类型,再进一步分析,得到所要提取的数据范围;
[0008]步骤2、通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各参数,然后评价回归模型是否能够拟合实测数据,如果能够拟合,则根据自变量作进一步缩小所要提取的数据范围;
[0009]步骤3、根据数据的特征属性将数据分成两个以上聚合类(特征属性是用于表示数据的,其来源可以是是统计分析,比如本专利技术所使用到的互联网文本数据,需要统计其特征属性包括来源网站、主题、词语、词频统计数等。步骤3是先进行一个初步的分组,相当于是初始化工作。后续是进一步的细化和提取),每一个聚合类中的元素具有相同的特性,对所要抓取的数据进行分组;
[0010]步骤4、采用相似匹配法来计算两个数据的相似程度;
[0011]步骤5、将步骤1~步骤4中频繁出现(选取词频统计达到前20%)的数据进行提取,根据数据的属性特征,用词频作为统计指标,表明数据所反馈的数据段信息;
[0012]步骤6、根据数据段分解正则表达式对待分析数据中的数据段进行数据分解(正则
表达式是一种计算机文本处理技术,因为是互联网文本,里面含有很多格式性的符号(如html标记符号等),需要借助正则表达式进行处理和过滤掉),生成数据项值,并将数据项值与数据段分解正则表达式对应的数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对,根据数据统计规则,对中间数据对进行统计分析,得到数据分析结果。
[0013]优选地,所述步骤2中,相似匹配算法可应用于如数据清洗、用户输入纠错、推荐统计、剽窃检测系统、自动评分系统、网页搜索和DNA序列匹配领域。步骤2中,实测数据表示实际实验测试的数据,也就是输入的数据,自变量来自于实测数据。
[0014]步骤2包括:设定自变量数据对象为X={x1,x2,

,x
m
},其对应的因变量为y={y1,y2,

,y
m
},回归模型为:
[0015]y=w0+w1x1+w2x2+

+w
m
x
m

[0016]其中,x
m
、y
m
分别表示第m个自变量和第m个因变量;w={w0,w1,w2,

,w
m
}为回归系数集合,w
m
表示第m个回归系数,μ为随机误差,采用平方误差来衡量拟合的误差L(X):
[0017][0018]由得到:
[0019][0020]是对w(回归系数)的参数估计值;
[0021]通过局部加权线性回归,解决欠拟合问题,为误差增加权重w
i
,误差为:
[0022][0023]其中W是对角矩阵,采用高斯核,对应权重函数W(j,j)为:
[0024][0025]其中k表示高斯函数的方差,得到新的回归系数为:
[0026][0027]其中W=W
T
W。
[0028]步骤4中,要求不同分组的数据对象之间相似度低,同一个分组中的数据对象之间的相似度高,通过如下目标函数计算J:
[0029][0030]其中,J是实测数据集中所有对象的平方误差之和,x
i
表示数据集中任意一个对象,u
j
是第j个聚合类(簇)C
j
的中心点,目标是让上述目标函数达到收敛。
[0031]步骤4中,所述相似匹配法包括平均指标和变异指标的计算、资料分布形态的图形表现,通过计算数据项之间的距离,衡量两个数据项之间的相似度,采用了欧氏距离、曼和
顿距离、闵可夫斯基距离、夹角余弦距离综合考虑,计算公式如下:
[0032]采用如下公式计算欧式距离D1(X
i
,X
j
):
[0033][0034]采用如下公式计算曼和顿距离D2(X
i
, X
j
):
[0035]D2(X
i
,X
j
)=|x
i1

x
j1
|+x
i2

x
j2
|+

+|x
id

x
jd
|
[0036]采用如下公式计算闵可夫斯基距离D3(X
i
,X
j
):
[0037][0038]采用如下公式计算夹角余弦距离D4(X
i
,X
j
):
[0039][0040]其中X
i
={x
i1
,x
i2
,

,x
id
}∈R
d
和X
j
={x
j1
,x
j2
,

,x
jd
}∈R
d
表示数据项合集中的两个数据项样本,距离值越小表示样本的相似性越大,距离越大表示样本的相似性越小;i,j=1,2,3,

,N;x
id
表示第i个数据项样本X
i
的第d个值;R...

【技术保护点】

【技术特征摘要】
1.一种互联网大数据分析提取方法,其特征在于,包括如下步骤:步骤1、根据数据的特点,将数据对象划分为不同的部分和类型,再进一步分析,得到所要提取的数据范围;步骤2、通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各参数,然后评价回归模型是否能够拟合实测数据,如果能够拟合,则根据自变量作进一步缩小所要提取的数据范围;步骤3、根据数据的特征属性将数据分成两个以上聚合类,每一个聚合类中的元素具有相同的特性,对所要抓取的数据进行分组;步骤4、采用相似匹配法来计算两个数据的相似程度;步骤5、将步骤1~步骤4中频繁出现的数据进行提取,根据数据的属性特征,用词频作为统计指标,表明数据所反馈的数据段信息;步骤6、根据数据段分解正则表达式对待分析数据中的数据段进行数据分解,生成数据项值,并将数据项值与数据段分解正则表达式对应的数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对,根据数据统计规则,对中间数据对进行统计分析,得到数据分析结果。2.根据权利要求1所述的方法,其特征在于,步骤2包括:设定自变量数据对象为X={x1,x2,...,x
m
},其对应的因变量为y={y1,y2,...,y
m
},回归模型为:y=w0+w1x1+w2x2+

+w
m
x
m
+μ其中,x
m
、y
m
分别表示第m个自变量和第m个因变量;w={w0,w1,w2,...,w
m
}为回归系数集合,w
m
表示第m个回归系数,μ为随机误差,采用平方误差来衡量拟合的误差L(X):由得到:得到:是对w(回归系数)的参数估计值;通过局部加权线性回归,解决欠拟合问题,为误差增加权重w
i
,误差为:其中W是对角矩阵,采用高斯核,对应权重函数W(j,j)为:其中k表示高斯函数的方差,得到新的回归系数为:其中W=W
T
W。3.根据权利要求2所述的方法,其特征在于,步骤4中,要求不同分组的数据对象之间相似度低,同一个分组中的数据对象之间的相似度高,通过如下目标函数计算J:
其中,J是实测数据集中所有对象的平方误差之和,x
i
表示数据集中任意一个对象,u
j
是第j个聚合类C
j
的中心点,目标是让上述目标函数达到收敛。4.根据权利要求3所述的方法,其特征在于,步骤4中,所述相似匹配法包括平均指标和变异指标的计算、资料分布形态的图形表现,通过计算数据项之间的距离,衡量两个数据项之间的相似度,采用了欧氏距离、曼和顿距离、闵可夫斯基距离、夹角余弦距离综合考虑,计算公式如下:采用如下公式计算欧式距离D1(X
i
,X
j
):采用如下公式计算曼和顿距离D2(X
i
,X
j
...

【专利技术属性】
技术研发人员:陈大海张冰徐浩葛卫春
申请(专利权)人:中通服咨询设计研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1