通过大数据网络进行英语远程数据提取方法技术

技术编号:33455910 阅读:18 留言:0更新日期:2022-05-19 00:38
本发明专利技术提出了一种通过大数据网络进行英语远程数据提取方法,包括如下步骤:S1,获取大数据网络中每个节点的英语文献,对每个英语文献进行关联权重计算,通过聚合公式对英语文献进行遍历操作;通过归一化进行英语文献数据的统一;S2,对归一化的英语文献数据进行特征分类,通过特征分类器进行英语文献特征分类,完成英语文献的特征分类分析;S3,分类完成后对大数据网络中的每个英语文献进行标签化处理。大数据网络中的每个英语文献进行标签化处理。大数据网络中的每个英语文献进行标签化处理。

【技术实现步骤摘要】
通过大数据网络进行英语远程数据提取方法


[0001]本专利技术涉及数据分析领域,尤其涉及一种通过大数据网络进行英语远程数据提取方法。

技术介绍

[0002]在大数据网络中,网络媒介包含了大量英语文献以及英语相关词汇,对于英语词汇或者文献的内容中表达的引导性和指向性词语进行快速提取,是需要经过不断训练和学习的过程才能够实现快速查找对应的英语文献,现有的学习方法并不能对网络中英语文献进行标签化,也不能快速准确的进行分类操作,无法提取出所需的英语文献,降低了用户在对网络数据挖掘过程中的效率,无法匹配准确的英语文献,这就亟需本领域技术人员解决相应的技术问题。

技术实现思路

[0003]本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种通过大数据网络进行英语远程数据提取方法。
[0004]为了实现本专利技术的上述目的,本专利技术提供了一种通过大数据网络进行英语远程数据提取方法,包括:
[0005]S1,获取大数据网络中每个节点的英语文献,对每个英语文献进行关联权重计算,通过聚合公式对英语文献进行遍历操作;通过归一化进行英语文献数据的统一;
[0006]S2,对归一化的英语文献数据进行特征分类,通过特征分类器进行英语文献特征分类,完成英语文献的特征分类分析;
[0007]S3,分类完成后对大数据网络中的每个英语文献进行标签化处理。
[0008]优选的,所述S1包括:
[0009]S1

1,在大数据网络中获取特定节点的英语文献,也就是在大数据网络中一个网络节点判断其是否存在英语文献,存在英语文献则保留该网络节点,不存在英语文献则删除该网络节点;
[0010]S1

2,存在英语文献的网络节点接收检索信息的输入,根据检索信息关联度高低使用关联度权重进行数据赋值。
[0011]优选的,所述S1还包括:
[0012]S1

3,对r个英语文献包含的检索信息中形成信息集合Z
r
,i∈Z
r
,i为关联矩阵中包含的英语文献;
[0013]通过r个英语文献中包含相同检索信息的关联权重
[0014][0015]对获取的英语文献y在关联向量中计算y
i
∈D
r
的关联程度;
[0016]在关联权重乘以关联向量进行数据聚合,其中,σ是多个英语文献中包含相同检索信息的出现频次,ρ≠1,其为调节系数,用于对获取包含检索信息的英语文献出现频次进行收敛,m
n
为一个英语文献y出现n个检索信息的数量。
[0017]优选的,所述S1还包括:
[0018]S1

4,形成的归一化函数公式为:
[0019]其中L(i)=L(Z
r
),用于计算聚合函数;
[0020]该聚合函数为
[0021]其中,为归一化之前包含检索信息的英语文献的平均值,l为调节系数,τ为y
i
的权重因子,w
i
为包含检索信息的信息集合的关联度;
[0022]将经过归一化计算的关联向量合并后形成关联矩阵V
y
∈D
r
×
n
,形成的矩阵为n个检索信息中包含的r个英语文献。
[0023]优选的,所述S2包括:
[0024]S2

1,在归一化之后的包含检索信息的英语文献进行特征分类,如果关联矩阵V
y
中特征值分为k个特征项,使用分类器C
k
对V
y
进行分类;
[0025]S2

2,直到C
k
的特征分类完成为止;如果特征分类结果中有属性最大值,将C
k
分类为正常;如果特征分类结果中没有属性最大值,将C
k
分类为1
[0026]优选的,所述S2中分类器包括:
[0027]A,分类器C
k
,当k=1时,中为r个英语文献中的k个类别属性为1,
[0028]B,分类器C
k
,当k>1时,λ为检索信息的相关度,A为分类关系的差值,N
j
为分类属性权重,此时Ck的规模通过的类别属性变化而进行调整;
[0029]C,分类器C
k
,k不能小于1。
[0030]优选的,所述S3包括:
[0031]包含检索信息的英语文献对应的大数据网络节点,根据评价指标对节点进行标签化处理,标签的设定需要计算节点英语文献相对于检索信息的离散程度,
[0032]i为关联矩阵中包含的英语文献,bi为包含检索信息的英语文献关联概率值,概率值离散度高,设定节点为低相关标签,概率值离散度低,设定为高相关标签。
[0033]综上所述,由于采用了上述技术方案,本专利技术的有益效果是:
[0034]由于通过对文献进行结构化分拆之后,能够对分拆的短语进行情感分析,通过演
化模型产生倾向性的引导过程,在大数据网络中能够对每个数据节点进行快速分析,并提取出符合用户需求的英语文献,进行归类整理后,实现英语文献数据的快速提取,并且保证了英语文献数据的准确性。
[0035]本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0036]本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0037]图1是本专利技术总体示意图。
具体实施方式
[0038]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。
[0039]如图1所示,本专利技术公开一种根通过大数据网络进行英语远程数据提取方法,包括如下步骤:
[0040]S1,获取大数据网络中每个节点的英语文献,对每个英语文献进行关联权重计算,通过聚合公式对英语文献进行遍历操作;删除经过聚合之后的重复语句、无效语句和主谓缺失语句,通过归一化进行英语文献数据的统一;(无效语句和主谓缺失语句区别在于,无效语句包括拼写错误、时态错误或者没有宾语或表语,主谓缺失语句包括没有主语和谓语或者主系语缺失)
[0041]S2,对归一化的英语文献数据进行特征分类,通过特征分类器进行英语文献特征分类,完成英语文献的特征分类分析;
[0042]S3,分类完成后对大数据网络中的每个英语文献进行标签化处理。
[0043]优选的,所述S1包括:
[0044]S1

1,在大数据网络中获取特定节点的英语文献,也就是在大数据网络中一个网络节点判断其是否存在英语文献,存在英语文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通过大数据网络进行英语远程数据提取方法,其特征在于,包括:S1,获取大数据网络中每个节点的英语文献,对每个英语文献进行关联权重计算,通过聚合公式对英语文献进行遍历操作;通过归一化进行英语文献数据的统一;S2,对归一化的英语文献数据进行特征分类,通过特征分类器进行英语文献特征分类,完成英语文献的特征分类分析;S3,分类完成后对大数据网络中的每个英语文献进行标签化处理。2.根据权利要求1所述的通过大数据网络进行英语远程数据提取方法,其特征在于,所述S1包括:S1

1,在大数据网络中获取特定节点的英语文献,也就是在大数据网络中一个网络节点判断其是否存在英语文献,存在英语文献则保留该网络节点,不存在英语文献则删除该网络节点;S1

2,存在英语文献的网络节点接收检索信息的输入,根据检索信息关联度高低使用关联度权重进行数据赋值。3.根据权利要求2所述的通过大数据网络进行英语远程数据提取方法,其特征在于,所述S1还包括:S1

3,对r个英语文献包含的检索信息中形成信息集合Z
r
,i∈Z
r
,i为关联矩阵中包含的英语文献;通过r个英语文献中包含相同检索信息的关联权重对获取的英语文献y在关联向量中计算y
i
∈D
r
的关联程度;在关联权重乘以关联向量进行数据聚合,其中,σ是多个英语文献中包含相同检索信息的出现频次,ρ≠1,其为调节系数,用于对获取包含检索信息的英语文献出现频次进行收敛,m
n
为一个英语文献y出现n个检索信息的数量。4.根据权利要求3所述的通过大数据网络进行英语远程数据提取方法,其特征在于,所述S1还包括:S1

4,形成的归一化函数公式为:其中L(i)=L(Z
r
),用于计算聚合函数;该聚合函数为其中,为归一化之前包含检索信息的英语文献的平均...

【专利技术属性】
技术研发人员:邓淄予
申请(专利权)人:重庆工业职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1