基于互联网的信息定向抓取方法及装置制造方法及图纸

技术编号:37505088 阅读:27 留言:0更新日期:2023-05-07 09:41
本发明专利技术涉及人工智能技术,揭露了一种基于互联网的信息定向抓取方法,包括:获取待抓取数据的数据主题,根据所述数据主题和预设的采集程序生成所述待抓取数据的采集数据;对所述采集数据进行冗余剔除,得到所述采集数据的标准数据;根据条件随机场构建信息缩略模型,利用所述信息缩略模型对所述标准数据进行缩略处理,得到所述标准数据的简化数据;利用预设的前向后向算法计算所述简化数据的可信度,选取最大可信度所对应的简化数据为目标数据,根据所述目标数据生成所述待抓取数据的数据抓取报告。本发明专利技术还提出一种基于互联网的信息定向抓取装置。本发明专利技术可以提高基于互联网的信息定向抓取的准确性。定向抓取的准确性。定向抓取的准确性。

【技术实现步骤摘要】
基于互联网的信息定向抓取方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种基于互联网的信息定向抓取方法及装置。

技术介绍

[0002]在信息时代的大背景下,互联网信息以超乎想象的速度迅猛增加,信息爆炸、信息过载使人们陷入了信息时代的新困境。如何在海量的互联网信息资源中快速有效地获取所需信息成为亟待解决的一个重要问题。与此同时,信息用户对信息的需求正逐渐呈现出主题化、领域化、专业化和个性化的趋势,如何满足这些主题化的信息需求也是当前的重要课题。
[0003]正是由于互联网信息资源爆发性增长和信息采集技术的日益强大,且各类信息用户对主题信息定向采集的需求迫切,带来数据几何式的增长速度使得指定数据获取成本也逐年增加,数据定向抓取的难度也越来越大,因此如何提升信息定向抓取时的准确性,成为了亟待解决的问题。

技术实现思路

[0004]本专利技术提供一种基于互联网的信息定向抓取方法及装置,其主要目的在于解决信息定向抓取时准确性较低的问题。
[0005]为实现上述目的,本专利技术提供的一种基于互联网的信息定向抓取方法,包括:
[0006]获取待抓取数据的数据主题,根据所述数据主题和预设的采集程序生成所述待抓取数据的采集数据;
[0007]对所述采集数据进行冗余剔除,得到所述采集数据的标准数据;
[0008]根据条件随机场构建信息缩略模型,利用所述信息缩略模型对所述标准数据进行缩略处理,得到所述标准数据的简化数据;
[0009]利用预设的前向后向算法计算所述简化数据的可信度,选取最大可信度所对应的简化数据为目标数据,根据所述目标数据生成所述待抓取数据的数据抓取报告。
[0010]可选地,所述根据所述数据主题和预设的采集程序生成所述待抓取数据的采集数据,包括:
[0011]根据所述数据主题获取网页链接列表,根据所述网页链接列表对网页链接进行去重处理,得到标准链接列表;
[0012]利用所述标准链接列表和预设的采集程序生成所述待抓取数据的采集数据。
[0013]可选地,所述对所述采集数据进行冗余剔除,得到所述采集数据的标准数据,包括:
[0014]利用向量空间模型生成所述采集数据的特征向量集;
[0015]利用预设的相似度算法对所述特征向量集中的特征向量进行对比判断,得到所述特征向量的对比结果;
[0016]根据所述对比结果对所述采集数据进行冗余剔除,得到所述采集数据的标准数据。
[0017]可选地,所述利用向量空间模型生成所述采集数据的特征向量集,包括:
[0018]利用向量空间模型对所述采集数据进行分词处理,得到所述采集数据的数据分词;
[0019]对所述数据分词进行词性标注,得到所述数据分词的标注分词,生成所述标准分词的分词特征;
[0020]根据句法依存原则对所述分词特征进行语境修正,得到所述分词特征的语境特征,根据所述语境特征生成所述采集数据的特征向量集。
[0021]可选地,所述利用预设的相似度算法对所述特征向量集中的特征向量进行对比判断,得到所述特征向量的对比结果,包括:
[0022]利用如下相似度算法计算所述特征向量集中的特征向量的余弦值:
[0023][0024]其中,cos(W
x
,W
y
)是所述特征向量集中的特征向量的余弦值,W
x
是所述特征向量集中的第x个特征向量,W
y
是所述特征向量集中的第y个特征向量,w
k
是第x个特征向量中的第k个值,v
k
是第y个特征向量中的第k个值,x是所述特征向量集中的特征向量的标识,y是所述特征向量集中的特征向量的标识,n是所述特征向量中值的总数,k是所述特征向量中值的标识;
[0025]根据所述余弦值和预设的相似度阈值对所述特征向量集中的特征向量进行对比判断,得到所述特征向量的对比结果。
[0026]可选地,所述根据条件随机场构建信息缩略模型,包括:
[0027]获取信息缩略模型的模型结构,其中,所述模型结构包括:底层分词分类结构和高层特征缩略结构;
[0028]根据条件随机场对所述底层分词分类结构进行底层分类特征配置,得到底层分类模块;
[0029]根据条件随机场对所述高层特征缩略结构进行高层分类特征配置,得到高层缩略模块;
[0030]根据所述底层分类模块和所述高层缩略模块生成信息缩略模型。
[0031]可选地,所述根据条件随机场对所述底层分词分类结构进行底层分类特征配置,得到底层分类模块,包括:
[0032]对预设的底层训练语料进行特征提取,得到所述训练语料的语料特征;
[0033]根据条件随机场对所述语料特征的底层特征选取,得到所述语料特征的底层分类特征;
[0034]利用所述底层分类特征对所述底层分词分类结构进行配置,得到底层分类模块。
[0035]可选地,所述根据条件随机场对所述高层特征缩略结构进行高层分类特征配置,得到高层缩略模块,包括:
[0036]根据无向图模型建立所述高层特征缩略结构中输入数据与输出数据映射标识;
[0037]获取所述输入数据的条件随机场,利用如下条件概率算法计算所述输入数据的条件随机场的条件概率:
[0038][0039]其中,P(S∣L)是条件随机场的条件概率,Z

是归一化因子,s是输出数据,l是输入数据,S是所述输出数据序列,L是所述输入数据序列,score(s∣l)是利用预设的特征函数组对所述输出数据序列的测评系数;
[0040]选取最大条件概率所对应的输入数据为目标数据,确定所述目标数据为所述高层特征缩略结构的高层分类特征,利用所述高层分类特征对所述高层特征缩略结构进行配置,得到高层缩略模块。
[0041]可选地,所述利用所述信息缩略模型对所述标准数据进行缩略处理,得到所述标准数据的简化数据,包括:
[0042]利用所述信息缩略模型生成所述标准数据的底层分类数据,对所述底层分类数据进行高层缩略,得到所述底层分类数据的缩略数据;
[0043]按照预设的经验规则生成所述缩略数据的规则特征,根据所述规则特征对所述缩略数据进行规则推导,得到所述缩略数据的规则数据;
[0044]按照所述标准数据的网页来源对所述规则数据进行加权计算,得到所述规则数据的简化数据。
[0045]为了解决上述问题,本专利技术还提供一种基于互联网的信息定向抓取装置,所述装置包括:
[0046]数据采集模块,用于获取待抓取数据的数据主题,根据所述数据主题和预设的采集程序生成所述待抓取数据的采集数据;
[0047]冗余剔除模块,用于对所述采集数据进行冗余剔除,得到所述采集数据的标准数据;
[0048]信息缩略模块,用于根据条件随机场构建信息缩略模型,利用所述信息缩略模型对所述标准数据进行缩略处理,得到所述标准数据的简化数据;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于互联网的信息定向抓取方法,其特征在于,所述方法包括:获取待抓取数据的数据主题,根据所述数据主题和预设的采集程序生成所述待抓取数据的采集数据;对所述采集数据进行冗余剔除,得到所述采集数据的标准数据;根据条件随机场构建信息缩略模型,利用所述信息缩略模型对所述标准数据进行缩略处理,得到所述标准数据的简化数据;利用预设的前向后向算法计算所述简化数据的可信度,选取最大可信度所对应的简化数据为目标数据,根据所述目标数据生成所述待抓取数据的数据抓取报告,所述预设的前向后向算法为:其中,P(O∣λ)是所述简化数据的观测序列概率,O是观测序列,λ是隐马尔可夫模型的模型参数,i是前向状态序列的状态标识,N是状态总数,j是后向状态序列中的状态标识,t是时间标识,α
t
(i)是t时刻第i状态的前向概率,a
ij
表示状态i和状态j的依赖关系,o
t+1
是所述观测序列中的第t+1个简化数据,β
t+1
(j)是t+1时刻状态j的后向概率,b
j
(o
t+1
)是观测序列中的第t+1个简化数据的观测概率。2.如权利要求1所述的基于互联网的信息定向抓取方法,其特征在于,所述根据所述数据主题和预设的采集程序生成所述待抓取数据的采集数据,包括:根据所述数据主题获取网页链接列表,根据所述网页链接列表对网页链接进行去重处理,得到标准链接列表;利用所述标准链接列表和预设的采集程序生成所述待抓取数据的采集数据。3.如权利要求1所述的基于互联网的信息定向抓取方法,其特征在于,所述对所述采集数据进行冗余剔除,得到所述采集数据的标准数据,包括:利用向量空间模型生成所述采集数据的特征向量集;利用预设的相似度算法对所述特征向量集中的特征向量进行对比判断,得到所述特征向量的对比结果;根据所述对比结果对所述采集数据进行冗余剔除,得到所述采集数据的标准数据。4.如权利要求3所述的基于互联网的信息定向抓取方法,其特征在于,所述利用向量空间模型生成所述采集数据的特征向量集,包括:利用向量空间模型对所述采集数据进行分词处理,得到所述采集数据的数据分词;对所述数据分词进行词性标注,得到所述数据分词的标注分词,生成所述标准分词的分词特征;根据句法依存原则对所述分词特征进行语境修正,得到所述分词特征的语境特征,根据所述语境特征生成所述采集数据的特征向量集。5.如权利要求3所述的基于互联网的信息定向抓取方法,其特征在于,所述利用预设的相似度算法对所述特征向量集中的特征向量进行对比判断,得到所述特征向量的对比结果,包括:利用如下相似度算法计算所述特征向量集中的特征向量的余弦值:
其中,cos(W
x
,W
y
)是所述特征向量集中的特征向量的余弦值,W
x
是所述特征向量集中的第x个特征向量,W
y
是所述特征向量集中的第y个特征向量,w
k
是第x个特征向量中的第k个值,v
k
是第y个特征向量中的第k个值,x是所述特征向量集中...

【专利技术属性】
技术研发人员:邢家辉黄毓桦曾崎峰
申请(专利权)人:深圳市艾莉诗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1