【技术实现步骤摘要】
基于互联网的信息定向抓取方法及装置
[0001]本专利技术涉及人工智能
,尤其涉及一种基于互联网的信息定向抓取方法及装置。
技术介绍
[0002]在信息时代的大背景下,互联网信息以超乎想象的速度迅猛增加,信息爆炸、信息过载使人们陷入了信息时代的新困境。如何在海量的互联网信息资源中快速有效地获取所需信息成为亟待解决的一个重要问题。与此同时,信息用户对信息的需求正逐渐呈现出主题化、领域化、专业化和个性化的趋势,如何满足这些主题化的信息需求也是当前的重要课题。
[0003]正是由于互联网信息资源爆发性增长和信息采集技术的日益强大,且各类信息用户对主题信息定向采集的需求迫切,带来数据几何式的增长速度使得指定数据获取成本也逐年增加,数据定向抓取的难度也越来越大,因此如何提升信息定向抓取时的准确性,成为了亟待解决的问题。
技术实现思路
[0004]本专利技术提供一种基于互联网的信息定向抓取方法及装置,其主要目的在于解决信息定向抓取时准确性较低的问题。
[0005]为实现上述目的,本专利技术提供的一种基于互联网的信息定向抓取方法,包括:
[0006]获取待抓取数据的数据主题,根据所述数据主题和预设的采集程序生成所述待抓取数据的采集数据;
[0007]对所述采集数据进行冗余剔除,得到所述采集数据的标准数据;
[0008]根据条件随机场构建信息缩略模型,利用所述信息缩略模型对所述标准数据进行缩略处理,得到所述标准数据的简化数据;
[0009]利用预设的前向后向算法计 ...
【技术保护点】
【技术特征摘要】
1.一种基于互联网的信息定向抓取方法,其特征在于,所述方法包括:获取待抓取数据的数据主题,根据所述数据主题和预设的采集程序生成所述待抓取数据的采集数据;对所述采集数据进行冗余剔除,得到所述采集数据的标准数据;根据条件随机场构建信息缩略模型,利用所述信息缩略模型对所述标准数据进行缩略处理,得到所述标准数据的简化数据;利用预设的前向后向算法计算所述简化数据的可信度,选取最大可信度所对应的简化数据为目标数据,根据所述目标数据生成所述待抓取数据的数据抓取报告,所述预设的前向后向算法为:其中,P(O∣λ)是所述简化数据的观测序列概率,O是观测序列,λ是隐马尔可夫模型的模型参数,i是前向状态序列的状态标识,N是状态总数,j是后向状态序列中的状态标识,t是时间标识,α
t
(i)是t时刻第i状态的前向概率,a
ij
表示状态i和状态j的依赖关系,o
t+1
是所述观测序列中的第t+1个简化数据,β
t+1
(j)是t+1时刻状态j的后向概率,b
j
(o
t+1
)是观测序列中的第t+1个简化数据的观测概率。2.如权利要求1所述的基于互联网的信息定向抓取方法,其特征在于,所述根据所述数据主题和预设的采集程序生成所述待抓取数据的采集数据,包括:根据所述数据主题获取网页链接列表,根据所述网页链接列表对网页链接进行去重处理,得到标准链接列表;利用所述标准链接列表和预设的采集程序生成所述待抓取数据的采集数据。3.如权利要求1所述的基于互联网的信息定向抓取方法,其特征在于,所述对所述采集数据进行冗余剔除,得到所述采集数据的标准数据,包括:利用向量空间模型生成所述采集数据的特征向量集;利用预设的相似度算法对所述特征向量集中的特征向量进行对比判断,得到所述特征向量的对比结果;根据所述对比结果对所述采集数据进行冗余剔除,得到所述采集数据的标准数据。4.如权利要求3所述的基于互联网的信息定向抓取方法,其特征在于,所述利用向量空间模型生成所述采集数据的特征向量集,包括:利用向量空间模型对所述采集数据进行分词处理,得到所述采集数据的数据分词;对所述数据分词进行词性标注,得到所述数据分词的标注分词,生成所述标准分词的分词特征;根据句法依存原则对所述分词特征进行语境修正,得到所述分词特征的语境特征,根据所述语境特征生成所述采集数据的特征向量集。5.如权利要求3所述的基于互联网的信息定向抓取方法,其特征在于,所述利用预设的相似度算法对所述特征向量集中的特征向量进行对比判断,得到所述特征向量的对比结果,包括:利用如下相似度算法计算所述特征向量集中的特征向量的余弦值:
其中,cos(W
x
,W
y
)是所述特征向量集中的特征向量的余弦值,W
x
是所述特征向量集中的第x个特征向量,W
y
是所述特征向量集中的第y个特征向量,w
k
是第x个特征向量中的第k个值,v
k
是第y个特征向量中的第k个值,x是所述特征向量集中...
【专利技术属性】
技术研发人员:邢家辉,黄毓桦,曾崎峰,
申请(专利权)人:深圳市艾莉诗科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。