【技术实现步骤摘要】
提取网页内容的方法、装置和计算机存储介质
本公开涉及提取网页内容的方法、装置和计算机存储介质。
技术介绍
互联网、固定接入设备及便携式接入终端的迅速发展,使得网页成为人们获取信息、制造信息的主要媒介。但是随着网页数量的激增,想要快速准确地获取所需信息是困难的。随着数字资源和万维网上的信息的飞速增长,存在着大量方便用户阅读的信息。因此,也存在根据需要将所需要抽取的信息自动抽取出来的需求。提取网页内容的方法和系统通常涉及从半结构化的Web文档中抽取数据,其核心在于将分散在网络上的半结构化的HTML页面中的隐含的信息点抽取出来,并以更为结构化的、语义更为清晰的形式加以表示,为用户在Web中查询数据以及应用程序直接利用Web中的数据提供便利。由于网页内容信息提取是互联网信息处理的首要环节,因此信息提取的准确度会直接影响到后续的处理。信息抽取的目标是去除提取噪音,获取网页中有价值的信息,例如网页的标题、时间、正文、链接等信息。传统的网页信息提取方法包括基于规则的提取方法和基于机器学习的提取方法。基于规则的方法可以达到较 ...
【技术保护点】
1.一种提取网页内容的方法,包括:/n计算网页特征与至少一个网页特征聚类的代表集合的相似度,所述代表集合包括相应网页特征聚类中彼此间相似度较高的网页特征的样本;/n确定与所述网页特征的相似度最高的代表集合;/n用所述网页特征更新与所确定的代表集合关联的网页特征聚类;/n重新计算所更新的网页特征聚类的代表集合;以及/n根据与所更新的网页特征聚类关联的提取模板从网页中提取内容。/n
【技术特征摘要】
1.一种提取网页内容的方法,包括:
计算网页特征与至少一个网页特征聚类的代表集合的相似度,所述代表集合包括相应网页特征聚类中彼此间相似度较高的网页特征的样本;
确定与所述网页特征的相似度最高的代表集合;
用所述网页特征更新与所确定的代表集合关联的网页特征聚类;
重新计算所更新的网页特征聚类的代表集合;以及
根据与所更新的网页特征聚类关联的提取模板从网页中提取内容。
2.如权利要求1所述的方法,其中,
所述代表集合中彼此间相似度较高的网页特征的样本取自同一类别的网页内容。
3.如权利要求2所述的方法,其中,
所述代表集合的数量等于待提取网页内容的类别的数量。
4.如权利要求1所述的方法,其中
基于所更新的网页特征聚类中网页特征与其它样本的网页特征的相似度之和除以与各个代...
【专利技术属性】
技术研发人员:夏迎炬,郑仲光,孟遥,陈炎,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。