【技术实现步骤摘要】
信息提取模块生成方法、信息提取方法及装置
本公开涉及计算机
,尤其涉及人工智能领域中的智能搜索和知识图谱
技术介绍
网络是计算机
最基本的一种信息传递渠道和工具。网页是向用户提供网络信息的一种重要的途径。随着互联网的发展,网页也越来越多样化,网页结构、网页地址种类繁多,增长迅速。网页信息提取,也可以称为网页内容提取,是分析网络数据的一种重要手段。随着网页数量、网页种类等迅速增加,网页信息提取技术也需要随之改进,以便更高效地提取网页信息。
技术实现思路
本公开提供了一种用于信息提取模块生成方法、信息提取方法、装置、设备以及存储介质。根据本公开的一方面,提供了一种信息提取模块生成方法,包括:获取待提取信息的目标网页;获取目标网页中待提取信息的节点,目标网页包括至少一个节点;根据待提取信息的节点,获取提取规则;根据提取规则,生成针对待提取信息的节点的第一信息提取模块。根据本公开的另一方面,提供了一种信息提取方法,其中,包括:采 ...
【技术保护点】
1.一种信息提取模块生成方法,包括:/n获取待提取信息的目标网页;/n获取所述目标网页中待提取信息的节点,所述目标网页包括至少一个节点;/n根据所述待提取信息的节点,获取提取规则;/n根据所述提取规则,生成针对所述待提取信息的节点的第一信息提取模块。/n
【技术特征摘要】
1.一种信息提取模块生成方法,包括:
获取待提取信息的目标网页;
获取所述目标网页中待提取信息的节点,所述目标网页包括至少一个节点;
根据所述待提取信息的节点,获取提取规则;
根据所述提取规则,生成针对所述待提取信息的节点的第一信息提取模块。
2.根据权利要求1所述的方法,其中,所述根据所述提取规则,生成针对所述待提取信息的节点的第一信息提取模块,包括:
根据所述提取规则,获取预生成的第二信息提取模块;
采用所述第二信息提取模块,预提取所述目标网页的信息;
在收到所述预提取信息符合要求的确认信息的情况下,将所述第二信息提取模块作为所述第一信息提取模块。
3.根据权利要求1所述的方法,其中,所述获取所述目标网页中待提取信息的节点,包括:
根据对所述目标网页中的至少一个节点的选定操作,获取所述待提取信息的节点。
4.根据权利要求3所述的方法,其中,所述根据对所述目标网页中的至少一个节点的选定操作,获取所述待提取信息的节点,包括:
根据对所述至少一个节点的选定操作,确定选定的节点;
根据所述选定的节点,显示至少一个信息提取操作的类型;
根据对至少一个信息提取操作的类型的选定操作,确定选定的信息提取操作的类型;
根据所述选定的节点,和所述选定的信息提取操作的类型,获取所述待提取信息的节点。
5.根据权利要求4所述的方法,其中,所述信息提取操作的类型为对同类别的节点进行提取或对单个节点进行提取。
6.根据权利要求1所述的方法,其中,所述获取所述目标网页中待提取信息的节点,包括:
根据与所述目标网页对应的节点规则或编辑内容,获取所述待提取信息的节点。
7.一种信息提取方法,其中,包括:
采用第一信息提取模块,获取对待提取信息的目标网页所提取的信息;所述第一信息提取模块为权利要求1-6中任意一项所述的第一信息提取模块。
8.根据权利要求7所述的方法,其中,所述方法还包括:
根据接收到的浏览器插件启动信息,调用所述第一信息提取模块,并将所述浏览器打开的网页作为所述目标网页。
9.一种信息提取模块生成装置,包括:
网页获取模块,用于获取待提取信息的目标网页;
节点获取模块,有益获取所述目标网页中待提取信息的节点,所述目标网页包括至少一个节点;
规则模块,用于根据所述待提取信息的节点,获取提取规则;
生成模块,用于根据所述提取规则,生成针对所述待提取信息的节点的第一信息提取模块...
【专利技术属性】
技术研发人员:杜威,钟普,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。