自动添加内链的方法及系统技术方案

技术编号:7103932 阅读:390 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种自动添加内链的方法及系统,该方法包括:对接收的词条信息进行切词以获取关键词;根据预先设置的抓取策略,从关键词中抓取待添加内链的词汇;对待添加内链的词汇自动添加内链。本发明专利技术通过系统自动添加策略,减少人工投入,在一定程度上丰富百科词条的内链的同时,大幅度提高百科词条的内链量和准确率。对浏览用户而言,无需花费大量的时间和经历去检索查找相关疑难术语,提高延伸阅读体验,降低搜索成本;对编辑用户而言,节省了为相关词条添加内链所花费的人力成本,同时避免了人工添加内链的主观随意性,提高了内链的针对性和有效性;对管理团队而言,极大地降低了对增加内链的编辑版本进行人工审核所花费的成本。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种自动添加内链的方法及系统
技术介绍
随着互联网的普及,每天都有大量的新闻、事件等消息通过网络被迅速传播,人们对于各种信息的传播热情与共享程度达到了空前的高度,为方便人类不断积累知识,沉淀并传承文明,一种通过电子大百科全书记录信息的方式应运而生。人们可以对已有知识或刚刚形成的智力成果进行梳理和积累,或者自己感兴趣的领域,凭借自身的知识能力对相关知识主题进行编辑和完善。不断完善的电子大百科全书不仅对知识体系进行了有效的梳理和保存,还有利于人们进行知识检索与查阅。人们在阅读一个主题知识时,需要对文中所遇到的陌生字汇或问题进行查询;知识体系的建立为用户检索提供大量的信息供用户阅读参考,但是即时是检索到相关主题知识,通过大量浏览找到自身所需要的背景知识仍然需要花费用户大量的时间和精力。为满足人们获取更多知识的需要,改善浏览用户的延展阅读的体验,在主题词条中添加内部链接(简称“内链”),用以对被添加内链的主题词进行注解或知识扩展,用户在遇到该添加内链的主题词后通过点击该内链给出的链接可以获得自动的答疑解惑,极大地方便了用户的阅读;同时具有内链的电子大百科全书在知识体系结构上也更加完善,也有利于减少对同一较为生僻或热点事件的重复注解,提供系统的资源利用率。此外,研究发现通过内链途径,还能够有效提高词条的总页面浏览率(PVjage View),在方便用户阅读的同时,提供用户的忠诚度。但是,现有的设置内链的方式主要包括由人工添加和由系统自动添加。对于人工添加的方式,由于其添加内链是凭借自身的知识能力/经验来决定对什么词汇添加内链的,主观任意性较强,会存在需要添加内链的没有添加内链,而无需内链注解的主题词又被添加了内链,造成内链遗漏和内链闲置等问题。此外,对于人工添加的方式,需要耗费大量的人力物力,尤其是在知识爆炸的时代,大量信息的瞬时爆发对于设置内链的及时性和有效性提出了更高的要求,但传统的人工添加的方式效率低下,远不能满足需要。对于机器自动添加的方式,由于其对目标主题词的内链的必需性不作严格的判断,几乎是对主题词都进行内链,针对性和选择性都比较差,造成大量无用的内链最终处于闲置状态,而未被有效的利用,从而造成系统资源的浪费。如何能够有效地对网页中的知识体系设置内链,在丰富大百科全书词条的内链的同时,还能避免机器自动添加内链的盲目性,以及克服人工添加内链效率低下等技术问题成为本领于亟待解决的技术问题。
技术实现思路
本专利技术要解决的一个技术问题是提供一种自动添加内链的方法及系统,其能够在减少人工投入的前提下,提高内链添加的效率和针对性,从而有效地丰富百科词条的内链。4本专利技术的一个方面提供了一种自动添加内链的方法,该方法包括对接收的词条信息进行切词以获取关键词;根据预先设置的抓取策略,从关键词中抓取待添加内链的词汇;对待添加内链的词汇自动添加内链。本专利技术提供的自动添加内链的方法的一个实施例中,根据预先设置的抓取策略, 从关键词中抓取待添加内链的词汇的步骤进一步包括如果词条信息设置有相关词条信息,且词条正文中获取的关键词提及相关词条信息的词条名,则抓取关键词为待添加内链的词汇,以便随后在词条名出现的正文位置,增加词汇的内链。本专利技术提供的自动添加内链的方法的一个实施例中,根据预先设置的抓取策略, 从关键词中抓取待添加内链的词汇的步骤进一步包括如果在第一词条信息的正文中获取的关键词中,出现了第二词条信息的词条名,且第二词条信息的正文中所获取的关键词同样出现第一词条信息的词条名时,确认第一词条信息和第二词条信息之间存在较高关联性,则抓取第一词条信息和第二词条信息作为待添加内链的互链词汇,以便随后在词条名出现的正文位置,增加词汇的内链。本专利技术提供的自动添加内链的方法的一个实施例中,该方法还包括在确定待添加内链的互链词汇后,对互链词汇进行筛选,以过滤不作自动添加内链处理的互链词汇。 本专利技术提供的自动添加内链的方法的一个实施例中,对待添加内链的词汇自动添加内链进一步包括使用“百科机器人”作为系统的编辑ID,使用“添加内链”作为编辑原因,分批进行内链导入添加。本专利技术的另一个方面提供了一种自动添加内链的系统,该系统包括切词模块,用于对接收的词条信息进行切词以获取关键词;抓取模块,用于根据预先设置的抓取策略,从关键词中抓取待添加内链的词汇;添加内链模块,用于对待添加内链的词汇自动添加内链。本专利技术提供的自动添加内链的系统的一个实施例中,抓取模块进一步包括相关词条内链子模块,用于如果词条信息设置有相关词条信息,且词条正文中获取的关键词提及相关词条信息的词条名,则关键词为待添加内链的词汇,以便随后在词条名出现的正文位置,增加词汇的内链。本专利技术提供的自动添加内链的系统的一个实施例中,抓取模块进一步包括互链词内链子模块,用于如果在第一词条信息的正文中获取的关键词中,出现了第二词条信息的词条名,且第二词条信息的正文中所获取的关键词同样出现第一词条信息的词条名时,确认第一词条信息和第二词条信息之间存在较高关联性,则第一词条信息和第二词条信息互为待添加内链的互链词汇,以便随后在词条名出现的正文位置,增加词汇的内链。本专利技术提供的自动添加内链的系统的一个实施例中,该系统还包括过滤模块,用于在互链词内链子模块确定待添加内链的互链词汇后,对互链词汇进行筛选,以过滤不作自动添加内链处理的互链词汇。本专利技术提供的自动添加内链的系统的一个实施例中,添加内链模块进一步用于使用“百科机器人”作为系统的编辑ID,使用“添加内链”作为编辑原因,分批进行内链导入添加。本专利技术提供的自动添加内链的方法及系统,通过对现有百科词条,进行系统抓取和关联性分析,自动添加内链,在短时间内大幅度提高百科词条的内链量和准确率。并在以下三方面都获得良好的技术效果对浏览用户而言,无需花费大量的时间和经历去检索查5找相关疑难术语,提高延伸阅读体验,降低搜索成本;对编辑用户而言,节省了为相关词条添加内链所花费的人力成本,同时避免了人工添加内链的主观随意性,提高了内链的针对性和有效性;对管理团队而言,极大地降低了对增加内链的编辑版本进行人工审核所花费的成本。附图说明图1示出本专利技术实施例提供的一种自动添加内链的方法的流程图;图2示出本专利技术提供的自动添加内链的方法的另一个实施例的流程图;图3示出本专利技术提供的自动添加内链的方法的另一个实施例的流程图;图4示出本专利技术提供的自动添加内链的方法的另一个实施例的流程图;图5示出本专利技术实施例提供的一种自动添加内链的系统的结构示意图;图6示出本专利技术提供的自动添加内链的系统的另一个实施例的结构示意图;图7示出本专利技术提供的自动添加内链的系统的另一个实施例的结构示意图;图8示出本专利技术提供的自动添加内链的系统的另一个实施例的结构示意图;图9示出本专利技术提供的自动添加内链的系统的一个具体实施方的结构示意图。具体实施例方式下面参照附图对本专利技术进行更全面的描述,其中说明本专利技术的示例性实施例。图1示出本专利技术实施例提供的一种自动添加内链的方法的流程图。如图1所示,自动添加内链的方法流程100包括步骤102,对接收的词条信息进行切词以获取关键词。例如,用户完成对某词条信息的创建、编辑后,将该此修改的版本进行提交上传,新生成版本审核通过后,系统可根本文档来自技高网
...

【技术保护点】
1.一种自动添加内链的方法,其特征在于,所述方法包括:对接收的词条信息进行切词以获取关键词;根据预先设置的抓取策略,从所述关键词中抓取待添加内链的词汇;对所述待添加内链的词汇自动添加内链。

【技术特征摘要】

【专利技术属性】
技术研发人员:支静耿磊王坤张东进贺翔
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1