当前位置: 首页 > 专利查询>微软公司专利>正文

从统一资源定位符(URL)的关键字提取制造技术

技术编号:7809421 阅读:220 留言:0更新日期:2012-09-27 08:20
本发明专利技术涉及从统一资源定位符(URL)中的关键字提取。本文所描述的关键字提取技术从web日志中的统一资源定位符(URL)中提取关键字。该技术充分利用URL的内容和结构来提取相关关键字。首先,URL基于其结构被分成多个分量。在受控词汇的帮助下,单独地从URL的每个分量中提取一组关键字。随后通过从URL的不同段中形成项的组合来生成第二组关键字。仅保留在可控词汇中存在的那些组合作为关键字。最后,用将广泛的一组特征考虑在内的一函数来对这些关键字打分。

【技术实现步骤摘要】
从统一资源定位符(URL)的关键字提取
本专利技术涉及URL,尤其涉及URL中的关键字提取。
技术介绍
在计算中,统一资源定位符(URL)是指定所标识的资源在哪里可用并提供一种用于检索该可用资源的机制的统一资源标识符(URI)。例如,URL可以是由主存网页的网站的创建者给予网页的唯一身份。URL以标准格式来定义,该标准格式通常指定方案或协议、域名或网际协议(IP)地址、要取得资源的路径或要运行的程序、查询串以及可任选的片段标识符。URL越来越多地包含与这些URL所对应的网页的话题高度相关的经压缩的文本。在许多应用中,它们可被视为关于网页的话题的有价值的信息源。
技术实现思路
提供本
技术实现思路
以便以简化形式介绍将在以下具体实施方式中进一步描述的一些概念。本
技术实现思路
并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。本文描述的关键字提取技术从web日志(例如,通常以逆时间顺序包含用户所请求的一系列URL条目的服务器日志)中的URL中提取关键字。该技术充分利用URL的内容和结构来提取相关关键字。在一个实施例中,URL首先基于其结构被分成多个分量。在受控词汇的帮助下,单独地从URL的每个分量中提取一组关键字。通过从URL的不同段中形成项的组合来生成第二组关键字。仅保留在可控词汇中出现的那些组合作为关键字。最后,用将广泛的一组特征考虑在内的一函数来对这些关键字打分。附图说明参考以下描述、所附权利要求书以及附图,将更好地理解本专利技术的具体特征、方面和优点,附图中:图1描绘了本文所描述的关键字提取技术的示例性过程的流程图。图2描绘了本文所描述的关键字提取技术的另一示例性过程的流程图。图3是用于实践本文所描述的关键字提取技术的一个示例性实施例的示例性体系结构。图4是可用于实践关键字提取技术的示例性计算环境的示意图。具体实施方式在以下对关键字提取技术的描述中,对附图作出参考,附图形成了该描述的一部分,且作为可实践本文所描述的关键字提取技术的说明性示例示出。可以理解,可以利用其他实施例,并且可以作出结构上的改变而不背离所要求保护的主题的范围。1.0关键字提取技术以下章节提供了关键字提取技术的概览、以及用于实践本技术的示例性过程和示例性体系结构。还提供了关键字提取技术的各实施例的细节。1.1技术概览本文所描述的关键字提取技术从URL中提取关键字。该技术使用URL的内容和结构来提取相关关键字。这些关键字随后可在各应用中使用,诸如例如在线广告和在线内容过滤。1.2URL结构因为本专利技术的关键字提取技术在提取关键字时使用URL结构,所以对URL结构的一些解释是有用的。URL的格式基于Unix文件路径句法,其中使用正斜杠来隔开目录或文件夹以及文件或资源名。每一个URL都由以下各项中的某些项组成:schemename(方案名,通常被称为协议)、之后是冒号、随后取决于该方案是domainname(域名,可另选地,网际协议(IP)地址)、portnumber(端口号)、要取得资源的path(路径)或要运行的程序、querystring(查询串)以及可任选的fragmentidentifier(片段标识符)。句法是scheme://domain:port/path?query_string#fragment_id。本文所描述的关键字提取技术使用这一URL格式来提取网页的关键字,该关键字可用于各种应用。并不需要下载网页以提取对应于所提取的关键字的网页的关键字。这提供了极高的计算效率。1.3示例性过程图1描绘了用于从URL中提取关键字的示例性计算机实现的过程。如图1所示,框102,标识URL的各分量。更具体地,在关键字提取技术的一个实施例中,URL被分成授权机构(authority)、路径(path)、查询(query)和片段(fragment)分量。所标识的分量随后被拆分成各段,如框104中所示。例如,授权机构分量通过丢弃授权机构分量的协议字段和扩展字段而被拆分成各段;而路径分量通过丢弃与该URL所对应的网页的话题不相关的所有字段而被拆分成各段。查询分量通过提取查询字段中的键-值对而被拆分成各段;以及片段分量通过提取片段字段而被拆分成各段。在本文档的下文中将更详细地讨论关键字的分段。随后通过对各段执行文本分段来将URL文本转换成自然语言项来处理这些段,如框106中所示。例如,在一个实施例中,这通过用空格来替换URL文本中的每个定界符以创建项来完成;并且随后拆分通常在URL中找到的项。随后基于受控词汇从各段项中提取第一组关键字,如框108中所示。各段中匹配受控词汇的项被保留以属于第一组关键字。受控词汇是可从任何URL中提取的有效项和短语的大的列表。基于受控词汇通过从URL中的与用来生成第一组关键字的段不同的段中形成项的组合来生成第二组关键字,如框110中所示。在该技术的一个实施例中,通过以下方式来提取这第二组关键字:通过从URL的段对中各取出一关键字并串接来自每一个段对中的关键字来组合URL的段对以生成候选关键字组合,并且随后对照受控词汇来验证候选关键字组合。在受控词汇中找到的候选关键字组合被提取为关键字而那些未被找到的则被排除。从URL中提取的关键字还可任选地通过使用外部知识源来扩展。例如,通过使用语义映射,“travel(旅游)”可被扩展至“trip(旅行)”和“tour(观光)”。如框112中所示,随后基于一组特征对第一和第二组关键字的相关性打分,并且按相关性的顺序输出经打分的关键字(框114)。在关键字提取技术的一个实施例中,基于每一关键字的父段的位置、关键字的长度以及父段的长度对关键字打分。输出关键字随后可在各种应用中使用,如框116中所示。例如,所提取的关键字可用于将网页上的关键字与广告客户提供的与广告有关的关键字进行匹配,以便将特定类型的广告定向到特定类型的网站。应该注意,不必下载网页以从给定的网页中提取关键字。可另选地,所提取的关键字可用于内容过滤,例如通过将从网页提取的关键字与令人讨厌的项或短语列表进行匹配以过滤诸如色情之类的内容。所提取的关键字还可用于通过将所提取的网页关键字与搜索查询项进行匹配的搜索应用。图2描绘了根据本专利技术的技术的用于从URL中提取关键字的另一示例性计算机实现的过程200。图2提供了这一示例性过程的一般过程动作。关于这些过程动作的更多细节将在本文档中的下文中提供。如图2所示,框202,网页的URL被分成授权机构、路径、查询和片段4个预定义URL分量。各分量基于特定定界符和试探性观察被分开地令牌化以获得各段,如框204中所示。如框206中所示,对各段执行文本分段以将URL的文本转换成自然语言项,并基于受控词汇从各段项中提取第一组关键字。如框208中所示,通过从URL中与用于提取第一组关键字的段不同的段中形成项的组合并且提取在受控词汇中的项的组合作为第二组关键字来生成第二组关键字。随后基于相关性对这些第一和第二组关键字打分以输出经排序的一组经打分的关键字,如框210中所示。各种打分技术可用于此目的。该技术还可通过使用外部知识源来通过将关键字映射到其他在语义上等价或相关的字和短语来提供关键字扩展从而生成附加的关键字。1.4示例性体系结构图3示出了用于采用关键字提取技术的示例性本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201210067044.html" title="从统一资源定位符(URL)的关键字提取原文来自X技术">从统一资源定位符(URL)的关键字提取</a>

【技术保护点】

【技术特征摘要】
2011.03.15 US 13/048,6781.一种用于从对应于网站的统一资源定位符(URL)中提取关键字的计算机实现的过程,包括:标识所述URL的分量(102);基于URL分量的结构将所述URL分成多个段(104);对所述段执行文本分段以将URL文本转换成自然语言项(106);基于受控词汇从段项中提取第一组关键字(108);通过从URL中的与用于生成所述第一组关键字的段不同的段中形成项的组合来生成第二组关键字(110);基于所述受控词汇验证所述第二组关键字;从用户从其请求当前页面的网页的引用者URL和相关联的当前URL中提取引用者关键字;通过组合所述第一组关键字、所述第二组关键字、以及所述引用者关键字来形成最终的一组特征;基于一组特征来对所述最终的一组关键字的相关性打分(112);以及按相关性的顺序输出经打分的关键字(114)。2.如权利要求1所述的计算机实现的过程,其特征在于,基于所述URL的结构将URL分成多个段还包括:将所述URL分成授权机构、路径、查询和片段分量。3.如权利要求1所述的计算机实现的过程,其特征在于,提取所述第一组关键字包括:(a)对照所述受控词汇来比较四个项长度的段短语,(b)如果在所述受控词汇中找到所述短语,则指派所述短语作为关键字,(c)如果未在所述受控词汇中找到所述短语,则将段的长度减少1项并对照所述受控词汇再次比较所述短语,(d)重复(c)直到在所述受控词汇中找到其余的项或者仅留下短语的一个项;以及(e)如果在所述受控词汇中找到所述短语,则输出所述短语作为关键字,如果未在所述受控词汇中找到所述短语,则忽略所述短语。4.如权利要求1所述的计算机实现的过程,其特征在于,还包括从所述第二组关键字中删除未在所述受控词汇中找到的项的组合。5.如权利要求1所述的计算机实现的过程,其特征在于,在提取所述第一组关键字之前将URL文本转换成自然语言文本包括:用空格...

【专利技术属性】
技术研发人员:S·R·维西拉祖U·R·尤杜帕A·N·博伊G·达萨W·刘Q·肖
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1