一种网页标题的抽取方法与装置制造方法及图纸

技术编号:8323445 阅读:198 留言:0更新日期:2013-02-14 00:47
本发明专利技术提供了一种网页标题抽取方法。该方法包括:确定检索词在网页标题中的位置;判断网页标题的首字符到所述检索词的末字符的长度是否小于等于预设标题呈现长度,如果否,则查找断句符,当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,将相应文字作为结果返回。本发明专利技术还提供了一种网页标题抽取装置。本发明专利技术呈现出来的网页标题,既具有较强的可读性和保留了较多的核心信息,又带有“标红”记号便于检索者快速获得检索内容。

【技术实现步骤摘要】

本专利技术涉及检索
,尤其涉及一种网页标题的抽取方法与装置
技术介绍
随着互联网技术的发展,网络信息呈爆炸性增长。在信息海洋中,人们为获得特定信息往往依赖信息检索技术。通过输入待了解信息的检索词,搜索引擎即可将包含该检索词内容呈现在检索者面前,呈现形式通常是以网页标题形式显示每个检索结果项,网页标题下附有一段包含检索词的简短文字,人们点击该标题便可方便地链接到包含检索词的详细页面。为加速查找与方便阅览,网页标题通常还将检索词进行“标红”处理。然而,网页标题作为获取特定信息的重要窗口,呈现在人们面前的网页标题不一定是真实标题的全部内容,标题中也可能不含检索词,从而也没有“标红”记号。这种情形在一些超长的网页标题中经常出现由于搜索引擎无法将超长的网页标题全部显示出来,搜索引擎在搜出相关网页后,将按照预设的网页标题呈现长度对网页标题进行截断处理,即是从网页标题的起始位置算起,将预设呈现标题长度内的文字作为网页标题,丢弃后面的标题内容。尽管截断后的剩余标题从网页标题是从标题起始位置开始的一段文字,保持了较好的可读性,且大多数情况下也能保留下网页标题的核心信息。但是,当检索词出现在网页标题截断处之后时,网页标题中就没有“标红”信息,这些没有“标红”处理的网页标题将排序到整个搜索结果的靠后位置,妨碍了检索者快捷地获取欲检索的信息内容,大大降低了用户体验。
技术实现思路
有鉴于此,本专利技术的专利技术目的在于提供一种网页标题的抽取方法与装置,通过以检索词为中心查找检索词前后的断句符,将在断句符之间的包含检索词的文字作为结果返回,以确保呈现出来的网页标题既具有较强的可读性和尽可能保留核心信息,又能带有“标红”记号便于快速获得检索内容。本专利技术提供的一种网页标题的抽取方法包括确定检索词在网页标题中的位置;判断网页标题的首字符到所述检索词的末字符的长度是否小于等于预设标题呈现长度,如果是,则自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回;如果否,则查找断句符,当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,将相应文字作为结果返回。优选地,所述查找到的断句符包括位于检索词之前的前断句符时,则将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和前断句符的一段文字作为结果返回。优选地,所述查找到的断句符包括位于检索词之后的后断句符时,则将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和后断句符的一段文字作为结果返回。优选地,所述查找到的断句符包括位于检索词之前的前断句符和位于检索词之后的后断句符时,则将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词、前断句符和后断句符的一段文字作为结果返回。优选地,在将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字作为结果返回时,所述方法还包括从该段文字的首字符向前寻找第一位置,将第一位置到该段文字的首字符之间的文字同该段文字一起作为结果返回,所述第一位置到该段文字的末字符间的文字长度小于等于预设标题呈现长度;或,从该段文字的末字符向后寻找第二位置,将该段文字的末字符到第二位置之间的文字同该段文字一起作为结果返回,所述第二位置到该段文字的首字符间的文字长度小于等于预设标题呈现长度;或,从该段文字的首字符向前寻找第三位置,从该段文字的末字符向后寻找第四位置,将第三位置到该段文字的首字符之间的文字和该段文字的末字符到第四位置之间的文字同该段文字一起作为结果返回,所述第三位置到第四位置间的文字长度小于等于预设标题呈现长度。优选地,所述方法还包括当网页标题中不存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字时,则自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回。本专利技术还提供了一种网页标题的抽取装置,该装置包括检索词位置确定单元、判断单元、断句符查找单元、第一匹配单元和结果返回单元,其中所述检索词位置确定单元,用于确定检索词在网页标题中的位置;所述判断单元,用于判断网页标题的首字符到所述检索词的末字符间的文字长度是否小于等于预设标题呈现长度,如果是,则触发结果返回单元;如果否,则触发断句符查找单元;所述断句符查找单元,用于查找断句符;所述第一匹配单元,用于当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,触发结果返回单元。所述结果返回单元,用于在受到判断单元触发时,自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回;在受到第一匹配单元触发时,将相应的文字作为结果返回。优选地,所述断句符查找单元查找到的断句符包括位于检索词之前的前断句符和位于检索词之后的后断句符时,则所述结果返回单元用于将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词、前断句符和后断句符的一段文字作为结果返回。优选地,所述结果返回单元在受到触发将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字作为结果返回时,该单元还用于从该段文字的首字符向前寻找第一位置,将第一位置到该段文字的首字符之间的5文字同该段文字一起作为结果返回,所述第一位置到该段文字的末字符间的文字长度小于等于预设标题呈现长度时;或,从该段文字的末字符向后寻找第二位置,将该段文字的末字符到第二位置之间的文字同该段文字一起作为结果返回,所述第二位置到该段文字的首字符到间的文字长度小于等于预设标题呈现长度时;或,从该段文字的首字符向前寻找第三位置,从该段文字的末字符向后寻找第四位置,将第三位置到该段文字的首字符之间的文字和该段文字的末字符到第四位置之间的文字同该段文字一起作为结果返回,第三位置到第四位置间的文字长度小于等于预设标题呈现长度时。优选地,所述装置还包括第二匹配单元,用于当网页标题中不存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字时,触发结果返回单元,则所述结果返回单元还用于在受到第二匹配单元触发时,自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回。本专利技术的技术方案在确定检索词的位置后,首先判定网页标题的首字符到检索词的末字符间的文字长度是否小于等于预设标题呈现长度,如果否,则查找断句符,然后确定网页标题中是否存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字,当满足该条件的文字块存在时,将其作为结果返回。与现有技术相比,本专利技术抛弃了无论检索词所处何位置均从网页标题起始位置计算预设标题呈现长度后截断标题的做法,而是以包含检索词、断句符且满足匹配条件的方式去呈现结果,这样既能保证呈现出来的网页标题具有较强的可读性和保留较多的核心信息,又能使网页标题带有“标红”记号,从而方便了检索者快速地获得欲检索内容,提高和改善了用户体验,解决了现有技术的技术问题。附图说明图I为本专利技术的方法的一个实施例的流程图;图2为图I所示的实施例的一个网页标题抽取实例图;图3为本专利技术的方法的又一个实施例的流程图;图4为本专利技术的方法的再一个实施例的流程图;图5为本专利技术的装置的实施例的组成框图。具体实施本文档来自技高网...

【技术保护点】
一种网页标题的抽取方法,其特征在于,该方法包括:确定检索词在网页标题中的位置;判断网页标题的首字符到所述检索词的末字符间的文字长度是否小于等于预设标题呈现长度,如果是,则自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回;如果否,则:查找断句符,当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,将所述一段文字作为结果返回。

【技术特征摘要】
1.一种网页标题的抽取方法,其特征在于,该方法包括 确定检索词在网页标题中的位置; 判断网页标题的首字符到所述检索词的末字符间的文字长度是否小于等于预设标题呈现长度,如果是,则自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回;如果否,则 查找断句符,当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,将所述一段文字作为结果返回。2.根据权利要求I所述的方法,其特征在于,当所述查找到的断句符包括位于检索词之前的前断句符时,则将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和前断句符的一段文字作为结果返回。3.根据权利要求I所述的方法,其特征在于,当所述查找到的断句符包括位于检索词之后的后断句符时,则将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和后断句符的一段文字作为结果返回。4.根据权利要求I所述的方法,其特征在于,当所述查找到的断句符包括位于检索词之前的前断句符和位于检索词之后的后断句符时,则将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词、前断句符和后断句符的一段文字作为结果返回。5.根据权利要求I所述的方法,其特征在于,在将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字作为结果返回时,该方法还包括 从该段文字的首字符向前寻找第一位置,将第一位置到该段文字的首字符之间的文字同该段文字一起作为结果返回,所述第一位置到该段文字的末字符间的文字长度小于等于预设标题呈现长度;或, 从该段文字的末字符向后寻找第二位置,将该段文字的末字符到第二位置之间的文字同该段文字一起作为结果返回,所述第二位置到该段文字的首字符间的文字长度小于等于预设标题呈现长度;或, 从该段文字的首字符向前寻找第三位置,从该段文字的末字符向后寻找第四位置,将第三位置到该段文字的首字符之间的文字和该段文字的末字符到第四位置之间的文字同该段文字一起作为结果返回,所述第三位置到第四位置间的文字长度小于等于预设标题呈现长度。6.根据权利要求I所述的方法,其特征在于,所述方法还包括当网页标题中不存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字时,则自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回。7.—种网页标题的抽取装置,...

【专利技术属性】
技术研发人员:陈宏杰张小洵薛贵荣
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1