当前位置: 首页 > 专利查询>刘秀磊专利>正文

网页摘要抽取方法及其装置制造方法及图纸

技术编号:11597618 阅读:80 留言:0更新日期:2015-06-12 09:40
本发明专利技术公开了一种网页摘要抽取方法,用于从通过输入用户选定的查询词所得到的与所述查询词相关的网页中抽取摘要。本发明专利技术的网页摘要抽取方法能够准确地从网页中提取摘要,使用户快速确定网页是否相关,是否进一步查看,从而解决了用户快速查找相关文档的困扰。本发明专利技术还提供一种网页摘要抽取装置。

【技术实现步骤摘要】

本专利技术涉及一种网页摘要抽取方法及其装置,尤其涉及一种基于关键词的网页摘要抽取方法及其装置。
技术介绍
目前对于网页摘要抽取方法有以下几类:1.基于文本集的方法。该方法引入机器学习的方法,从文本集和摘要中学习有关规则。主要分为两个阶段:训练阶段和测试阶段。训练阶段从训练文本集中抽取文本的重要特征,并通过学习算法生成规则;测试阶段则将训练阶段学到的规则应用于测试文本集,生成摘要。该方法的不足是需要利用训练生成的规则才能生成摘要,过分依赖训练文本集,难以保证生成摘要的准确性。2.基于领域本体的方法:该方法主要通过本体对于应用领域层次上的语义信息以及本体的内部关系分析文本,过滤不相关信息,使主题更加突出,摘要的抽取更加准确,该方法的不足是由于中文领域本体的缺乏,需要自己构建领域本体,工作量大。因此,需要出现一种既能保证生成摘要的准确性,又能减少工作量的网页摘要抽取方法的出现。
技术实现思路
针对上述问题,本专利技术提供一种能够从网页中正确提取摘要的方法及其装置。本专利技术提供一种网页摘要抽取方法,用于从通过输入用户选定的查询词所得到的与所述查询词相关的网页中抽取摘要,其特征在于,包括以下步骤:(1)查询词预处理步骤:利用分词工具将查询词分词为若干个子查询词,统计每个子查询词出现的频率以及每个子查询词在查询词中的分布信息;(2)文本预处理步骤:将预处理后的网页文本分成若干个句子,利<br>用分词工具将每个句子进行分词并保存每个词在网页文本中的分布信息,并统计句子个数和文本中词的个数;(3)词频及词分布信息统计步骤:统计每个句子包含的子查询词的个数、包含的连续子查询词的个数和包含的子查询词的种类,并在句子对出现的子查询词进行标注以及标明具体为那个子查询词;(4)评分步骤:基于步骤(3)的统计数据,利用评分工具对每个句子进行评分,计算每个句子的分数;(5)排序和生成摘要步骤:按分数从高到低对句子进行排序,选取前K个句子来生成摘要,其中0≦K≦3。本专利技术还提供一种网页摘要抽取装置,其特征在于,包括:查询词预处理单元,利用分词工具将查询词分词为若干个子查询词,统计每个子查询词出现的频率以及每个子查询词在查询词中的分布信息;文本预处理单元,将文本分成若干个句子,利用分词工具将每个句子进行分词并保存每个词在网页文本中的分布信息,并统计句子个数和文本中词的个数;词频及词分布信息单元,统计若干个句子中出现至少一个所述子查询词的句子数,统计某个所述子查询词在每个句子中出现的频率,以及统计每个句子中出现子查询词的种类,并在句子对出现的子查询词进行标注以及标明具体为那个子查询词;评分单元,利用评分工具对每个句子进行评分,计算每个句子的分数;排序单元,按分数从高到低对句子进行排序;以及组织摘要单元,选取前K个句子来生成摘要,其中0≦K≦3。本专利技术能够在响应用户查询的时候,根据查询词在文档中出现的位置,提取出查询词周围相关的文字并返回给用户,由于一篇文档会被不同的查询词召回,因此,本专利技术会根据不同的查询词,对同一个文档形成不同的摘要文字。同时,对给定的文本中的关键字进行加粗、加红等显示方式,已凸显它和普通文本的区别。从而使用户能够快速查找所需的相关信息。附图说明图1是本专利技术的网页摘要抽取方法的示意图。图2是本专利技术的网页摘要抽取装置的示意图。具体实施方式本专利技术的宗旨是从网页中准确地提取摘要,主要解决以下问题:1.概述搜索出的网页的大概内容,使用户快速确定网页是否相关,是否进一步查看。从而解决了用户快速查找相关文档的困扰。2.对于搜索系统来说,当响应用户查询的时候,根据查询词在文档中出现的位置,提取出查询词周围相关的文字并返回给用户。3.摘要提取的准确率问题。本专利技术主要将词频、标题、词分布等要素作为评判句子重要性的语句来抽取出重要的句子作为摘要。有效的提高了摘要提取的准确率问题。为解决上述技术问题,本专利技术网页摘要抽取方法采用了以下技术:(1)文本处理技术。本专利技术中主要两个地方使用到该技术,一个是查询词或标题预处理单元,另一个是文本预处理单元。(2)结果排序技术。本专利技术首先对给定的文档进行分句,分句主要依据于\。!?….!?\等符号的出现。然后对每一句进行评分,评分主要依据下述三个因素:1)句子中包含查询词分词后的子查询词的个数,包括重复出现的子查询词;2)句子中包含连续子查询词的个数;3)句子中包含的子查询词的种类。最后根据评分来进行排序,找出排在前K的得分比较高的的句子。为使本领技术人员进一步了解本专利技术的特征及
技术实现思路
,下面结合附图和实施例,对本专利技术的技术方案进行详细描述。一般,用户根据欲获取的信息选择好检索词后,将该检索词输入检索框,搜索引擎通常很短时间内即可在海量网页中找到关于该检索词的相关内容,这些内容将并不直接反馈给用户,因而用户很难知道所检索的网页中那些是自己所需要的,如果每个网页都进行浏览,将会浪费大量时间。因而,如何快速且高效的将网页中的内容以摘要的形式呈现给用户,以便用户及时了解网页是否相关以作出判断显得至关重要。图1是本专利技术的网页摘要抽取方法的示意图。如图1所示,本专利技术的网页摘要抽取方法包括:步骤S1:查询词预处理步骤利用分词工具将查询词分词为若干个子查询词;具体地,可利用词频统计工具,如IKAnalyzer分词器、ICTCLAS、Ansj、结巴分词等将查询词分词为若干个子查询词,统计每个子查询词出现的频率以及每个子查询词在查询词中的分布信息,包括每个子查询词在查询词中的位置和前后相邻关系的信息,并标识出查询词中重复出现的子查询词;步骤S2:文本预处理步骤将预处理后的网页文本分成若干个句子,利用分词工具将每个句子进行分词并保存每个词在网页文本中的分布信息;具体地,依据\。!?….!?\等符号的出现对文本进行分句处理,然后利用分词工具,如IKAnalyzer分词器对每个句子进行分词处理,并保存每个词在文本中的位置信息,包括开始位置和结束位置。分布信息对句子评分起作用,按照子查询词的分布信息来进行评分,例如,假设查询词包括子查询词A、B、C,那么出现形如...AB...C...或...ABC...这样的句子肯定比形如...A...B...C...这样的句子的评分要高。步骤S3:词频及词分布信息统计步骤统计每个句子包含的子查询词的个数、包含的连续子查询词的个数和本文档来自技高网
...
网页摘要抽取方法及其装置

【技术保护点】
一种网页摘要抽取方法,用于从通过输入用户选定的查询词所得到的与所述查询词相关的网页中抽取摘要,其特征在于,包括以下步骤:(1)查询词预处理步骤利用分词工具将查询词分词为若干个子查询词;(2)文本预处理步骤将预处理后的网页文本分成若干个句子,利用分词工具将每个句子进行分词并保存每个子查询词在网页文本中的分布信息;(3)词频及词分布信息统计步骤统计每个句子包含的子查询词的个数、包含的连续子查询词的个数和包含的子查询词的种类,并在句子对出现的子查询词进行标注以及标明具体为那个子查询词;(4)评分步骤基于步骤(3)的统计数据,利用评分工具对每个句子进行评分,计算每个句子的分数;(5)排序和生成摘要步骤按分数从高到低对句子进行排序,选取前K个句子来生成摘要,其中0≦K≦3。

【技术特征摘要】
2015.02.13 CN 20151007725861.一种网页摘要抽取方法,用于从通过输入用户选定的查询词所得到
的与所述查询词相关的网页中抽取摘要,其特征在于,包括以下步骤:
(1)查询词预处理步骤
利用分词工具将查询词分词为若干个子查询词;
(2)文本预处理步骤
将预处理后的网页文本分成若干个句子,利用分词工具将每个句子进
行分词并保存每个子查询词在网页文本中的分布信息;
(3)词频及词分布信息统计步骤
统计每个句子包含的子查询词的个数、包含的连续子查询词的个数和
包含的子查询词的种类,并在句子对出现的子查询词进行标注以及标明具
体为那个子查询词;
(4)评分步骤
基于步骤(3)的统计数据,利用评分工具对每个句子进行评分,计
算每个句子的分数;
(5)排序和生成摘要步骤
按分数从高到低对句子进行排序,选取前K个句子来生成摘要,其中
0≦K≦3。
2.根据权利要求1所述的网页摘要抽取方法,其特征在于,所述步骤
(5)还包括:如果所述K个句子生成的摘要长度大于设定的摘要长度,
则对超过所述摘要长度的句子内容进行删除,以及对摘要中出现的子查询
词进行标注。
3.根据权利要求1所述的网页摘要抽取方法,其特征在于,所述每个
子查询词在查询词中的分布信息包括每个子查询词在查询词中的位置和
前后相邻信息,所述每个子查询词在网页文本中的分布信息包括每个子查
询词在文本中的开始位置和结束位置信息。
4.根据权利要求1所述的网页摘要抽取方法,其特征在于,所述步骤
(4)...

【专利技术属性】
技术研发人员:刘庆朝何文娟周娜冯艳伟
申请(专利权)人:刘秀磊
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1