【技术实现步骤摘要】
本专利技术涉及一种网页摘要抽取方法及其装置,尤其涉及一种基于关键词的网页摘要抽取方法及其装置。
技术介绍
目前对于网页摘要抽取方法有以下几类:1.基于文本集的方法。该方法引入机器学习的方法,从文本集和摘要中学习有关规则。主要分为两个阶段:训练阶段和测试阶段。训练阶段从训练文本集中抽取文本的重要特征,并通过学习算法生成规则;测试阶段则将训练阶段学到的规则应用于测试文本集,生成摘要。该方法的不足是需要利用训练生成的规则才能生成摘要,过分依赖训练文本集,难以保证生成摘要的准确性。2.基于领域本体的方法:该方法主要通过本体对于应用领域层次上的语义信息以及本体的内部关系分析文本,过滤不相关信息,使主题更加突出,摘要的抽取更加准确,该方法的不足是由于中文领域本体的缺乏,需要自己构建领域本体,工作量大。因此,需要出现一种既能保证生成摘要的准确性,又能减少工作量的网页摘要抽取方法的出现。
技术实现思路
针对上述问题,本专利技术提供一种能够从网页中正确提取摘要的方法及其装置。本专利技术提供一种网页摘要抽取方法,用于从通过输入用户选定的查询词所得到的与所述查询词相关的网页中抽取摘要,其特征在于,包括以下步骤:(1)查询词预处理步骤:利用分词工具将查询词分词为若干个子查询词,统计每个子查询词出现的频率以及每个子查询词在查询词中的分布信息;(2)文本预处理步骤:将预处理后的网页文本分成若干个句子,利< ...
【技术保护点】
一种网页摘要抽取方法,用于从通过输入用户选定的查询词所得到的与所述查询词相关的网页中抽取摘要,其特征在于,包括以下步骤:(1)查询词预处理步骤利用分词工具将查询词分词为若干个子查询词;(2)文本预处理步骤将预处理后的网页文本分成若干个句子,利用分词工具将每个句子进行分词并保存每个子查询词在网页文本中的分布信息;(3)词频及词分布信息统计步骤统计每个句子包含的子查询词的个数、包含的连续子查询词的个数和包含的子查询词的种类,并在句子对出现的子查询词进行标注以及标明具体为那个子查询词;(4)评分步骤基于步骤(3)的统计数据,利用评分工具对每个句子进行评分,计算每个句子的分数;(5)排序和生成摘要步骤按分数从高到低对句子进行排序,选取前K个句子来生成摘要,其中0≦K≦3。
【技术特征摘要】
2015.02.13 CN 20151007725861.一种网页摘要抽取方法,用于从通过输入用户选定的查询词所得到
的与所述查询词相关的网页中抽取摘要,其特征在于,包括以下步骤:
(1)查询词预处理步骤
利用分词工具将查询词分词为若干个子查询词;
(2)文本预处理步骤
将预处理后的网页文本分成若干个句子,利用分词工具将每个句子进
行分词并保存每个子查询词在网页文本中的分布信息;
(3)词频及词分布信息统计步骤
统计每个句子包含的子查询词的个数、包含的连续子查询词的个数和
包含的子查询词的种类,并在句子对出现的子查询词进行标注以及标明具
体为那个子查询词;
(4)评分步骤
基于步骤(3)的统计数据,利用评分工具对每个句子进行评分,计
算每个句子的分数;
(5)排序和生成摘要步骤
按分数从高到低对句子进行排序,选取前K个句子来生成摘要,其中
0≦K≦3。
2.根据权利要求1所述的网页摘要抽取方法,其特征在于,所述步骤
(5)还包括:如果所述K个句子生成的摘要长度大于设定的摘要长度,
则对超过所述摘要长度的句子内容进行删除,以及对摘要中出现的子查询
词进行标注。
3.根据权利要求1所述的网页摘要抽取方法,其特征在于,所述每个
子查询词在查询词中的分布信息包括每个子查询词在查询词中的位置和
前后相邻信息,所述每个子查询词在网页文本中的分布信息包括每个子查
询词在文本中的开始位置和结束位置信息。
4.根据权利要求1所述的网页摘要抽取方法,其特征在于,所述步骤
(4)...
【专利技术属性】
技术研发人员:刘庆朝,何文娟,周娜,冯艳伟,
申请(专利权)人:刘秀磊,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。