The invention discloses an abstract extraction method of an evolutionary document. First, the target information input from the search engine is obtained, and then multiple target documents corresponding to the target information are determined according to the target information, and the target abstracts corresponding to the target documents are extracted from each target document. For an evolutionary document, a large number of documents will be included in a long time span. Therefore, in this scheme, when the user enters the target information, it gets multiple target documents from the target information input to the user, and can extract the document abstracts of multiple target documents at a time, thus facilitating the user to understand the evolving document faster. The content enhances user's reading experience of evolving documents. The embodiment of the invention also discloses a summary extraction device and a readable storage medium for the evolution document, which can also achieve the above technical effect.
【技术实现步骤摘要】
一种演进式文档的摘要提取方法、装置及可读存储介质
本专利技术涉及计算机应用领域,特别涉及一种演进式文档的摘要提取方法、装置及可读存储介质。
技术介绍
随着互联网的快速发展,用户通过智能移动设备每天都会接收到来自四面八方的新闻,若是热点新闻,各大媒体都会争相报道,相关的文章数量就会急剧增加,而对于演进式新闻更是如此,所谓演进式,即这种新闻是一种逐渐演变的新闻类型,该种类型的新闻会在一个较长的时间跨度内,有多家不同的媒体进行持续的跟踪报道,因此会产生大量的新闻文档,大量的文章一方面能帮助用户更全面的了解某一事件的发展历程,但另一方面,大量的文章会使得用户难以选择,同时,大量相似的文章会使用户难以发现每家媒体报道的关注点。新闻文档的摘要提取方法大部分都是抽取类型,即从给定的文章中,抽取关键的句子或短语,并重新拼接成一小段摘要。传统的新闻文档的摘要提取一次只能对单篇文档的摘要进行提取,并且对于提取出来的文档摘要不能进行时间整合。因此,对于一个较长时间跨度内的演进式文档,无法一次提取演进式文档中的多篇文档的文档摘要,同时,也不能对提取出的文档摘要进行整合。因此,如何对演进式 ...
【技术保护点】
一种演进式文档的摘要提取方法,其特征在于,包括:获取用户从搜索引擎输入的目标信息;根据所述目标信息确定与所述目标信息对应的多个目标文档;从各所述目标文档中提取与各所述目标文档对应的文档摘要。
【技术特征摘要】
1.一种演进式文档的摘要提取方法,其特征在于,包括:获取用户从搜索引擎输入的目标信息;根据所述目标信息确定与所述目标信息对应的多个目标文档;从各所述目标文档中提取与各所述目标文档对应的文档摘要。2.根据权利要求1所述的演进式文档的摘要提取方法,其特征在于,所述根据所述目标信息确定与所述目标信息对应的多个目标文档包括:通过网络爬虫从所述搜索引擎中确定与所述目标信息对应的多个网站;从多个所述网站中确定目标网站;通过所述网络爬虫从所述目标网站中提取与所述目标信息对应的所述目标文档。3.根据权利要求2所述的演进式文档的摘要提取方法,其特征在于,所述通过所述网络爬虫从所述目标网站中提取与所述目标信息对应的所述目标文档包括:通过所述网络爬虫从所述目标网站中提取与所述目标信息对应的多个标准文档;以第一预定义规则从多个所述标准文档中选取所述目标文档。4.根据权利要求3所述的演进式文档的摘要提取方法,其特征在于,所述以第一预定义规则从多个所述标准文档中选取所述目标文档包括:从多个所述标准文档中提取与各所述标准文档对应的标准关键句;从各所述标准关键句中选取相似度小于目标阈值的标准关键句作为目标关键句;将与所述目标关键句对应的标准文档作为所述目标文档。5.根据权利要求3所述的演进式文档的摘要提取方法,其特征在于,所述以第一预定义规则从多个所述标准文档中选取所述...
【专利技术属性】
技术研发人员:李志,关毅江,郭瀚阳,沈云辉,张俊,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。