摘要生成方法及装置制造方法及图纸

技术编号:21513946 阅读:23 留言:0更新日期:2019-07-03 09:03
本发明专利技术公开了一种摘要生成方法及装置,可以获得待提取摘要的文本,识别所述待提取摘要的文本的文本类型,确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容,根据提取的文本内容,生成所述待提取摘要的文本的摘要。由于本发明专利技术可以识别文本的文本类型并使用与文本类型匹配的摘要提取方式从文本中提取摘要,因此本发明专利技术提取得到的摘要的准确性更高。

Summary Generation Method and Device

【技术实现步骤摘要】
摘要生成方法及装置
本专利技术涉及文本处理领域,尤其涉及一种摘要生成方法及装置。
技术介绍
随着生活节奏的加快,人们可用于阅读文字的时间越来越短,一篇完整的文字已无法满足用户的需求。为了解决这个问题,技术人员研发了文本摘要自动生成技术。通过该技术可以自动根据文本生成摘要,由于摘要更加简短,因此满足了用户对快速阅读从而在较短时间内了解信息的需求。现有的文本摘要往往将文本的首段文字作为摘要,这种方式适用于将重点放置于首段文字的文本,但对于其他情况(如重点分布在文中许多位置)则不适用。可见,现有的摘要生成技术会导致生成的摘要遗漏文本中的许多重点信息,即:现有的摘要生成技术生成的摘要的准确性较低。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种摘要生成方法及装置,方案如下:一种摘要生成方法,包括:获得待提取摘要的文本;识别所述待提取摘要的文本的文本类型;确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容;根据提取的文本内容,生成所述待提取摘要的文本的摘要。可选的,所述识别所述待提取摘要的文本的文本类型,包括:根据预设的文本特征提取方式,从所述待提取摘要的文本中提取至少一个文本特征;根据文本特征与文本类型的预设对应关系,将与提取的所述文本特征对应的文本类型确定为所述待提取摘要的文本的文本类型;或者,所述识别所述待提取摘要的文本的文本类型,包括:确定所述待提取摘要的文本的标题和正文;根据预设的文本特征提取方式,分别从所述待提取摘要的文本的标题和正文中提取至少一个文本特征;根据文本特征与文本类型的预设对应关系,将与提取的所述文本特征对应的文本类型确定为所述待提取摘要的文本的文本类型。可选的,所述识别所述待提取摘要的文本的文本类型,包括:将所述待提取摘要的文本输入文本分类模型中,所述文本分类模型通过标识有文本类型的训练文本进行分类训练得到,所述文本分类模型用于对接收的文本的文本类型进行分类;确定所述文本分类模型是否输出了分类结果,如果是,则将所述分类结果中的文本类型确定为所述待提取摘要的文本的文本类型。可选的,所述获得待提取摘要的文本,包括:从网页中获得待提取摘要的文本;所述方法还包括:在所述文本分类模型未输出分类结果时,获得所述待提取摘要的文本在所述网页中所属的栏目的标识;根据获得的栏目的标识确定所述待提取摘要的文本的文本类型。可选的,所识别的文本类型包括理论文章类、媒体报道类、领导讲话类、法律法规类和研究报告类中的至少一种,所述摘要提取方式包括:方式一至方式六中的至少一种;方式一为:根据摘要提示词进行摘要提取;方式二为:根据标题进行摘要提取;方式三为:根据问题所对应的答案进行摘要提取;方式四为:根据介绍内容进行摘要提取;方式五为:根据顺序提示词进行摘要提取;方式六为:根据总结提示词进行摘要提取。可选的,通过以下摘要提取方式中的至少一种,对识别后的不同文本类型对应的文本进行摘要提取:通过方式一和方式二中的至少一种,对所述理论文章类对应的文本进行摘要提取;通过方式一至方式四中的至少一种,对所述媒体报道类对应的文本进行摘要提取;通过方式二、方式五、方式六中的至少一种,对所述领导讲话类对应的文本进行摘要提取;通过方式二和方式五中的至少一种,对所述法律法规类对应的文本进行摘要提取;通过方式一和方式二中的至少一种,对所述研究报告类对应的文本进行摘要提取。一种摘要生成装置,包括:文本获得单元、类型识别单元、内容提取单元和摘要生成单元,所述文本获得单元,用于获得待提取摘要的文本;所述类型识别单元,用于识别所述待提取摘要的文本的文本类型;所述内容提取单元,用于确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容;所述摘要生成单元,用于根据提取的文本内容,生成所述待提取摘要的文本的摘要。可选的,所述内容提取单元所识别的文本类型包括理论文章类、媒体报道类、领导讲话类、法律法规类和研究报告类中的至少一种,所述内容提取单元确定的摘要提取方式包括:方式一至方式六中的至少一种;方式一为:根据摘要提示词进行摘要提取;方式二为:根据标题进行摘要提取;方式三为:根据问题所对应的答案进行摘要提取;方式四为:根据介绍内容进行摘要提取;方式五为:根据顺序提示词进行摘要提取;方式六为:根据总结提示词进行摘要提取。可选的,通过以下摘要提取方式中的至少一种,对识别后的不同文本类型对应的文本进行摘要提取:通过方式一和方式二中的至少一种,对所述理论文章类对应的文本进行摘要提取;通过方式一至方式四中的至少一种,对所述媒体报道类对应的文本进行摘要提取;通过方式二、方式五、方式六中的至少一种,对所述领导讲话类对应的文本进行摘要提取;通过方式二和方式五中的至少一种,对所述法律法规类对应的文本进行摘要提取;通过方式一和方式二中的至少一种,对所述研究报告类对应的文本进行摘要提取。一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行上述的任一种摘要生成方法。一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的任一种摘要生成方法。借由上述技术方案,本专利技术提供的一种摘要生成方法及装置,可以获得待提取摘要的文本,识别所述待提取摘要的文本的文本类型,确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容,根据提取的文本内容,生成所述待提取摘要的文本的摘要。由于本专利技术可以识别文本的文本类型并使用与文本类型匹配的摘要提取方式从文本中提取摘要,因此本专利技术提取得到的摘要的准确性更高。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种摘要生成方法的流程图;图2示出了本专利技术实施例提供的另一种摘要生成方法的流程图;图3示出了本专利技术实施例提供的另一种摘要生成方法的流程图;图4示出了本专利技术实施例提供的另一种摘要生成方法的流程图;图5示出了本专利技术实施例提供的一种摘要生成装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。如图1所示,本专利技术实施例提供的一种摘要生成方法,可以包括:S100、获得待提取摘要的文本;其中,图1所示方法可以应用于服务器中。可选的,待提取摘要的文本的获得方式可以有多种,如:从网页中获得或从某终端中获得,当然,待提取摘要的文本也可以由用户上传至服务器中。S200、识别所述待提取摘要的文本的文本类型;本专利技术可以对多种本文档来自技高网...

【技术保护点】
1.一种摘要生成方法,其特征在于,包括:获得待提取摘要的文本;识别所述待提取摘要的文本的文本类型;确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容;根据提取的文本内容,生成所述待提取摘要的文本的摘要。

【技术特征摘要】
1.一种摘要生成方法,其特征在于,包括:获得待提取摘要的文本;识别所述待提取摘要的文本的文本类型;确定与所识别的文本类型匹配的摘要提取方式,使用确定的摘要提取方式从所述待提取摘要的文本中提取文本内容;根据提取的文本内容,生成所述待提取摘要的文本的摘要。2.根据权利要求1所述的方法,其特征在于,所述识别所述待提取摘要的文本的文本类型,包括:根据预设的文本特征提取方式,从所述待提取摘要的文本中提取至少一个文本特征;根据文本特征与文本类型的预设对应关系,将与提取的所述文本特征对应的文本类型确定为所述待提取摘要的文本的文本类型;或者,所述识别所述待提取摘要的文本的文本类型,包括:确定所述待提取摘要的文本的标题和正文;根据预设的文本特征提取方式,分别从所述待提取摘要的文本的标题和正文中提取至少一个文本特征;根据文本特征与文本类型的预设对应关系,将与提取的所述文本特征对应的文本类型确定为所述待提取摘要的文本的文本类型。3.根据权利要求1所述的方法,其特征在于,所述识别所述待提取摘要的文本的文本类型,包括:将所述待提取摘要的文本输入文本分类模型中,所述文本分类模型通过标识有文本类型的训练文本进行分类训练得到,所述文本分类模型用于对接收的文本的文本类型进行分类;确定所述文本分类模型是否输出了分类结果,如果是,则将所述分类结果中的文本类型确定为所述待提取摘要的文本的文本类型。4.根据权利要求3所述的方法,其特征在于,所述获得待提取摘要的文本,包括:从网页中获得待提取摘要的文本;所述方法还包括:在所述文本分类模型未输出分类结果时,获得所述待提取摘要的文本在所述网页中所属的栏目的标识;根据获得的栏目的标识确定所述待提取摘要的文本的文本类型。5.根据权利要求1至4中任一项所述的方法,其特征在于,所识别的文本类型包括理论文章类、媒体报道类、领导讲话类、法律法规类和研究报告类中的至少一种,所述摘要提取方式包括:方式一至方式六中的至少一种;方式一为:根据摘要提示词进行摘要提取;方式二为:根据标题进行摘要提取;方式三为:根据问题所对应的...

【专利技术属性】
技术研发人员:李好孙德彬曹志明
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1