一种获取文本摘要的方法和装置制造方法及图纸

技术编号:22166921 阅读:37 留言:0更新日期:2019-09-21 10:35
本说明书实施例提供了一种获取文本的摘要的方法和装置,所述方法包括:获取第一文本;对所述第一文本进行分句,以获取至少一个第一句子;将每个所述第一句子输入摘要模型,以使得所述摘要模型中包括的文本分类模型输出与所述第一句子对应的分值,所述分值指示该第一句子作为摘要句的概率,其中,所述文本分类模型通过监督学习而获取;以及基于各个第一句子的分值,从所述至少一个第一句子中确定该第一文本的摘要句。

A Method and Device for Obtaining Text Abstracts

【技术实现步骤摘要】
一种获取文本摘要的方法和装置
本说明书实施例涉及语言处理
,更具体地,涉及一种获取文本的摘要的方法和装置。
技术介绍
文本摘要(TextSummarization)技术是指:在不改变文档原意的情况下,利用计算机程序自动地对原始文档的要点进行总结。文本摘要的应用场景非常多,例如搜索结果片段生成、商品评论摘要等。在信息爆炸的互联网大数据时代,文本摘要用简短的文本来表达信息的主要内涵,有利于缓解信息过载问题。文本摘要方法主要分为抽取式摘要和抽象式摘要。抽取式文本摘要(ExtractiveTextSummarization)指:按照一定的权重,直接从原文中抽取出跟中心思想最接近一些句子组成摘要。现有技术中已有的抽取式摘要方法例如包括Textrank,Textrank是一种无监督抽取式方法,不需要事先对多篇文档进行学习训练,也因此,该种摘要方法对于具体的业务场景没有针对性,并且更擅长处理长文本。因此,需要一种更有效的获取文本摘要的方案。
技术实现思路
本说明书实施例旨在提供一种更有效的获取文本摘要的方案,以解决现有技术中的不足。为实现上述目的,本说明书一个方面提供一种获取文本的摘要的方法,包括:获取第一文本;对所述第一文本进行分句,以获取至少一个第一句子;将每个所述第一句子输入摘要模型,以使得所述摘要模型中包括的文本分类模型输出与所述第一句子对应的分值,所述分值指示该第一句子作为摘要句的概率,其中,所述文本分类模型通过监督学习而获取;以及基于各个第一句子的分值,从所述至少一个第一句子中确定该第一文本的摘要句。在一个实施例中,所述第一文本属于第一领域,所述文本分类模型通过预先获取的多个第一训练样本得到初步训练,其中,所述多个第一训练样本基于所述第一领域的语料库获取,每个所述第一训练样本包括其句子和相应的标签值,所述标签值指示该句子是否为摘要句。在一个实施例中,所述文本分类模型在经过所述初步训练之后基于预先获取的多个评估样本得到评估,其中,所述多个评估样本基于所述第一领域的语料库获取,每个所述评估样本包括其句子和相应的标签值。在一个实施例中,在所述评估的评估结果未达到预定阈值的情况中,所述文本分类模型还通过多个第二训练样本得到优化训练,所述第二训练样本中包括其中的选定句子和相应的标签值,所述选定句子通过如下步骤获取:从所述第一领域的语料库获取多个第二句子;将每个所述第二句子输入所述摘要模型,以使得所述摘要模型输出与该第二句子对应的分值;基于各个第二句子的分值,从所述多个第二句子中确定至少一个选定句子。在一个实施例中,基于各个第二句子的分值,从所述多个第二句子中确定选定句子包括,基于各个第二句子的分值,从所述多个第二句子中确定分值与0.5的差值在预定范围内的第二句子作为选定句子。在一个实施例中,将每个所述第一句子输入摘要模型,以使得所述摘要模型中包括的文本分类模型输出与所述第一句子对应的分值包括,在将每个所述第一句子输入摘要模型之后,由所述摘要模型进行以下步骤:获取所述第一句子中包括的多个词;获取与每个词对应的词向量;以及基于所述多个词各自的词向量,计算与所述第一句子对应的分值并输出。在一个实施例中,所述文本分类模型为Fasttext模型,所述词向量为基于所述Fasttext模型获取的特征向量。在一个实施例中,所述文本分类模型为TextCNN模型,所述摘要模型中还包括词嵌入模型,所述词向量为基于所述词嵌入模型获取的嵌入向量。本说明书另一方面提供一种获取文本的摘要的装置,包括:第一获取单元,配置为,获取第一文本;分句单元,配置为,对所述第一文本进行分句,以获取至少一个第一句子;第一输入单元,配置为,将每个所述第一句子输入摘要模型,以使得所述摘要模型中包括的文本分类模型输出与所述第一句子对应的分值,所述分值指示该第一句子作为摘要句的概率,其中,所述文本分类模型通过监督学习而获取;以及第一确定单元,配置为,基于各个第一句子的分值,从所述至少一个第一句子中确定该第一文本的摘要句。在一个实施例中,所述文本分类模型在经过所述初步训练之后基于预先获取的多个评估样本得到评估,其中,所述多个评估样本基于所述第一领域的语料库获取,每个所述评估样本包括其句子和相应的标签值。在一个实施例中,在所述评估的评估结果未达到预定阈值的情况中,所述文本分类模型还通过多个第二训练样本得到优化训练,所述第二训练样本中包括其中的选定句子和相应的标签值,所述选定句子通过选取装置获取,所述选取装置包括:第二获取单元,配置为,从所述第一领域的语料库获取多个第二句子;第二输入单元,配置为,将每个所述第二句子输入所述摘要模型,以使得所述摘要模型输出与该第二句子对应的分值;以及第二确定单元,配置为,基于各个第二句子的分值,从所述多个第二句子中确定至少一个选定句子。在一个实施例中,所述第二确定单元还配置为,基于各个第二句子的分值,从所述多个第二句子中确定分值与0.5的差值在预定范围内的第二句子作为选定句子。在一个实施例中,所述第一输入单元包括部署在所述摘要模型中的以下子单元:第一获取子单元,配置为,获取所述第一句子中包括的多个词;第二获取子单元,配置为,获取与每个词对应的词向量;以及计算子单元,配置为,基于所述多个词各自的词向量,计算与所述第一句子对应的分值并输出。本说明书另一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。在根据本说明书实施例的获取文本摘要的方案中,基于通过监督学习获取的文本分类模型用于获取文本摘要,从而可使得摘要模型具有针对性,并且由于摘要模型不依赖于文本中的句子的统计信息,因此,摘要效果不受文本长度和重复句子的影响,另外,在本说明书实施例中,还通过主动学习方法对用于监督学习的训练样本进行优化,进一步优化了模型预测效果。附图说明通过结合附图描述本说明书实施例,可以使得本说明书实施例更加清楚:图1示出根据本说明书实施例的文本摘要系统100的示意图;图2示出根据本说明书实施例的一种获取文本的摘要的方法;图3示意示出Fasttext模型的内部结构;图4综合示出了对Fasttext模型的初步训练过程和优化训练过程;图5示出根据本说明书实施例的一种获取文本的摘要的装置500。具体实施方式下面将结合附图描述本说明书实施例。图1示出根据本说明书实施例的文本摘要系统100的示意图。如图1所示,系统100包括样本选取单元11、分句单元12、摘要模型13、训练单元14和评估单元15。所示摘要模型13中例如包括Fasttext模型,该Fasttext模型通过监督学习进行训练。在模型训练阶段,样本选取单元11可首先基于预定语料库随机获取多个样本,其中,每个样本中包括基于分句单元12从语料库中获取的一个句子和对该句子标注的标签值yi,该标签值指示该句子是否为摘要句。样本选取单元11在获取多个样本之后,可将其以一定比例分为评估样本和训练样本,并将评估样本发送给评估单元15以用于模型评估,将训练样本发送给摘要模型13,以用于模型训练。在摘要模型13中,本文档来自技高网...

【技术保护点】
1.一种获取文本的摘要的方法,包括:获取第一文本;对所述第一文本进行分句,以获取至少一个第一句子;将每个所述第一句子输入摘要模型,以使得所述摘要模型中包括的文本分类模型输出与所述第一句子对应的分值,所述分值指示该第一句子作为摘要句的概率,其中,所述文本分类模型通过监督学习而获取;以及基于各个第一句子的分值,从所述至少一个第一句子中确定该第一文本的摘要句。

【技术特征摘要】
1.一种获取文本的摘要的方法,包括:获取第一文本;对所述第一文本进行分句,以获取至少一个第一句子;将每个所述第一句子输入摘要模型,以使得所述摘要模型中包括的文本分类模型输出与所述第一句子对应的分值,所述分值指示该第一句子作为摘要句的概率,其中,所述文本分类模型通过监督学习而获取;以及基于各个第一句子的分值,从所述至少一个第一句子中确定该第一文本的摘要句。2.根据权利要求1所述的方法,所述第一文本属于第一领域,所述文本分类模型通过预先获取的多个第一训练样本得到初步训练,其中,所述多个第一训练样本基于所述第一领域的语料库获取,每个所述第一训练样本包括其句子和相应的标签值,所述标签值指示该句子是否为摘要句。3.根据权利要求2所述的方法,所述文本分类模型在经过所述初步训练之后基于预先获取的多个评估样本得到评估,其中,所述多个评估样本基于所述第一领域的语料库获取,每个所述评估样本包括其句子和相应的标签值。4.根据权利要求3所述的方法,其中,在所述评估的评估结果未达到预定阈值的情况中,所述文本分类模型还通过多个第二训练样本得到优化训练,所述第二训练样本中包括其中的选定句子和相应的标签值,所述选定句子通过如下步骤获取:从所述第一领域的语料库获取多个第二句子;将每个所述第二句子输入所述摘要模型,以使得所述摘要模型输出与该第二句子对应的分值;基于各个第二句子的分值,从所述多个第二句子中确定至少一个选定句子。5.根据权利要求4所述的方法,其中,基于各个第二句子的分值,从所述多个第二句子中确定选定句子包括,基于各个第二句子的分值,从所述多个第二句子中确定分值与0.5的差值在预定范围内的第二句子作为选定句子。6.根据权利要求1所述的方法,其中,将每个所述第一句子输入摘要模型,以使得所述摘要模型中包括的文本分类模型输出与所述第一句子对应的分值包括,在将每个所述第一句子输入摘要模型之后,由所述摘要模型进行以下步骤:获取所述第一句子中包括的多个词;获取与每个词对应的词向量;以及使得所述文本分类模型基于所述多个词各自的词向量,计算与所述第一句子对应的分值并输出。7.根据权利要求6所述的方法,其中,所述文本分类模型为Fasttext模型,所述词向量为基于所述Fasttext模型获取的特征向量。8.根据权利要求6所述的方法,其中,所述文本分类模型为TextCNN模型,所述摘要模型中还包括词嵌入模型,所述词向量为基于所述词嵌入模型获取的嵌入向量。9.一种获取文本的摘要的装置,包括:第一获取单元,配置为,获取第一文本;分句单元,配置为,对所述第一文本进行分句,以获取至少一个第一句子;第一输入单元,配置为,将每个所述第一句子输入摘要模...

【专利技术属性】
技术研发人员:陈若田刘弘一熊军李若鹏
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1