一种获取文本摘要的方法和装置制造方法及图纸

技术编号：22166921 阅读：37 留言：0更新日期：2019-09-21 10:35

本说明书实施例提供了一种获取文本的摘要的方法和装置，所述方法包括：获取第一文本；对所述第一文本进行分句，以获取至少一个第一句子；将每个所述第一句子输入摘要模型，以使得所述摘要模型中包括的文本分类模型输出与所述第一句子对应的分值，所述分值指示该第一句子作为摘要句的概率，其中，所述文本分类模型通过监督学习而获取；以及基于各个第一句子的分值，从所述至少一个第一句子中确定该第一文本的摘要句。

A Method and Device for Obtaining Text Abstracts

全部详细技术资料下载

【技术实现步骤摘要】
一种获取文本摘要的方法和装置
本说明书实施例涉及语言处理
，更具体地，涉及一种获取文本的摘要的方法和装置。
技术介绍
文本摘要(TextSummarization)技术是指：在不改变文档原意的情况下，利用计算机程序自动地对原始文档的要点进行总结。文本摘要的应用场景非常多，例如搜索结果片段生成、商品评论摘要等。在信息爆炸的互联网大数据时代，文本摘要用简短的文本来表达信息的主要内涵，有利于缓解信息过载问题。文本摘要方法主要分为抽取式摘要和抽象式摘要。抽取式文本摘要(ExtractiveTextSummarization)指：按照一定的权重，直接从原文中抽取出跟中心思想最接近一些句子组成摘要。现有技术中已有的抽取式摘要方法例如包括Textrank，Textrank是一种无监督抽取式方法，不需要事先对多篇文档进行学习训练，也因此，该种摘要方法对于具体的业务场景没有针对性，并且更擅长处理长文本。因此，需要一种更有效的获取文本摘要的方案。
技术实现思路
本说明书实施例旨在提供一种更有效的获取文本摘要的方案，以解决现有技术中的不足。为实现上述目的，本说明书一个方面提供一种获取文本的摘要的方法，包括：获取第一文本；对所述第一文本进行分句，以获取至少一个第一句子；将每个所述第一句子输入摘要模型，以使得所述摘要模型中包括的文本分类模型输出与所述第一句子对应的分值，所述分值指示该第一句子作为摘要句的概率，其中，所述文本分类模型通过监督学习而获取；以及基于各个第一句子的分值，从所述至少一个第一句子中确定该第一文本的摘要句。在一个实施例中，所述第一文本属于第一领域，所述文本分类模...

【技术保护点】
1.一种获取文本的摘要的方法，包括：获取第一文本；对所述第一文本进行分句，以获取至少一个第一句子；将每个所述第一句子输入摘要模型，以使得所述摘要模型中包括的文本分类模型输出与所述第一句子对应的分值，所述分值指示该第一句子作为摘要句的概率，其中，所述文本分类模型通过监督学习而获取；以及基于各个第一句子的分值，从所述至少一个第一句子中确定该第一文本的摘要句。

【技术特征摘要】
1.一种获取文本的摘要的方法，包括：获取第一文本；对所述第一文本进行分句，以获取至少一个第一句子；将每个所述第一句子输入摘要模型，以使得所述摘要模型中包括的文本分类模型输出与所述第一句子对应的分值，所述分值指示该第一句子作为摘要句的概率，其中，所述文本分类模型通过监督学习而获取；以及基于各个第一句子的分值，从所述至少一个第一句子中确定该第一文本的摘要句。2.根据权利要求1所述的方法，所述第一文本属于第一领域，所述文本分类模型通过预先获取的多个第一训练样本得到初步训练，其中，所述多个第一训练样本基于所述第一领域的语料库获取，每个所述第一训练样本包括其句子和相应的标签值，所述标签值指示该句子是否为摘要句。3.根据权利要求2所述的方法，所述文本分类模型在经过所述初步训练之后基于预先获取的多个评估样本得到评估，其中，所述多个评估样本基于所述第一领域的语料库获取，每个所述评估样本包括其句子和相应的标签值。4.根据权利要求3所述的方法，其中，在所述评估的评估结果未达到预定阈值的情况中，所述文本分类模型还通过多个第二训练样本得到优化训练，所述第二训练样本中包括其中的选定句子和相应的标签值，所述选定句子通过如下步骤获取：从所述第一领域的语料库获取多个第二句子；将每个所述第二句子输入所述摘要模型，以使得所述摘要模型输出与该第二句子对应的分值；基于各个第二句子的分值，从所述多个第二句子中确定至少一个选定句子。5.根据权利要求4所述的方法，其中，基于各个第二句子的分值，从所述多个第二句子中确定选定句子包括，基于各个第二句子的分值，从所述多个第二句子中确定分值与0.5的差值在预定范围内的第二句子作为选定句子。6.根据权利要求1所述的方法，其中，将每个所述第一句子输入摘要模型，以使得所述摘要模型中包括的文本分类模型输出与所述第一句子对应的分值包括，在将每个所述第一句子输入摘要模型之后，由所述摘要模型进行以下步骤：获取所述第一句子中包括的多个词；获取与每个词对应的词向量；以及使得所述文本分类模型基于所述多个词各自的词向量，计算与所述第一句子对应的分值并输出。7.根据权利要求6所述的方法，其中，所述文本分类模型为Fasttext模型，所述词向量为基于所述Fasttext模型获取的特征向量。8.根据权利要求6所述的方法，其中，所述文本分类模型为TextCNN模型，所述摘要模型中还包括词嵌入模型，所述词向量为基于所述词嵌入模型获取的嵌入向量。9.一种获取文本的摘要的装置，包括：第一获取单元，配置为，获取第一文本；分句单元，配置为，对所述第一文本进行分句，以获取至少一个第一句子；第一输入单元，配置为，将每个所述第一句子输入摘要模...

【专利技术属性】
技术研发人员：陈若田，刘弘一，熊军，李若鹏，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人