【技术实现步骤摘要】
生成摘要的文本处理方法、装置、设备以及存储介质
[0001]本申请涉及自然语言处理,尤其涉及一种生成摘要的文本处理方法、装置、设备以及存储介质。
技术介绍
[0002]针对文本进行摘要的提取一直是自然语言处理的重点任务。通过提取长篇文本的核心知识和关键内容,可以生成简短的摘要文本,从而有助于用户对长篇文本的内容进行快速并且准确的了解。
[0003]现有的技术通常通过大量语料训练神经网络,从而学习各个词的共现概率,进而基于学习到的知识生成长篇文本的摘要。例如,如图1的(a)所示,神经网络通过大量语料学习到了“首都”和“北京”两个词经常同时出现,那么在自然语言生成的时候,如果出现了首都,则会提高北京的生成概率。例如,如果对一篇文本提取到了“我来到了首都...”这样的部分摘要,则神经网络会倾向于已经学习到的语言知识在“首都”后面补充“北京”一词,从而继续摘要的生成。
[0004]然而,上述依赖于训练语料的摘要生成方法是存在问题的,尤其是当输入文本中出现生僻词或模型尚不知道的分布之外的字词时,由于神经网络没有学习过相关知识,容易造成各种生成问题,如语法错误,语句不流畅等。例如,如图1中的(b)所示,如果输入文本是“鸸鹋像绿鬣蜥白黇鹿是比较难以接近的动物。鸸鹋主要生活在澳洲。鸸鹋被称作澳洲鸵鸟...”,由于神经网络没有学习过“鸸鹋”、“绿鬣蜥”、和“白黇鹿”这几个词汇,更没有见过“鸸鹋”和“是”的搭配,则有可能生成错误的词语。
技术实现思路
[0005]本申请是鉴于以上问题做出的。本申请的目的在 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,包括:获取输入文本;基于所述输入文本中各个词之间的连接关系,提取所述输入文本的第一语言模型知识;将所述输入文本输入至编码器单元;以及由解码器单元基于所述第一语言模型知识和第二语言模型知识生成输出文本,其中,所述第二语言模型知识是所述语言模型基于训练文本集通过学习获得的。2.根据权利要求1所述的方法,其中,获取输入文本包括:将所述输入文本进行分词;以及将分词后的输入文本转换为由M个输入文本元素构造的输入文本序列X(X0,X1,
…
,XM
‑
1),其中M为正整数。3.根据权利要求2所述的方法,其中,基于所述输入文本中各个词之间的连接关系,提取所述输入文本的第一语言模型知识包括:计算所述输入文本序列中每两个文本元素之间的连接概率;以及基于所述每两个文本元素之间的连接概率,构建N
×
N的二维概率映射表以作为所述第一语言模型知识,其中,N为正整数并且N小于或等于M。4.根据权利要求3所述的方法,其中,计算所述输入文本序列中每两个文本元素之间的连接概率包括:在输入文本元素B紧邻输入文本元素A之后出现的情况下,将所述输入文本元素A与所述输入文本元素B之间的连接概率P(B|A)确定为等于值1;在所述输入文本元素B不紧邻所述输入文本元素A之后出现的情况下,将所述输入文本元素A与所述输入文本元素B之间的连接概率P(B|A)确定为等于值0。5.根据权利要求2所述的方法,还包括:由所述编码器单元将所述输入文本序列中的每个输入文本元素进行编码以得到编码器语义表示。6.根据权利要求5所述的方法,其中,所述输出文本包括由K个输出文本元素构成的输出文本序列Y(Y0,Y1,
…
,YK
‑
1),并且由解码器单元基于所述第一语言模型知识和第二语言模型知识生成输出文本包括:在所述第一语言模型知识中查询在先的输出文本元素Yi
‑
1,推导输出文本元素Yi为多个候选文本中的每个候选文本第一概率;基于所述编码器语义表示、所述在先的输出文本元素Yi
‑
1以及所述第二语言模型,推导输出文本元素Yi为多个候选文本中的每个候选文本的第二概率;基于所述第一概率和所述第二概率的加权和,推导所述输出文本元素Yi为所述多个候选文本中的每个候选文本的总概率;以及将所述总概率值最高的候选文本确定为所述输出文本元素Yi。7.根据权利要求6所述的方法,其中,所述输出文本包括由K个输出文本元素构成的输出文本序列Y(Y0,Y1,
…
,YK
‑
1)...
【专利技术属性】
技术研发人员:郭垿宏,中村一成,刘巍,李安新,陈岚,藤本拓,吉村建,
申请(专利权)人:株式会社NTT都科摩,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。