一种基于NLP技术的中文摘要自动生成方法及系统技术方案

技术编号:33618579 阅读:15 留言:0更新日期:2022-06-02 00:38
本发明专利技术涉及摘要自动生成领域,具体提供了一种基于NLP技术的中文摘要自动生成方法及系统,包括如下步骤:S1:对需要生成摘要的文本进行目标训练,最大化生成每个目标单词的概率;S2:自动生成评价指标;S3:采用自动生成评价指标对需要生成摘要的文本进行评价;S4:采用摘要生成模型对文本进行语句抽取,生成摘要。本发明专利技术通过自然语言处理技术自动生成摘要,指根据一篇或多篇文档,自动地生成一段保留输入文本中关键信息并且语义通顺、简洁准确的摘要。自动文本摘要可以快速、准确、实时地生成摘要,弥补了人工摘要的不足之处。弥补了人工摘要的不足之处。弥补了人工摘要的不足之处。

【技术实现步骤摘要】
一种基于NLP技术的中文摘要自动生成方法及系统


[0001]本专利技术涉及摘要自动生成领域,具体而言,涉及一种基于NLP技术的中文摘要自动生成方法及系统。

技术介绍

[0002]自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。按照技术实现难度的不同,这类系统可以分成简单匹配式、模糊匹配式和段落理解式三种类型。简单匹配式辅导答疑系统主要通过简单的关键字匹配技术来实现对学生提出问题与答案库中相关应答条目的匹配,从而做到自动回答问题或进行相关辅导。模糊匹配式辅导答疑系统则在此基础上増加了同义词和反义词的匹配。这样,即使学生所提问题中按原来的关键字在答案库中找不到直接匹配的答案,但是假若与该关键字同义或反义的词能够匹配则仍可在答案库中找到相关的应答条目。段落理解式辅导答疑系统是最理想的、也是真正智能化的辅导答疑系统(简单匹配式和模糊匹配式,严格说只能称之为“自动辅导答疑系统”而非“智能辅导答疑系统”)。但是由于这种系统涉及自然语言的段落理解,对于汉语来说,这种理解涉及自动分词、词性分析、句法分析和语义分析等NLP领域的多种复杂技术,所以实现难度很大。近年来,自动文本摘要己经成为了人工智能和自然语言处理领域的重要研究方向之一。自动文本摘要旨在提取出原始文本中的关键信息,并生成一段语义通顺且简洁准确的摘要,其目的是为了提高用户浏览信息的效率。随着深度学习的发展,当今的自动文本摘要模型主要基于序列到序列框架构建。然而,目前序列到序列框架在自动文本摘要中的应用也存在着诸多问题,例如集外词生成困难、无法有效地对单词之间的联系进行建模、缺乏对关键信息提取过程的建模等。

技术实现思路

[0003]本专利技术的主要目的在于提供一种基于NLP技术的中文摘要自动生成方法及系统,以解决相关技术中的问题。
[0004]为了实现上述目的,根据本专利技术的一个方面,提供了一种基于NLP技术的中文摘要自动生成方法及系统,包括如下步骤:
[0005]S1:对需要生成摘要的文本进行目标训练,最大化生成每个目标单词的概率;
[0006]S2:自动生成评价指标;
[0007]S3:采用自动生成评价指标对需要生成摘要的文本进行评价;
[0008]S4:采用摘要生成模型对文本进行语句抽取,生成摘要;
[0009]进一步地,所述需要生成摘要的文本进行目标训练具体为:
[0010][0011]其中,£(θ)为最大化生成每个目标单词的概率,D为训练数据集,x为输入文本,y
为目标摘要,θ为模型的参数。
[0012]进一步地,所述自动生成评价指标为ROUGE

N、ROUGE

L中任意一种或两种的组合。
[0013]进一步地,所述ROUGE

N指标具体为:
[0014][0015]其中,S代表了参考摘要中的句子,gram
n
代表n元组,Count(gram
n
)表示S中n元组的数量,Count
match
(gram
n
)表示模型生成的摘要和参考摘要匹配的n元组数量。
[0016]进一步地,所述ROUGE

L指标具体为:
[0017][0018][0019][0020]其中,X为参考摘要,m为其长度,Y为模型生成的摘要,n为其长度,
[0021]进一步地,所述对文本进行语句抽取具体包括将文本内容表示为特征项组成的集,从集中按照特征项抽取一个主题,从被抽到的主题所对应的词分布中抽取一个词,重复上述过程直至生成摘要。
[0022]进一步地,所述将文本内容表示为特征项组成的集具体为:Doc(t1,t2,

,t
n
),指定t
k
为特征项,将文本用特征项及其对应的权重来表示,形成一个向量,向量的形式为:Doc((t1,w1),(t2,w2),

,(t
n
,w
n
)),其中,w
k
是特征项t
k
的权重。
[0023]进一步地,所述从集中按照特征项抽取一个主题,从被抽到的主题所对应的词分布中抽取一个词具体为:
[0024][0025]p(w|d)=p(w|t)
×
p(t|d)
[0026]其中,t为抽取的主题,w为抽取的词,d为被抽取的集,p为组成的摘要。
[0027]另一方面提供一种基于NLP技术的中文摘要自动生成系统,包括文本输入单元、编码单元和解码单元,所述文本输入单元用于通过用户终端输入需要生成摘要的文本,所述编码单元用于对需要生成摘要的文本进行编码得到文本表示,所述解码单元用于对输入文本的文本表示进行解码生成摘要。
[0028]进一步地,所述编码单元由N个相同的编码层堆叠而成,编码单元第l层的编码过程如公的编码过程为:
[0029][0030][0031][0032]其中,表示编码器第l

1层对于输入文本x中第i个单词x
i
的编码,第l

1层的输出为第l层的输入;Self

Attn表示对输入应用自注意力机制,LayerNorm表示层标准化,FFN表示前馈神经网络,和表示为计算过程的中间结果;
[0033]所述解码单元通过概率分布P
uocab
得到当前步的输出单词,所述概率分布P
uocab
=softmax(W
o
S+b
o
),其中,W
o
和b
o
为可训练的参数,S为解码器最后一层的输出,softmax为softmax函数。
[0034]与现有技术相比,本专利技术具有以下有益效果:本专利技术通过自然语言处理技术自动生成摘要,指根据一篇或多篇文档,自动地生成一段保留输入文本中关键信息并且语义通顺、简洁准确的摘要。自动文本摘要可以快速、准确、实时地生成摘要,弥补了人工摘要的不足之处。
附图说明
[0035]图1为本专利技术中整体流程示意图;
[0036]图2为本专利技术的整体系统框图;
[0037]图3为本专利技术中部分模块示意图。
[0038]图中:100、文本输入单元;200、编码单元;300、解码单元。
具体实施方式
[0039]为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0040]在本专利技术的描述中,需要理解的是,术语“上”、“下”、“顶”、“底”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于NLP技术的中文摘要自动生成方法,其特征在于,包括如下步骤:S1:对需要生成摘要的文本进行目标训练,最大化生成每个目标单词的概率;S2:自动生成评价指标;S3:采用自动生成评价指标对需要生成摘要的文本进行评价;S4:采用摘要生成模型对文本进行语句抽取,生成摘要。2.根据权利要求1所述的基于NLP技术的中文摘要自动生成方法,其特征在于,所述需要生成摘要的文本进行目标训练具体为:其中,£(θ)为最大化生成每个目标单词的概率,D为训练数据集,x为输入文本,y为目标摘要,θ为模型的参数。3.根据权利要求1所述的基于NLP技术的中文摘要自动生成方法,其特征在于,所述自动生成评价指标为ROUGE

N、ROUGE

L中任意一种或两种的组合。4.根据权利要求3所述的基于NLP技术的中文摘要自动生成方法及系统,其特征在于,所述ROUGE

N指标具体为:其中,S代表了参考摘要中的句子,gram
n
代表n元组,Count(gram
n
)表示S中n元组的数量,Count
match
(gram
n
)表示模型生成的摘要和参考摘要匹配的n元组数量。5.根据权利要求3所述的基于NLP技术的中文摘要自动生成方法,其特征在于,所述ROUGE

L指标具体为:L指标具体为:L指标具体为:其中,X为参考摘要,m为其长度,Y为模型生成的摘要,n为其长度,6.根据权利要求1所述的基于NLP技术的中文摘要自动生成方法,其特征在于,所述对文本进行语句抽取具体包括将文本内容表示为特征项组成的集,从集中按照特征项抽取一个主题,从被抽到的主题所对应的词分布中抽取一个词,重复上述过程直至生成摘要。7.根据权利要求1所述的基于NLP技术的中文摘要自动生成方法,其特征在于,所述将文本内容表示为特征项组成的集具体为:Doc(t1,t2,

,t
n
),指定t
k
为特征项,将...

【专利技术属性】
技术研发人员:王峥段京华
申请(专利权)人:山西巨擘天浩科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1