一种基于NLP技术的中文摘要自动生成方法及系统技术方案

技术编号：33618579 阅读：15 留言：0更新日期：2022-06-02 00:38

本发明专利技术涉及摘要自动生成领域，具体提供了一种基于NLP技术的中文摘要自动生成方法及系统，包括如下步骤：S1：对需要生成摘要的文本进行目标训练，最大化生成每个目标单词的概率；S2：自动生成评价指标；S3：采用自动生成评价指标对需要生成摘要的文本进行评价；S4：采用摘要生成模型对文本进行语句抽取，生成摘要。本发明专利技术通过自然语言处理技术自动生成摘要，指根据一篇或多篇文档，自动地生成一段保留输入文本中关键信息并且语义通顺、简洁准确的摘要。自动文本摘要可以快速、准确、实时地生成摘要，弥补了人工摘要的不足之处。弥补了人工摘要的不足之处。弥补了人工摘要的不足之处。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于NLP技术的中文摘要自动生成方法及系统

[0001]本专利技术涉及摘要自动生成领域，具体而言，涉及一种基于NLP技术的中文摘要自动生成方法及系统。

技术介绍

[0002]自然语言处理(NLP，Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。按照技术实现难度的不同，这类系统可以分成简单匹配式、模糊匹配式和段落理解式三种类型。简单匹配式辅导答疑系统主要通过简单的关键字匹配技术来实现对学生提出问题与答案库中相关应答条目的匹配，从而做到自动回答问题或进行相关辅导。模糊匹配式辅导答疑系统则在此基础上増加了同义词和反义词的匹配。这样，即使学生所提问题中按原来的关键字在答案库中找不到直接匹配的答案，但是假若与该关键字同义或反义的词能够匹配则仍可在答案库中找到相关的应答条目。段落理解式辅导答疑系统是最理想的、也是真正智能化的辅导答疑系统(简单匹配式和模糊匹配式，严格说只能称之为“自动辅导答疑系统”而非“智能辅导答疑系统”)。但是由于这种系统涉及自然语言的段落理解，对于汉语来说，这种理解涉及自动分词、词性分析、句法分析和语义分析等NLP领域的多种复杂技术，所以实现难度很大。近年来，自动文本摘要己经成为了人工智能和自然语言处理领域的重要研究方向之一。自动文本摘要旨在提取出原始文本中的关键信息，并生成一段语义通顺且简洁准确的摘要，其目的是为了提高用户浏览信息的效率。随着深度学习的发展，当今的自动文本摘要模型主要基于序列到序列框架构建。然而，目前序列到序列框架在自动文本摘要中的应用也...

【技术保护点】

【技术特征摘要】
1.一种基于NLP技术的中文摘要自动生成方法，其特征在于，包括如下步骤：S1：对需要生成摘要的文本进行目标训练，最大化生成每个目标单词的概率；S2：自动生成评价指标；S3：采用自动生成评价指标对需要生成摘要的文本进行评价；S4：采用摘要生成模型对文本进行语句抽取，生成摘要。2.根据权利要求1所述的基于NLP技术的中文摘要自动生成方法，其特征在于，所述需要生成摘要的文本进行目标训练具体为：其中，￡(θ)为最大化生成每个目标单词的概率，D为训练数据集，x为输入文本，y为目标摘要，θ为模型的参数。3.根据权利要求1所述的基于NLP技术的中文摘要自动生成方法，其特征在于，所述自动生成评价指标为ROUGE
‑
N、ROUGE
‑
L中任意一种或两种的组合。4.根据权利要求3所述的基于NLP技术的中文摘要自动生成方法及系统，其特征在于，所述ROUGE
‑
N指标具体为：其中，S代表了参考摘要中的句子，gram
n
代表n元组，Count(gram
n
)表示S中n元组的数量，Count
match
(gram
n
)表示模型生成的摘要和参考摘要匹配的n元组数量。5.根据权利要求3所述的基于NLP技术的中文摘要自动生成方法，其特征在于，所述ROUGE
‑
L指标具体为：L指标具体为：L指标具体为：其中，X为参考摘要，m为其长度，Y为模型生成的摘要，n为其长度，6.根据权利要求1所述的基于NLP技术的中文摘要自动生成方法，其特征在于，所述对文本进行语句抽取具体包括将文本内容表示为特征项组成的集，从集中按照特征项抽取一个主题，从被抽到的主题所对应的词分布中抽取一个词，重复上述过程直至生成摘要。7.根据权利要求1所述的基于NLP技术的中文摘要自动生成方法，其特征在于，所述将文本内容表示为特征项组成的集具体为：Doc(t1，t2，
…
，t
n
)，指定t
k
为特征项，将...

【专利技术属性】
技术研发人员：王峥，段京华，
申请(专利权)人：山西巨擘天浩科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人