文本分析系统、方法、电子设备及存储介质技术方案

技术编号：36036378 阅读：34 留言：0更新日期：2022-12-21 10:40

本申请提供一种文本分析系统、方法、电子设备及存储介质，该系统包括预处理模块和文本分析模块；文本分析模块包括多级文本分类单元、文本摘要抽取单元、标签要素抽取单元、智能文本推荐单元和情感意图分析单元中的至少一个；多级文本分类单元用于根据文本向量对待处理文本进行分类；文本摘要抽取单元用于根据文本向量对待处理文本信息整合获得文本摘要；标签要素抽取单元用于根据文本向量从待处理文本中抽取标签并采集指标数据，根据标签和指标数据获得文本指标数据信息；智能文本推荐单元用于根据文本向量从待处理文本中确定推荐文本；情感意图分析单元用于根据文本向量确定待处理文本的情感倾向和文本的意图类别。该方案能满足多种应用场景。能满足多种应用场景。能满足多种应用场景。

全部详细技术资料下载

【技术实现步骤摘要】
文本分析系统、方法、电子设备及存储介质

[0001]本申请涉及信息处理
，特别涉及一种文本分析系统、方法、电子设备及存储介质。

技术介绍

[0002]文本分析(Text Analysis)作为自然语言处理(Natural Language Processing，NLP)的重要研究方向，旨在从文本中抽取出关键信息进行量化，从而应用于后续文本处理中。
[0003]现有技术中对文本可以进行中文分词、文本向量化、关键词抽取等基础文本处理功能，在此基础上提供情感分析、文本分类、文本聚类三类中文文本分析服务，能够支持大部分数据的基础中文处理功能。
[0004]然而，由于现有技术提供的文本分析服务较为基础且模型固定，无法支持复杂功能，使得其适用场景大受限制，影响用户使用。

技术实现思路

[0005]有鉴于此，本申请实施例提供了一种文本分析系统、方法、电子设备及存储介质，能够满足多种应用场景。
[0006]根据本申请实施例的第一方面，提供了一种文本分析系统，包括：预处理模块和文本分析模块；所述文...

【技术保护点】

【技术特征摘要】
1.一种文本分析系统(100)，包括：预处理模块(110)和文本分析模块(120)；所述文本分析模块(110)包括多级文本分类单元(10)、文本摘要抽取单元(20)、标签要素抽取单元(30)、智能文本推荐单元(40)和情感意图分析单元(50)中的至少一个；所述预处理模块(120)，用于依次对待处理文本进行中文分词、去停用词和文本向量化处理，获得文本向量；所述多级文本分类单元(10)，用于根据所述文本向量，对所述待处理文本进行分类；所述文本摘要抽取单元(20)，用于根据所述文本向量，对所述待处理文本进行信息整合，获得文本摘要；所述标签要素抽取单元(30)，用于根据所述文本向量，从所述待处理文本中抽取标签并采集指标数据，根据所述标签和所述指标数据获得文本指标数据信息；所述智能文本推荐单元(40)，用于根据所述文本向量，从所述待处理文本中确定推荐文本；所述情感意图分析单元(50)，用于根据所述文本向量，确定所述待处理文本的情感倾向和文本的意图类别。2.根据权利要求1所述的系统，其中，所述多级文本分类单元(10)用于执行如下处理：将所述文本向量输入分类模型，获得所述待处理文本的一级类别概率；若所述一级类别概率大于预设的概率阈值，则根据所述一级类别概率确定所述待处理文本的一级类别，并通过字典匹配算法对所述待处理文本进行二级分类，确定所述待处理文本的二级类别；若所述一级类别概率小于或等于所述概率阈值，则通过聚类模型确定所述待处理文本的一级类别，并通过所述字典匹配算法对所述待处理文本进行二级分类，确定所述待处理文本的二级类别。3.根据权利要求2所述的系统，其中，所述多级文本分类单元(10)用于通过所述聚类模型执行如下处理：通过肘部法则计算所述待处理文本的文本类别；通过K
‑
Means模型对所述待处理文本的文本类别进行聚类，获得文本类别聚类结果；抽取所述待处理文本的中心词作为聚类中心；对所述聚类中心进行标签聚合，获得标签聚合结果；根据所述文本类别聚类结果和所述标签聚合结果，确定所述待处理文本的一级类别。4.根据权利要求1所述的系统，其中，所述文本摘要抽取单元(20)用于执行如下处理：根据所述文本向量确定所述待处理文本中每个句子对应的句子向量，其中，所述待处理文本包括至少两个句子；根据所述待处理文本中每个句子的句子向量，确定所述待处理文本中相邻句子的相似度；根据所述待处理文本中相邻句子的相似度，确定所述待处理文本中每个句子对应的重要度得分；按照语法关系，对所述待处理文本中对应重要度得分较大的K1个句子进行合并，得到所述文本摘要，其中，K1为大于或等于2的正整数。5.根据权利要求1所述的系统，其中，所述标签要素抽取单元(30)用于执行如下处理：
将所述文本向量输入多分类模型，对所述待处理文本与预定义标签进行匹配，得到匹配后待处理文本；将所述匹配后待处理文本输入LSTM模型，对所述匹配后待处理文本进行概率预测，得到所述标签；通过字典匹配算法将所述文本向量进行分类...

【专利技术属性】
技术研发人员：徐书豪，刘振宇，王亚平，李宏伟，刘芬，王志刚，林文辉，
申请(专利权)人：航天信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人