文本分析系统、方法、电子设备及存储介质技术方案

技术编号:36036378 阅读:17 留言:0更新日期:2022-12-21 10:40
本申请提供一种文本分析系统、方法、电子设备及存储介质,该系统包括预处理模块和文本分析模块;文本分析模块包括多级文本分类单元、文本摘要抽取单元、标签要素抽取单元、智能文本推荐单元和情感意图分析单元中的至少一个;多级文本分类单元用于根据文本向量对待处理文本进行分类;文本摘要抽取单元用于根据文本向量对待处理文本信息整合获得文本摘要;标签要素抽取单元用于根据文本向量从待处理文本中抽取标签并采集指标数据,根据标签和指标数据获得文本指标数据信息;智能文本推荐单元用于根据文本向量从待处理文本中确定推荐文本;情感意图分析单元用于根据文本向量确定待处理文本的情感倾向和文本的意图类别。该方案能满足多种应用场景。能满足多种应用场景。能满足多种应用场景。

【技术实现步骤摘要】
文本分析系统、方法、电子设备及存储介质


[0001]本申请涉及信息处理
,特别涉及一种文本分析系统、方法、电子设备及存储介质。

技术介绍

[0002]文本分析(Text Analysis)作为自然语言处理(Natural Language Processing,NLP)的重要研究方向,旨在从文本中抽取出关键信息进行量化,从而应用于后续文本处理中。
[0003]现有技术中对文本可以进行中文分词、文本向量化、关键词抽取等基础文本处理功能,在此基础上提供情感分析、文本分类、文本聚类三类中文文本分析服务,能够支持大部分数据的基础中文处理功能。
[0004]然而,由于现有技术提供的文本分析服务较为基础且模型固定,无法支持复杂功能,使得其适用场景大受限制,影响用户使用。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种文本分析系统、方法、电子设备及存储介质,能够满足多种应用场景。
[0006]根据本申请实施例的第一方面,提供了一种文本分析系统,包括:预处理模块和文本分析模块;所述文本分析模块包括多级文本分类单元、文本摘要抽取单元、标签要素抽取单元、智能文本推荐单元和情感意图分析单元中的至少一个;所述预处理模块,用于依次对待处理文本进行中文分词、去停用词和文本向量化处理,获得文本向量;所述多级文本分类单元,用于根据所述文本向量,对所述待处理文本进行分类;所述文本摘要抽取单元,用于根据所述文本向量,对所述待处理文本进行信息整合,获得文本摘要;所述标签要素抽取单元,用于根据所述文本向量,从所述待处理文本中抽取标签并采集指标数据,根据所述标签和所述指标数据获得文本指标数据信息;所述智能文本推荐单元,用于根据所述文本向量,从所述待处理文本中确定推荐文本;所述情感意图分析单元,用于根据所述文本向量,确定所述待处理文本的情感倾向和文本的意图类别。
[0007]在一种可能的实现方法中,所述多级文本分类单元用于执行如下处理:将所述文本向量输入分类模型,获得所述待处理文本的一级类别概率;若所述一级类别概率大于预设的概率阈值,则根据所述一级类别概率确定所述待处理文本的一级类别,并通过字典匹配算法对所述待处理文本进行二级分类,确定所述待处理文本的二级类别;若所述一级类别概率小于或等于所述概率阈值,则通过聚类模型确定所述待处理文本的一级类别,并通过所述字典匹配算法对所述待处理文本进行二级分类,确定所述待处理文本的二级类别。
[0008]在一种可能的实现方法中,所述多级文本分类单元用于通过所述聚类模型执行如下处理:通过肘部法则计算所述待处理文本的文本类别;通过K

Means模型对所述待处理文本的文本类别进行聚类,获得文本类别聚类结果;抽取所述待处理文本的中心词作为聚类
中心;对所述聚类中心进行标签聚合,获得标签聚合结果。
[0009]在一种可能的实现方法中,所述文本摘要抽取单元用于执行如下处理:根据所述文本向量确定所述待处理文本中每个句子对应的句子向量,其中,所述待处理文本包括至少两个句子;根据所述待处理文本中每个句子的句子向量,确定所述待处理文本中相邻句子的相似度;根据所述待处理文本中相邻句子的相似度,确定所述待处理文本中每个句子对应的重要度得分;按照语法关系,对所述待处理文本中对应重要度得分较大的K1个句子进行合并,得到所述文本摘要,其中,K1为大于或等于2的正整数。
[0010]在一种可能的实现方法中,所述标签要素抽取单元用于执行如下处理:将所述文本向量输入多分类模型,对所述待处理文本与预定义标签进行匹配,得到匹配后待处理文本;将所述匹配后待处理文本输入LSTM模型,对所述匹配后待处理文本进行概率预测,得到所述标签;通过字典匹配算法将所述文本向量进行分类,得到所述指标数据;对所述标签和所述指标数据进行句法依存关系分析,得到文本指标数据信息。
[0011]在一种可能的实现方法中,所述智能文本推荐单元用于执行如下处理:将所述文本向量输入标签生成模型,获得文本标签;通过Item

base协同过滤算法对各所述文本标签相对应的文本进行相似度计算,将相似度较大的K2个句子输出,得到第一文本推荐列表,其中,K2为大于或等于2的正整数;对所述文本向量进行特征提取,获得所述文本向量的提取特征;通过SVD模型对所述提取特征进行降维处理,得到降维处理结果;对所述降维处理结果相对应的文本进行余弦相似度计算,将相似度较大的K3个句子输出,获得第二文本推荐列表,其中,K3为大于或等于2的正整数;将第一文本推荐列表和第二文本推荐列表进行合并,得到合并推荐列表;依据时间和相似度值对所述合并推荐列表中对应的文本进行排序,将相似度较大的K4个句子输出,得到所述推荐文本,其中,K4为大于或等于2的正整数。
[0012]在一种可能的实现方法中,所述情感意图分析单元用于执行如下处理:将文本向量输入到LSTM模型,通过抽取待处理文本中的情感信息,得到第一文本特征;通过全连接网络对所述第一文本特征进行情感类别计算,得到文本的情感倾向;将所述文本向量输入到TextCNN模型,利用卷积计算提取所述待处理文本的文本特征,得到第二文本特征;将所述第二文本特征输入所述全连接网络,得到文本的意图类别。
[0013]根据本申请实施例的第二方面,提供了一种文本分析方法,所述方法包括:通过对待处理文本依次进行中文分词、去停用词和文本向量化处理,获得文本向量;根据所述文本向量,将所述待处理文本输入至少一个文本分析单元中进行处理,得到分析结果,其中,所述文本分析包括多级文本分类单元、文本摘要抽取单元、标签要素抽取单元、智能文本推荐单元和情感意图分析单元,所述多级文本分类单元执行:根据所述文本向量,对所述待处理文本进行分类,所述文本摘要抽取单元执行:根据所述文本向量,对所述待处理文本进行信息整合,获得文本摘要,所述标签要素抽取单元,根据所述文本向量,从所述待处理文本中抽取标签并采集指标数据,根据所述标签和所述指标数据获得文本指标数据信息,所述智能文本推荐单元执行,根据所述文本向量,从所述待处理文本中确定推荐文本,所述情感意图分析单元执行:根据所述文本向量,确定所述待处理文本的情感倾向和文本的意图类别。
[0014]根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第
二方面所述的方法对应的操作。
[0015]根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第二方面所述的方法。
[0016]根据本申请实施例的第五方面,提供了一种计算机程序产品,所述计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可执行指令,所述计算机可执行指令在被执行时使至少一个处理器执行如第二方面所述方法。
[0017]基于上述方案提供的文本分析系统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分析系统(100),包括:预处理模块(110)和文本分析模块(120);所述文本分析模块(110)包括多级文本分类单元(10)、文本摘要抽取单元(20)、标签要素抽取单元(30)、智能文本推荐单元(40)和情感意图分析单元(50)中的至少一个;所述预处理模块(120),用于依次对待处理文本进行中文分词、去停用词和文本向量化处理,获得文本向量;所述多级文本分类单元(10),用于根据所述文本向量,对所述待处理文本进行分类;所述文本摘要抽取单元(20),用于根据所述文本向量,对所述待处理文本进行信息整合,获得文本摘要;所述标签要素抽取单元(30),用于根据所述文本向量,从所述待处理文本中抽取标签并采集指标数据,根据所述标签和所述指标数据获得文本指标数据信息;所述智能文本推荐单元(40),用于根据所述文本向量,从所述待处理文本中确定推荐文本;所述情感意图分析单元(50),用于根据所述文本向量,确定所述待处理文本的情感倾向和文本的意图类别。2.根据权利要求1所述的系统,其中,所述多级文本分类单元(10)用于执行如下处理:将所述文本向量输入分类模型,获得所述待处理文本的一级类别概率;若所述一级类别概率大于预设的概率阈值,则根据所述一级类别概率确定所述待处理文本的一级类别,并通过字典匹配算法对所述待处理文本进行二级分类,确定所述待处理文本的二级类别;若所述一级类别概率小于或等于所述概率阈值,则通过聚类模型确定所述待处理文本的一级类别,并通过所述字典匹配算法对所述待处理文本进行二级分类,确定所述待处理文本的二级类别。3.根据权利要求2所述的系统,其中,所述多级文本分类单元(10)用于通过所述聚类模型执行如下处理:通过肘部法则计算所述待处理文本的文本类别;通过K

Means模型对所述待处理文本的文本类别进行聚类,获得文本类别聚类结果;抽取所述待处理文本的中心词作为聚类中心;对所述聚类中心进行标签聚合,获得标签聚合结果;根据所述文本类别聚类结果和所述标签聚合结果,确定所述待处理文本的一级类别。4.根据权利要求1所述的系统,其中,所述文本摘要抽取单元(20)用于执行如下处理:根据所述文本向量确定所述待处理文本中每个句子对应的句子向量,其中,所述待处理文本包括至少两个句子;根据所述待处理文本中每个句子的句子向量,确定所述待处理文本中相邻句子的相似度;根据所述待处理文本中相邻句子的相似度,确定所述待处理文本中每个句子对应的重要度得分;按照语法关系,对所述待处理文本中对应重要度得分较大的K1个句子进行合并,得到所述文本摘要,其中,K1为大于或等于2的正整数。5.根据权利要求1所述的系统,其中,所述标签要素抽取单元(30)用于执行如下处理:
将所述文本向量输入多分类模型,对所述待处理文本与预定义标签进行匹配,得到匹配后待处理文本;将所述匹配后待处理文本输入LSTM模型,对所述匹配后待处理文本进行概率预测,得到所述标签;通过字典匹配算法将所述文本向量进行分类...

【专利技术属性】
技术研发人员:徐书豪刘振宇王亚平李宏伟刘芬王志刚林文辉
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1