【技术实现步骤摘要】
文本分析系统、方法、电子设备及存储介质
[0001]本申请涉及信息处理
,特别涉及一种文本分析系统、方法、电子设备及存储介质。
技术介绍
[0002]文本分析(Text Analysis)作为自然语言处理(Natural Language Processing,NLP)的重要研究方向,旨在从文本中抽取出关键信息进行量化,从而应用于后续文本处理中。
[0003]现有技术中对文本可以进行中文分词、文本向量化、关键词抽取等基础文本处理功能,在此基础上提供情感分析、文本分类、文本聚类三类中文文本分析服务,能够支持大部分数据的基础中文处理功能。
[0004]然而,由于现有技术提供的文本分析服务较为基础且模型固定,无法支持复杂功能,使得其适用场景大受限制,影响用户使用。
技术实现思路
[0005]有鉴于此,本申请实施例提供了一种文本分析系统、方法、电子设备及存储介质,能够满足多种应用场景。
[0006]根据本申请实施例的第一方面,提供了一种文本分析系统,包括:预处理模块和文本分析模块;所述文 ...
【技术保护点】
【技术特征摘要】
1.一种文本分析系统(100),包括:预处理模块(110)和文本分析模块(120);所述文本分析模块(110)包括多级文本分类单元(10)、文本摘要抽取单元(20)、标签要素抽取单元(30)、智能文本推荐单元(40)和情感意图分析单元(50)中的至少一个;所述预处理模块(120),用于依次对待处理文本进行中文分词、去停用词和文本向量化处理,获得文本向量;所述多级文本分类单元(10),用于根据所述文本向量,对所述待处理文本进行分类;所述文本摘要抽取单元(20),用于根据所述文本向量,对所述待处理文本进行信息整合,获得文本摘要;所述标签要素抽取单元(30),用于根据所述文本向量,从所述待处理文本中抽取标签并采集指标数据,根据所述标签和所述指标数据获得文本指标数据信息;所述智能文本推荐单元(40),用于根据所述文本向量,从所述待处理文本中确定推荐文本;所述情感意图分析单元(50),用于根据所述文本向量,确定所述待处理文本的情感倾向和文本的意图类别。2.根据权利要求1所述的系统,其中,所述多级文本分类单元(10)用于执行如下处理:将所述文本向量输入分类模型,获得所述待处理文本的一级类别概率;若所述一级类别概率大于预设的概率阈值,则根据所述一级类别概率确定所述待处理文本的一级类别,并通过字典匹配算法对所述待处理文本进行二级分类,确定所述待处理文本的二级类别;若所述一级类别概率小于或等于所述概率阈值,则通过聚类模型确定所述待处理文本的一级类别,并通过所述字典匹配算法对所述待处理文本进行二级分类,确定所述待处理文本的二级类别。3.根据权利要求2所述的系统,其中,所述多级文本分类单元(10)用于通过所述聚类模型执行如下处理:通过肘部法则计算所述待处理文本的文本类别;通过K
‑
Means模型对所述待处理文本的文本类别进行聚类,获得文本类别聚类结果;抽取所述待处理文本的中心词作为聚类中心;对所述聚类中心进行标签聚合,获得标签聚合结果;根据所述文本类别聚类结果和所述标签聚合结果,确定所述待处理文本的一级类别。4.根据权利要求1所述的系统,其中,所述文本摘要抽取单元(20)用于执行如下处理:根据所述文本向量确定所述待处理文本中每个句子对应的句子向量,其中,所述待处理文本包括至少两个句子;根据所述待处理文本中每个句子的句子向量,确定所述待处理文本中相邻句子的相似度;根据所述待处理文本中相邻句子的相似度,确定所述待处理文本中每个句子对应的重要度得分;按照语法关系,对所述待处理文本中对应重要度得分较大的K1个句子进行合并,得到所述文本摘要,其中,K1为大于或等于2的正整数。5.根据权利要求1所述的系统,其中,所述标签要素抽取单元(30)用于执行如下处理:
将所述文本向量输入多分类模型,对所述待处理文本与预定义标签进行匹配,得到匹配后待处理文本;将所述匹配后待处理文本输入LSTM模型,对所述匹配后待处理文本进行概率预测,得到所述标签;通过字典匹配算法将所述文本向量进行分类...
【专利技术属性】
技术研发人员:徐书豪,刘振宇,王亚平,李宏伟,刘芬,王志刚,林文辉,
申请(专利权)人:航天信息股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。