一种基于NLP技术的数据分析方法及装置制造方法及图纸

技术编号:21548092 阅读:46 留言:0更新日期:2019-07-06 21:33
本申请提供的一种基于NLP技术的数据分析方法及装置,获取目标文档集合,并对所述目标文档集合中的每个目标文档进行分词处理;利用TF‑IDF方法提取分词后每个所述目标文档的关键词以及每个关键词在每个所述目标文档中的词频,生成所述目标文档集合的文档‑关键词矩阵,所述文档‑关键词矩阵表示每个所述目标文档中每个关键词的词频;将所述文档‑关键词矩阵输入文档主题生成模型中进行处理,得到每个主题中每个关键词的概率分布和每个所述目标文档中每个主题的概率分布,实现了对非结构化文本的分析处理。

A Data Analysis Method and Device Based on NLP Technology

【技术实现步骤摘要】
一种基于NLP技术的数据分析方法及装置
本专利技术涉及数据处理
,更具体的,涉及一种基于NLP技术的数据分析方法及装置。
技术介绍
95598投诉受理内容、处理情况等文本信息,是对电力公司服务质量、供电能力、运维水平最真实的反映,直接记录了供电服务中频繁停电的薄弱环节、抢修的具体抢修台区、线路,以及抢修转变为投诉的过程等数据。但是,由于这些数据都是数据结构不规则或不完整的非结构化数据,而非结构化数据往往不能应用于正常的业务分析。
技术实现思路
有鉴于此,本专利技术提供了一种基于NLP技术的数据分析方法及装置,实现了对非结构化文本进行分析处理。为了实现上述专利技术目的,本专利技术提供的具体技术方案如下:一种基于NLP技术的数据分析方法,包括:获取目标文档集合,并对所述目标文档集合中的每个目标文档进行分词处理;利用TF-IDF方法提取分词后每个所述目标文档的关键词以及每个关键词在每个所述目标文档中的词频,利用NLP技术生成所述目标文档集合的文档-关键词矩阵,所述文档-关键词矩阵表示每个所述目标文档中每个关键词的词频;将所述文档-关键词矩阵输入文档主题生成模型中进行处理,得到每个主题中每本文档来自技高网...

【技术保护点】
1.一种基于NLP技术的数据分析方法,其特征在于,包括:获取目标文档集合,并对所述目标文档集合中的每个目标文档进行分词处理;利用TF‑IDF方法提取分词后每个所述目标文档的关键词以及每个关键词在每个所述目标文档中的词频,利用NLP技术生成所述目标文档集合的文档‑关键词矩阵,所述文档‑关键词矩阵表示每个所述目标文档中每个关键词的词频;将所述文档‑关键词矩阵输入文档主题生成模型中进行处理,得到每个主题中每个关键词的概率分布和每个所述目标文档中每个主题的概率分布。

【技术特征摘要】
1.一种基于NLP技术的数据分析方法,其特征在于,包括:获取目标文档集合,并对所述目标文档集合中的每个目标文档进行分词处理;利用TF-IDF方法提取分词后每个所述目标文档的关键词以及每个关键词在每个所述目标文档中的词频,利用NLP技术生成所述目标文档集合的文档-关键词矩阵,所述文档-关键词矩阵表示每个所述目标文档中每个关键词的词频;将所述文档-关键词矩阵输入文档主题生成模型中进行处理,得到每个主题中每个关键词的概率分布和每个所述目标文档中每个主题的概率分布。2.根据权利要求1所述的方法,其特征在于,所述对所述目标文档集合中的每个目标文档进行分词处理,包括:利用最大正向匹配法或逆向最大匹配法对所述目标文档集合中的每个目标文档进行分词处理。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:当所述目标文档集合为投诉工单文档集合时,根据每个主题中每个关键词的概率分布和每个所述目标文档中每个主题的概率分布,确定投诉热点、主要投诉原因和主要投诉地域。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:对每个所述目标文档中每个句子进行情感分析,确定每个句子的情感类型。5.根据权利要求4所述的方法,其特征在于,所述依据预设规则对每个所述目标文档中每个句子进行情感分析,确定每个句子的情感类型,包括:对每个所述目标文档中每个句子进行分词处理,并利用NLP技术得到每个句子对应的向量词组;对于每一个向量词组,根据预先设定的情感词典,依次确定向量词组中每个词语的类型,词语的类型包括积极词语、消极词语、程度副词、否定词语和其他词语;当词语的类型为积极词语或消极词语时,根据该词语前后词语的类型为该词语设置权重;对向量词组中每个积极词语和每个消极词语的权重进行累加,得到向量词组的总权值,并根据总权值的正负确定相应句子的情感类型。6.一种...

【专利技术属性】
技术研发人员:钟宪成段振华郭英张相文张容福
申请(专利权)人:国网青海省电力公司北京中电普华信息技术有限公司国网信息通信产业集团有限公司国家电网有限公司
类型:发明
国别省市:青海,63

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1