一种基于NLP技术的集中性事件挖掘方法技术

技术编号:27975625 阅读:27 留言:0更新日期:2021-04-06 14:09
本申请公开了一种基于NLP技术的集中性事件挖掘方法,其包括如下步骤:对文本进行预处理;分别计算各文本的文本向量;将各文本分别构成一个单独的簇并进行编号;初始化聚类结果;将各个簇逐一投放至聚类空间中,使各簇在聚类空间中聚类;更新各个簇的簇的文本向量、簇文本长度和文本ID若聚类空间中的簇总数大于分块阈值对簇进行分块;将各个簇乱序排布后逐一投放至聚类空间中基于文本相似度进行聚类;筛选出文本数量达到集中性事件阈值的簇记为集中性事件,并分别生成各集中性事件的代表性得分和名称。本申请的技术方案能够从海量的工单信息中更高效的寻找出群众集中反映的一般性事件,对苗头性事件尽早控制和解决。

【技术实现步骤摘要】
一种基于NLP技术的集中性事件挖掘方法
本申请属于文本处理
,具体来说涉及一种基于NLP技术的集中性事件挖掘方法,主要针对政府服务热线的工单进行集中性事件挖掘。
技术介绍
随着网络技术的发展和社会服务意识的进步,目前群众经常通过登录政府服务热线反映遇到的各种亟待解决的社会问题。因此,如何从海量反馈信息中进行数据挖掘并找出群众反映的集中性事件进行优先处理,是本领域技术人员需要研究的方向。
技术实现思路
:本专利技术的目的在于提供一种基于NLP技术的集中性事件挖掘方法,能够从海量的反馈信息中找出集中性事件,并进行优先处理。一种基于NLP技术的集中性事件挖掘方法,其包括如下步骤:步骤1:对文本进行数据清洗处理;步骤2:将文本总量与文本分类阈值进行比对,若文本总量大于文本分类阈值、则基于LDA主题分类模型将文本进行预分类并取得k个分类结果;若文本总量小于文本分类阈值、则视为所有文本归于一个分类结果中、即k=1;步骤3:对步骤2所得k个分类结果进行排序、并依据该排序将k个分类结果作为当前分类结果分本文档来自技高网...

【技术保护点】
1.一种基于NLP技术的集中性事件挖掘方法,其特征在于包括如下步骤:/n步骤1:对文本进行数据清洗处理;/n步骤2:将文本总量与文本分类阈值进行比对,若文本总量大于文本分类阈值、则基于LDA主题分类模型将文本进行预分类并取得k个分类结果;若文本总量小于文本分类阈值、则视为所有文本归于一个分类结果中、即k=1;/n步骤3:对步骤2所得k个分类结果进行排序、并依据该排序将k个分类结果作为当前分类结果分别执行步骤4至13;/n步骤4:在当前分类结果下计算每条文本的文本向量、并将当前分类结果下的各个文本分别构成一个单独的簇并进行编号;/n步骤5:设定对应于簇文本长度的文本相似度阈值,所述簇文本长度为该...

【技术特征摘要】
1.一种基于NLP技术的集中性事件挖掘方法,其特征在于包括如下步骤:
步骤1:对文本进行数据清洗处理;
步骤2:将文本总量与文本分类阈值进行比对,若文本总量大于文本分类阈值、则基于LDA主题分类模型将文本进行预分类并取得k个分类结果;若文本总量小于文本分类阈值、则视为所有文本归于一个分类结果中、即k=1;
步骤3:对步骤2所得k个分类结果进行排序、并依据该排序将k个分类结果作为当前分类结果分别执行步骤4至13;
步骤4:在当前分类结果下计算每条文本的文本向量、并将当前分类结果下的各个文本分别构成一个单独的簇并进行编号;
步骤5:设定对应于簇文本长度的文本相似度阈值,所述簇文本长度为该簇中所包含文本的平均文本长度;
步骤6:将当前分类结果下簇的数量与文本分块阈值进行比对;
若当前分类结果下簇的数量小于文本分块阈值则跳转至步骤7;
若当前分类结果下簇的数量大于文本分块阈值则跳转至步骤9;
步骤7:初始化聚类空间、使聚类空间中包含0个簇;
步骤8:将当前分类结果下的所有簇乱序排布、并逐一投放至聚类空间中;
若聚类空间中包含0个簇,则将当前簇作为一个新的簇添加到聚类空间中;
若聚类空间中已包含其他簇,则令当前簇与聚类空间中的其他各簇逐一比对、分别求得当前簇与其他簇的文本相似度,并将文本相似度大于其相似度阈值的簇视为当前簇的候选聚类簇;
若聚类空间中包含当前簇的候选聚类簇、使当前簇与文本相似度最高的候选聚类簇聚成一类,并更新聚类空间中各个簇的簇的文本向量、簇平均文本长度和簇包含的文本ID;
若聚类空间中未包含当前簇的候选聚类簇,则将当前簇作为一个新的簇添加到聚类空间中,并更新聚类空间中各个簇的簇的文本向量、簇平均文本长度和簇包含的文本ID;
跳转至步骤13;
步骤9:将当前分类结果进行分块处理、生成多个文本分块且令各个文本分块中包含的簇的数量等于预设的块尺寸,将所产生的文本分块进行排序、并依据该排序将各个文本分块作为当前文本分块分别执行步骤10至11;
步骤10:初始化聚类空间、使聚类空间中包含0个簇;
步骤11:将当前文本分块下的所有簇乱序排布、并逐一投放至聚类空间中;
若聚类空间中包含0个簇,则将当前簇作为一个新的簇添加到聚类空间中;
若聚类空间中已包含其他簇,则令当前簇与聚类空间中的其他各簇逐一比对、分别求得当前簇与其他簇的文本相似度,并将文本...

【专利技术属性】
技术研发人员:王康伟谢赟吴新野雒方祎
申请(专利权)人:上海德拓信息技术股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1