【技术实现步骤摘要】
电力操作票文本智能分类方法、装置、设备及介质
[0001]本专利技术涉及人工智能
,具体涉及一种电力操作票文本智能分类方法、装置、设备及介质。
技术介绍
[0002]目前,针对电力操作票文本的智能分类问题,现有技术先后提出了三种分类模型:第一种,基于One
‑
hot和KNN算法的分类方法,该方法能够实现80%以上的分类准确率;第二种,基于TF
‑
IDF(词频-逆文档频率)词频特征模型的分类方法,该算法模型也同样取得了较好的分类检出率;第三种,基于隐狄利克雷分布的主题向量模型(LDA)构建的停电文本信息的检测模型,该模型也被用于电网事故的舆情监测。
[0003]然而,上述几种方法在分类时,均未考虑被检测句子中的词汇顺序以及邻近词汇之间的关联,因此也无法区分句子中每个词汇的重要程度,进而无法获得语句的深层语义信息。鉴于此,现有技术又提出了基于Word2Vec和卷积神经网络(CNN)构建操作票文本的分类模型,并将该模型与上述三类传统文本分类模型进行了详细比较,结果表明该模型在分类效 ...
【技术保护点】
【技术特征摘要】
1.一种电力操作票文本智能分类方法,其特征在于,包括:将第一操作票文本输入至DNN深度神经网络模型进行训练,得到所述第一操作票文本的深层次语义特征及语义特征向量;计算所述语义特征向量与训练操作票样本之间的相似度,并根据所述相似度筛选出与所述训练操作票样本的匹配度大于预设值的多条操作票文本,作为第二操作票文本;获取所述第二操作票文本的操作票等级,若所述操作票等级不一致,利用KNN加权算法计算所述第二操作票文本中每条文本对总分类操作票文本的影响权重,并根据所述影响权重与所述相似度的叠加,得到所述第二操作票文本的目标操作票等级。2.根据权利要求1所述的电力操作票文本智能分类方法,其特征在于,所述影响权重与所述相似度叠加时采用的模型为:式中,i表示词性;j为训练集中按相似度大小排序的操作票文本序列,w
j
表示第j条文本的权重;k根据测试集遍历寻优的方式获取,即在测试集依次计算当k=1、2、
…
10时的分类准确率,取分类准确率最高的k值作为在线分类模型的参数;level
i
为第k条待分类文本的操作票等级。3.根据权利要求1所述的电力操作票文本智能分类方法,其特征在于,利用cosin距离的语义相似度算法计算所述语义特征向量与训练操作票样本之间的相似度。4.根据权利要求1所述的电力操作票文本智能分类方法,其特征在于,在所述将第一操作票文本输入至DNN深度神经网络模型进行训练之前,还包括:利用Word
‑
Hashing算法对初始操作票文本进行预处理,得到所述第一操作票文本。5.根据权利要求1所述的电力操作票文本智能分类方法,其特征在于,在所述将第一操作票文本输入至DNN深度神经网络模型进行训练之前,还包括:利用改进分词分类算法对初始操作票文本进行分词处理,得到所述第一操作票文本,所述改进分词分类算法为:式中,J表示分词分类算法的目标函数,N表示分词总个数,i表示词性,表示向量参数,c表示迭代次数...
【专利技术属性】
技术研发人员:董锴,何祥针,孟子杰,吴龙腾,蔡新雷,邱丹骅,王勇超,梁升洪,李嘉铭,崔艳林,黎嘉明,何剑军,赵瑞锋,
申请(专利权)人:广东电网有限责任公司电力调度控制中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。