【技术实现步骤摘要】
一种基于LSTM神经网络模型的文本分类方法
本专利技术涉及数据处理技术,尤其涉及一种基于LSTM神经网络模型的文本分类方法。
技术介绍
在电力物联网高速发展的今天,电网系统中有着大量的电子文本,如电网客户信息,电网业务数据等。而由于当前电网信息管理混乱,数据模型未统一,同一信息可能因为不同业务格式存在文本上的差异,没有统一的标准,这会严重影响电网系统的各项业务效率和成本。因此,对电网系统中的海量电子文本进行检索和信息提取,再进一步进行分类,就显得十分有意义。文本分类(TextClassification)是自然语言处理(NLP)的主要研究问题之一。指的是在一个被事先定义好的固定类别中根据文本的特征将给定的文本对象进行分类的技术。典型的应用有判定垃圾邮件,网页自动分类,情感分类和新闻个性化推荐等。在20世纪50年代,单纯依靠文档中出现与类名相同的词来进行文档分类的词匹配法出现,之后又出现了向量空间模型和知识工程,但这些算法十分依赖于人力,且方法十分简单,分类结果并不能满足要求。之后,随着机器学习算法的发展,SVM模型, ...
【技术保护点】
1.一种基于LSTM神经网络模型的文本分类方法,其特征在于,包括以下步骤:/nS1、通过向量空间模型对文档集合中的文本进行模式化,得到文档集合中文本的向量空间;/nS2、通过互信息算法提取文档集合中文本的向量空间的特征,得到文档集合中文本的特征向量;/nS3、通过已知文本类别的文本的特征向量对LSTM神经网络模型进行训练;/nS4、将待检测的文本的特征向量作为LSTM神经网络模型的输入,得到文本的分类结果。/n
【技术特征摘要】
1.一种基于LSTM神经网络模型的文本分类方法,其特征在于,包括以下步骤:
S1、通过向量空间模型对文档集合中的文本进行模式化,得到文档集合中文本的向量空间;
S2、通过互信息算法提取文档集合中文本的向量空间的特征,得到文档集合中文本的特征向量;
S3、通过已知文本类别的文本的特征向量对LSTM神经网络模型进行训练;
S4、将待检测的文本的特征向量作为LSTM神经网络模型的输入,得到文本的分类结果。
2.如权利要求1所述的一种基于LSTM神经网络模型的文本分类方法,其特征在于,文本的向量空间为:
式中,n表示为文本X中的词的数量,xi表示文本X的第i个词,wi为xi对应的特征权值:
式中,fi表示xi在文本X中出现的次数,表示为文档集合Y中出现xi的总文本数量,N为文档集合Y中文本的数量。
3.如权利要求1所述的一种基于L...
【专利技术属性】
技术研发人员:陈琰,陈晓露,俞睿默,陆正嘉,刘逸逸,邱继芸,周晓鹂,黄静韬,
申请(专利权)人:国网上海市电力公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。