基于TF-IDF文本特征的电力语音文本预处理方法技术

技术编号：40664790 阅读：2 留言：0更新日期：2024-03-18 18:58

本发明专利技术涉及基于TF‑IDF文本特征的电力语音文本预处理方法，包括以下步骤：S1、通过零域和频域的卷积实现对文本的特征提取，零域类型的卷积为图像的像素点上的直接卷积，频域的卷积为图像的傅里叶变换，然后进行卷积；S2、通过对所提出的标记LDA模型采用传统的TF‑IDF进行实验。本发明专利技术通过对电力数据文本数据集的实验，验证了电力语音文本数据的识别和分类结果，TF‑graph基于文本的主题模型的分类的准确率为76.4％，召回率为75.2％，F1值为75.8％，高3％基于文本的分类方法，比召回率高3.4％的召回率，高3.2％基于Lageled‑LDA模型的文本特征提取方法，高于基于Ladeled‑LDA模型的文本特征提取方法类型分类，准确率提高3.5％，召回率提高1％，F1值提高2.3％，可以看出数据的总体趋势与数据的峰谷值吻合较好。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本预处理，尤其涉及基于tf-idf文本特征的电力语音文本预处理方法。

技术介绍

1、随着互联网的普及，大量依赖互联网的产业和技术也迎来了云计算和物联网等领域的快速发展时期。因此，互联网上的数据呈指数级增长，这大量的数据主要由文本、音频、视频、图片等组成，其中文本数据占很大比例，与此同时，随着手机的快速普及，微博等多元化社交平台如微信相继涌现。数据的快速增长，一方面为人们访问信息带来了便利，但另一方面，人们需要花费大量的时间成本来从大量的信息中获得他们需要的部分。因此，如何有效地获取和组织信息已成为一个紧迫的问题。

2、结合下述文献：

3、[1]文献研究所硕士论文，利用文本分类技术在文本挖掘中的知识发现综述。国际计算机应用杂志，2015年，111(6)：12～15；

4、[2]慕克吉i，等人。一种改进的短文分类的信息检索方法。《国际信息工程与电子商务杂志》，2017,9(4)：31～37；

5、[3]jiang m，等人。基于深度信息网络和softmax回归的文本分类。神经计算与应用程序，2018,29(1)：61 70；

6、[4]wang d，等人。基于自动索引[c]//农业计算机与计算技术的自然语言检索方法国际会议。施普林格国际出版社，2016：346～356；

7、[5]卡xx。基于bp人工神经网络和遗传算法的信息滤波模型的研究，[c]//国际自然计算会议。ieee，2010：1788～1791；

8、[6]wang y，基

9、[7]维迪亚。关于文本文档分类中的朴素贝叶斯机器学习方法的综述。国际计算机科学与信息安全杂志，2010,7(2)；

10、[8]zhang 2，等人。使用基于卷积-gru的深度神经网络[c]//eswc 2018：745 760在推特上检测仇恨言论；

11、[9]qing-sheng 2，等。自然邻居在文本中的应用“分类”。现代计算机出版社，2017年，(11)：42～46；

12、[10]大场a等。用于自然语言文档/基因组聚类分析的数学模型。施普林格，柏林，海德堡，2010：23，42；

13、[11]debra等人。在检索的背景下评估自动索引或分类的框架。信息科学与技术协会杂志，2016,67(1)：3～16；

14、[12]salton g，杨cs。关于自动索引中的术语值的规范。文献期刊，1973年，29(4)：351～372；

15、[13]hayes pj，温斯坦sp。解释/tis：一个基于内容的新闻故事数据库索引系统[c]//第二次人工智能创新应用会议论文集。1990:49～64；

16、[14]技术有限公司的电子邮件分类与联合培训[j]。cascon诉讼集，2001：301～312；

17、[15]，机器学习，机器学习。麦格劳-希尔出版社，2003年；

18、[16]feng g，等人。使用朴素贝叶斯方法对特征子集进行文本分类。模式识别字母，2015,65(nov。1):109115.

19、[17]邓打破，等人。一种基于统计分布和集理论的基于文本的分类方法。北京理工学院学报，2006(07)：589～592+597；

20、[18]kim sb，等人。朴素贝叶斯文本分类的一些有效技术。ieee《知识与数据工程学报》，2006,18(11)：1457～1466；

21、[19][19]b等。knn与基于tf-idf的文本框架分类[c]//爱思唯尔有限公司，2014：1356～1364；

22、[20]walingwang，基于卷积神经网络[1]的基于文本的分类算法。佳木斯大学学报(自然科学版)，2018,036(003)：354～357；

23、[21]yunchu li，基于文本的分类的基于支持的向量组合器[j]。中国新技术与新产品，2019(01)：23～24；

24、[22]liu j，等人。极端多标签文本分类的深度学习[c]/国际信息检索的研发会议。acm，2017：115～124；

25、[23]zhong s h，等。图像分类的双线性深度学习[c]//第19届国际多媒体会议论文集，2011：343～352；

26、[24]kuniaki等人。利用深度学习的视听语音识别。应用智能公司，2015,42(4)：722～737；

27、[25]bengio等人。一种神经概率语言模型。[j].机器泄漏研究杂志，2003,3：1137～1155；

28、[26]科洛伯特r，韦斯顿j。自然语言处理的统一架构：多任务学习[c]//机器学习。第25届国际会议的会议记录(icml 2008)，2008：160～167；

29、[27]mikolov t，等人。向量空间中word表示的有效估计[c]//国际学习表示会议论文集，2013：1～12；

30、[28]薛春香，张玉芳基于文本的功率数据域分类研究[j]。图书馆与情报工作，2013,057(014)：134～139；

31、[29]wu jun，等人。中文语料库的自动分类。《中国信息学报》，1995年，9(4)：25～32；

32、[30]zou tao，等人。一种中文文献自分类系统的设计与实现。《中国信息学报》，1999年，第13(3)页：27，33页；

33、[31]李晓莉，等人。概念推网及其在基于文本的分类中的应用。计算机研究与开发，2000(09)：9 15；

34、[32]fanyan等。文本协调分类器的性能研究。计算机研究与开发，2000年，37(9)：1026 1031；

35、[33]yan cong，zhou zq，屠y，等。基于区块链[]的电力数据保存应用程序的研究。浙江电力公司，2019年，38(7)：63-69；

36、[34]高俊洪，徐晓强，李玲，等。一个用于评估电力市场交易操作的大数据的多算法模型[j]电子测量技术，2020,43(23)：172177；

37、.[35]sun qian,majianwei,liqiang，等，智能城市电力数据挖掘的多场景应用.《电力系统与自动化学报》,2018年，第30(8)页：119125页；

38、[36]min cui，基于文本识别技术的电子设备监控数据处理公司，[d].保定：华北电力大学，2019年；

39、[37]黄亮，王嘉丽，赵利津，等。一种面向文本非结构化数据的传输和变电站系统的故障诊断方法[j]《电力科学与技术杂志》，2017,32(3)：153161；

40、[38]杨丹，朱狮岭，边正宇。改进的基于k均值的算法在文本挖掘中的应用。计算机技本文档来自技高网...

【技术保护点】

1.基于TF-IDF文本特征的电力语音文本预处理方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于TF-IDF文本特征的电力语音文本预处理方法，其特征在于：所述步骤S1可细化为以下步骤：

3.根据权利要求1所述的基于TF-IDF文本特征的电力语音文本预处理方法，其特征在于：所述步骤S11中零域卷积的函数为：

4.根据权利要求1所述的基于TF-IDF文本特征的电力语音文本预处理方法，其特征在于：所述步骤S14中基于TF-IDF算法实现文本特征提取方法包括以下步骤：

5.根据权利要求1所述的基于TF-IDF文本特征的电力语音文本预处理方法，其特征在于：所述TF-IDF对于在特定文本数据中出现频率较高的单词，该单词在总功率语音文本样本中的其他文本数据中出现的频率较低，由此可以认为该词对幂次语音文本样本具有较强的区分能力，可以作为文本数据的分类标签，因此，TF-IDF算法使用词频和逆文档频率的乘积作为权值，其具体计算方法如下：

6.根据权利要求1所述的基于TF-IDF文本特征的电力语音文本预处理方法，其特征在于：所述步骤S2可细化为以下步骤：

7.根据权利要求1所述的基于TF-IDF文本特征的电力语音文本预处理方法，其特征在于：传统的LDA与Softmax相结合，对基于文本的分类模型的准确率最低为66.1％，而基于文本的Word-2vec分类模型结合TF-IDF在6个模型中准确率为81.5％，通过对功率数据的文本数据集的实验，实验结果表明了基于图的主题模型文本分类的准确性程度卷积神经网络为76.4％，召回率为75.2％，F1值为75.8％，比图卷积神经网络的基于文本的准确度高3％的分类方法，比召回率高3.4％，比F1值高3.2％，Labeled-LDA模型文本特征提取方法基于文本的分类准确率提高了3.5％，召回率提高了1％,F1值增加了2.3％。

8.根据权利要求1所述的基于TF-IDF文本特征的电力语音文本预处理方法，其特征在于：所述步骤S2中试验核心算法为：

9.根据权利要求1所述的基于TF-IDF文本特征的电力语音文本预处理方法，其特征在于：所述步骤S3可细化为：

...

【技术特征摘要】

1.基于tf-idf文本特征的电力语音文本预处理方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于tf-idf文本特征的电力语音文本预处理方法，其特征在于：所述步骤s1可细化为以下步骤：

3.根据权利要求1所述的基于tf-idf文本特征的电力语音文本预处理方法，其特征在于：所述步骤s11中零域卷积的函数为：

4.根据权利要求1所述的基于tf-idf文本特征的电力语音文本预处理方法，其特征在于：所述步骤s14中基于tf-idf算法实现文本特征提取方法包括以下步骤：

5.根据权利要求1所述的基于tf-idf文本特征的电力语音文本预处理方法，其特征在于：所述tf-idf对于在特定文本数据中出现频率较高的单词，该单词在总功率语音文本样本中的其他文本数据中出现的频率较低，由此可以认为该词对幂次语音文本样本具有较强的区分能力，可以作为文本数据的分类标签，因此，tf-idf算法使用词频和逆文档频率的乘积作为权值，其具体计算方法如下：

6.根据权利要求1所述的基于tf-idf文本特...

【专利技术属性】
技术研发人员：赵鑫，黄昌达，张梅，武江波，易多典，
申请(专利权)人：国网新疆电力有限公司营销服务中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人