故障数据的处理方法和装置、计算机可读存储介质制造方法及图纸

技术编号:18257136 阅读:38 留言:0更新日期:2018-06-20 08:42
本发明专利技术实施例公开一种故障数据的处理方法和装置、计算机可读存储介质。该处理方法包括:获取风力发电机组的原始故障数据;对原始故障数据进行分词处理,得到与每条原始故障数据对应的关键词集合;对与所有原始故障数据对应的关键词集合进行聚类,得到多个故障类别和与每个故障类别对应的特征词集合。采用本发明专利技术实施例中的技术方案,能够实现对风力发电机组的历史故障处理信息的可靠性故障的自动分析。

Fault data processing method and device, computer readable storage medium

The embodiment of the invention discloses a fault data processing method and device, and a computer readable storage medium. The method includes: obtaining the original fault data of the wind turbine, processing the original fault data by word segmentation, and getting the key words set corresponding to each original fault data; clustering the key word set corresponding to all the original fault data, obtaining multiple fault categories and corresponding to each fault category. A collection of characteristic words. By adopting the technical proposal in the embodiment of the invention, the automatic failure analysis of the historical fault handling information of the wind turbine can be realized.

【技术实现步骤摘要】
故障数据的处理方法和装置、计算机可读存储介质
本专利技术涉及风力发电
,尤其涉及一种风力发电机组故障数据的处理方法和装置、计算机可读存储介质。
技术介绍
风能资源通常集中在环境较恶劣的寒冷地区或者高原地区,恶劣的环境使得风力发电机组在运行过程中不可避免地发生各种类型的故障。每次故障处理完成后,现场人员会记录相关的故障处理信息。为提高风力发电机组的故障排除效率及展开对风力发电机组的故障优化设计,研发人员需要对风力发电机组的历史故障处理信息做可靠性故障分析。现有技术中主要通过手工完成对风力发电机组的历史故障处理信息的可靠性故障分析。但是,由于风力发电机组的历史故障处理信息涉及的数据量相当大,通过手工完成对风力发电机组的历史故障处理信息的可靠性故障分析的方式会耗费研发人员大量的时间和精力。
技术实现思路
本专利技术实施例提供了一种风力发电机组故障的数据处理方法和装置、计算机可读存储介质,能够实现对风力发电机组的历史故障处理信息的可靠性故障的自动分析。第一方面,本专利技术实施例提供了一种风力发电机组故障数据的处理方法,该方法包括:获取风力发电机组的原始故障数据;对原始故障数据进行分词处理,得到与每条原始故障数据对应的关键词集合;对与所有原始故障数据对应的关键词集合进行聚类,得到多个故障类别和与每个故障类别对应的特征词集合。在第一方面的一些实施例中,对原始故障数据进行分词处理,得到与每条原始故障数据对应的关键词集合,包括:清洗每条原始故障数据;对清洗后的故障数据进行分词处理,得到与每条原始故障数据对应的关键词集合。在第一方面的一些实施例中,清洗每条原始故障数据,包括:剔除原始故障数据中的空字符;和/或,利用正则表达式,剔除原始故障数据中与风力发电机组故障无关的数字符;和/或,根据预定固定词库,剔除原始故障数据中与风力发电机组故障无关的固定词组。在第一方面的一些实施例中,对清洗后的故障数据进行分词处理,得到与每条原始故障数据对应的关键词集合,包括:利用结巴分词包对清洗后的故障数据进行分词处理,得到与每条原始故障数据对应的关键词集合,其中,结巴分词包中的词库包括风力发电机组行业词库和/或停用词库。在第一方面的一些实施例中,对与所有原始故障数据对应的关键词集合进行聚类,得到聚类后的多个故障类别和用于表征每个故障类别的特征词集合,包括:从原始待聚类关键词集合组中选取第一关键词集合,原始待聚类关键词集合组为与所有原始故障数据对应的关键词集合构成的组合;分别判断原始待聚类关键词集合组中除第一关键词集合外的、其他每组关键词集合是否能够与第一关键词集合聚为一类;将所有能够与第一关键词集合聚为一类的关键词集合中的关键词的组合,作为用于表征与第一关键词集合对应的故障类别的特征词集合,并将所有未能够与第一关键词集合聚为一类的关键词集合构成更新后的待聚类关键词集合组;从更新后的待聚类关键词集合组中选取第二关键词集合;分别判断更新后的待聚类关键词集合组中除第二关键词集合外的、其他每组关键词集合是否能够与第二关键词集合聚为一类;将所有能够与第二关键词集合聚为一类的关键词集合中的关键词的组合,作为用于表征与第二关键词集合对应的故障类别的特征词集合,直到更新后的待聚类关键词集合组中的关键词集合的数目下降至0。在第一方面的一些实施例中,分别判断原始待聚类关键词集合组中除第一关键词集合外的、其他每组关键词集合是否能够与第一关键词集合聚为一类,包括:从原始待聚类关键词集合组中除第一关键词集合外的、其他关键词集合中依次选取第三关键词集合;分别获取第一关键词集合的关键词总数目和每组第三关键词集合的关键词总数目,将关键词总数目较大的关键词集合的关键词总数目作为第一总数目;分别获取第一关键词集合和每组第三关键词集合之间的共有关键词的第二总数目;分别计算每个第二总数目和对应的第一总数目的比值;若第二总数目和对应的第一总数目的比值大于预定比值,则判断与第二总数目对应的第三关键词集合能够与第一关键词集合聚为一类。在第一方面的一些实施例中,对与所有原始故障数据对应的关键词集合进行聚类,得到聚类后的多个故障类别和用于表征每个故障类别的特征词集合,包括:计算原始待聚类关键词集合组中每两组关键词集合之间的第一相似度值,原始待聚类关键词集合组为与所有原始故障数据对应的关键词集合构成的组合;将第一相似度值最大的两组关键词集合聚为一组新的关键词集合,并将新的关键词集合和原始待聚类关键词集合组中除第一相似度值最大的两组关键词集合外的、其他关键词集合构成更新后的待聚类关键词集合组;计算更新后的待聚类关键词集合组中每两组关键词集合之间的第二相似度值,并将所述第二相似度值最大的两组关键词集合聚为一组新的关键词集合,直到所有第二相似度值中的最大第二相似度值大于预定阈值;或者,直到所述更新后的待聚类关键词集合组中的关键词集合的数目下降至预定数目。在第一方面的一些实施例中,关键词集合为文本格式,计算每两组关键词集合之间的第一相似度值,包括:将关键词集合从文本格式转换为向量格式;计算与每两组关键词集合对应的两组向量之间的第一相似度值。在第一方面的一些实施例中,在对与所有原始故障数据对应的关键词集合进行聚类,得到多个故障类别和与每个故障类别对应的特征词集合之后,该方法还包括:为每个故障类别设置类别标签;根据类别标签索引与类别标签对应的特征词集合。在第一方面的一些实施例中,在对与所有原始故障数据对应的关键词集合进行聚类,得到多个故障类别和与每个故障类别对应的特征词集合之后,该方法还包括:获取与新的风力发电机组故障对应的一个或多个词组;根据一个或多个词组索引与新的风力发电机组故障相关的故障类别和特征词集合;或者,根据一个或多个词组检索与新的风力发电机组故障相关的原始故障数据。第二方面,本专利技术实施例提供了一种风力发电机组故障数据的处理装置,该装置包括:第一获取模块,用于获取风力发电机组的原始故障数据;分词模块,用于对原始故障数据进行分词处理,得到与每条原始故障数据对应的关键词集合;聚类模块,用于对与所有原始故障数据对应的关键词集合进行聚类,得到多个故障类别和与每个故障类别对应的特征词集合。在第二方面的一些实施例中,分词模块具体包括:清洗单元,用于清洗每条原始故障数据;分词单元,用于对清洗后的故障数据进行分词处理,得到与每条原始故障数据对应的关键词集合。在第二方面的一些实施例中,聚类模块具体包括:选取单元,用于从原始待聚类关键词集合组中选取第一关键词集合,原始待聚类关键词集合组为与所有原始故障数据对应的关键词集合构成的组合;判断单元,用于分别判断原始待聚类关键词集合组中除第一关键词集合外的、其他每组关键词集合是否能够与第一关键词集合聚为一类;第一聚类单元,用于将所有能够与第一关键词集合聚为一类的关键词集合中的关键词的组合,作为用于表征与第一关键词集合对应的故障类别的特征词集合,并将所有未能够与第一关键词集合聚为一类的关键词集合构成更新后的待聚类关键词集合组;选取单元,还用于从更新后的待聚类关键词集合组中选取第二关键词集合;判断单元,还用于分别判断更新后的待聚类关键词集合组中除第二关键词集合外的、其他每组关键词集合是否能够与第二关键词集合聚为一类;第一聚类单元,还用于将所有能够与第二关键词集合聚为一本文档来自技高网...
故障数据的处理方法和装置、计算机可读存储介质

【技术保护点】
1.一种风力发电机组故障数据的处理方法,其特征在于,包括:获取风力发电机组的原始故障数据;对所述原始故障数据进行分词处理,得到与每条原始故障数据对应的关键词集合;对与所有原始故障数据对应的关键词集合进行聚类,得到多个故障类别和与每个故障类别对应的特征词集合。

【技术特征摘要】
1.一种风力发电机组故障数据的处理方法,其特征在于,包括:获取风力发电机组的原始故障数据;对所述原始故障数据进行分词处理,得到与每条原始故障数据对应的关键词集合;对与所有原始故障数据对应的关键词集合进行聚类,得到多个故障类别和与每个故障类别对应的特征词集合。2.根据权利要求1所述的方法,其特征在于,所述对所述原始故障数据进行分词处理,得到与每条原始故障数据对应的关键词集合,包括:清洗每条原始故障数据;对清洗后的故障数据进行分词处理,得到与每条原始故障数据对应的关键词集合。3.根据权利要求2所述的方法,其特征在于,所述清洗每条原始故障数据,包括:剔除所述原始故障数据中的空字符;和/或,利用正则表达式,剔除所述原始故障数据中与所述风力发电机组故障无关的数字符;和/或,根据预定固定词库,剔除所述原始故障数据中与所述风力发电机组故障无关的固定词组。4.根据权利要求3所述的方法,其特征在于,所述对清洗后的故障数据进行分词处理,得到与每条原始故障数据对应的关键词集合,包括:利用结巴分词包对清洗后的故障数据进行分词处理,得到与每条原始故障数据对应的关键词集合,其中,所述结巴分词包中的词库包括风力发电机组行业词库和/或停用词库。5.根据权利要求1所述的方法,其特征在于,所述对与所有原始故障数据对应的关键词集合进行聚类,得到多个故障类别和与每个故障类别对应的特征词集合,包括:从原始待聚类关键词集合组中选取第一关键词集合,所述原始待聚类关键词集合组为与所有原始故障数据对应的关键词集合构成的组合;分别判断所述原始待聚类关键词集合组中除所述第一关键词集合外的、其他每组关键词集合是否能够与所述第一关键词集合聚为一类;将所有能够与所述第一关键词集合聚为一类的关键词集合中的关键词的组合,作为用于表征与所述第一关键词集合对应的故障类别的特征词集合,并将所有未能够与所述第一关键词集合聚为一类的关键词集合构成更新后的待聚类关键词集合组;从所述更新后的待聚类关键词集合组中选取第二关键词集合;分别判断所述更新后的待聚类关键词集合组中除所述第二关键词集合外的、其他每组关键词集合是否能够与所述第二关键词集合聚为一类;将所有能够与所述第二关键词集合聚为一类的关键词集合中的关键词的组合,作为用于表征与所述第二关键词集合对应的故障类别的特征词集合,直到所述更新后的待聚类关键词集合组中的关键词集合的数目下降至0。6.根据权利要求5所述的方法,其特征在于,所述分别判断所述原始待聚类关键词集合组中除所述第一关键词集合外的、其他每组关键词集合是否能够与所述第一关键词集合聚为一类,包括:从所述原始待聚类关键词集合组中除所述第一关键词集合外的、其他关键词集合中依次选取第三关键词集合;分别获取所述第一关键词集合的关键词总数目和每组所述第三关键词集合的关键词总数目,将所述关键词总数目较大的关键词集合的关键词总数目作为第一总数目;分别获取所述第一关键词集合和每组所述第三关键词集合之间的共有关键词的第二总数目;分别计算每个所述第二总数目和对应的第一总数目的比值;若所述第二总数目和对应的第一总数目的比值大于预定比值,则判断与所述第二总数目对应的所述第三关键词集合能够与所述第一关键词集合聚为一类。7.根据权利要求1所述的方法,其特征在于,所述对与所有原始故障数据对应的关键词集合进行聚类,得到多个故障类别和与每个故障类别对应的特征词集合,包括:计算所述原始待聚类关键词集合组中每两组关键词集合之间的第一相似度值,所述原始待聚类关键词集合组为与所有原始故障数据对应的关键词集合构成的组合;将所述第一相似度值最大的两组关键词集合聚为一组新的关键词集合,并将所述新的关键词集合和所述原始待聚类关键词集合组中除所述第一相似度值最大的两组关键词集合外的、其他关键词集合构成更新后的待聚类关键词集合组;计算所述更新后的待聚类关键词集合组中每两组关键词集合之间的第二相似度值,并将所述第二相似度值最大的两组关键词集合聚为一组新的关键词集合,直到所有第二相似度值中的最大第二相似度值大于预定阈值;或者,直到所述更新后的待聚类关键词集合组中的关键词集合的数目下降至预...

【专利技术属性】
技术研发人员:宋明彦董兆宇马晓丽
申请(专利权)人:新疆金风科技股份有限公司
类型:发明
国别省市:新疆,65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1