当前位置: 首页 > 专利查询>浙江大学专利>正文

面向新型供电城轨列车数据运维的自然语言查询解析方法技术

技术编号:23190903 阅读:54 留言:0更新日期:2020-01-24 16:15
本发明专利技术公开了一种面向新型供电城轨列车数据运维的自然语言查询解析方法。新型供电城轨列车运行时采集获得的运维数据存储于数据库中,组建一条运维数据的训练样本;对运维数据的自然语言查询和字段进行嵌入处理;将两组输入向量结合各自的标签输入到各自的不同神经网络模型中进行训练;将待测试的自然语言查询语句处理成输入向量,通过训练后的两个不同神经网络模型映射到,对结构化查询语句的不同分类部分进行预测输出,预测后再组合合并成完整的预测结果。本发明专利技术利用了数据库已存储的大规模数据扩充训练样本,在获取成本低、存储代价小、使用效率高的基础上,丰富了模型学习到的语义信息,提升了对结构化查询语句的预测准确率。

【技术实现步骤摘要】
面向新型供电城轨列车数据运维的自然语言查询解析方法
本专利技术涉及计算机机器学习领域中的语言数据查询方法,尤其是涉及了一种面向新型供电城轨列车数据运维的自然语言查询解析方法。
技术介绍
在新型供电城轨列车运维系统中,对所存储的数据进行查询是最频繁也是最重要的操作。传统的查询方式需要精通数据库查询语法的用户为每一个查询编写结构化查询语句,随着业务规模的扩大和人工智能技术的发展,现代的个性化运维系统对使用自然语言的查询方式提出了迫切的需求。与传统查询方式相比,通过对自然语言查询进行解析,把自然语言转换为结构化查询语句,能够使用户在不需要了解数据具体存储方式的情况下快速地实现查询意图。这种自然语言查询解析技术能够大大地提高新型城轨列车个性化运维系统的查询便利性和使用效率,在业务数据规模不断扩大的背景下,使个性化运维系统为大数据的管理和使用提供更好的支撑。近年来,随着人工智能技术的快速发展,自然语言查询的解析方法集中在神经网络领域。这类方法一般将自然语言查询和数据库的字段名称进行词嵌入表示作为模型输入,通过序列-序列或者序列-集合的模型结构生成结构化查询语句。但是实际场景下的自然语言查询在很多情况下不会显式地出现字段名称,因此仅使用词向量建模两者的语义联系具有较大的局限性。一些最新的方法采用了外部知识库、概念网络以及预训练模型等外部资源来增强对自然语言和字段的语义表示,但是这些外部资源的获取和存储对网络环境和存储空间有很高的要求,不适合在新型城轨列车运维的实际场景中使用。
技术实现思路
本专利技术的目的在于针对新型供电城轨列车运维数据处理,提供了一种面向新型供电城轨列车数据运维的自然语言查询解析方法,方法上将已存储的数据所带来的丰富信息加入到神经网络模型中,在获取成本低、存储代价小、使用效率高的基础上提高了对结构化查询语句的预测准确率。本专利技术解决问题的技术方案如下:(1)新型供电城轨列车运行时采集获得的运维数据存储于数据库中,运维数据包括车辆运行能耗参数、车厢空气细颗粒物浓度参数等。由运维数据的一个自然语言查询语句以及该自然查询语句所对应的一个结构化查询语句组建一条运维数据的训练样本,自然语言查询语句包含有字段,每种字段具有多个属性值;对于每条训练样本,将自然语言查询语句中出现的每个字段的属性值替换为同种字段的其他属性值,并同样对结构化查询语句做相同替换,由此重复多次形成一批训练样本,完成对训练样本的扩展;本专利技术中,自然语言查询语句中的字段是根据数据库中的词典建立字段,利用词典识别自然语言查询语句获得。字段是由单个词或者多个词组成。(2)针对新型供电城轨列车运行时采集获得的运维数据,对运维数据的自然语言查询和字段进行嵌入处理:对自然语言查询语句中出现的属于字段属性值的词进行标记,按照不同种字段对应的词映射为不同的类型向量,同一种字段对应的词映射为同一类型向量;同时对自然语言查询语句中每个字段属性值的词处理获得第一词向量;对数据库中每种字段属性值的词的第一词向量进行平均处理获得平均词向量作为该种字段的内容向量,对每个字段的词处理获得第二词向量;最后将自然语言查询语句中每个类型向量以及数据库中每种字段的内容向量和各自的词向量组合,形成两组输入向量;(3)将两组输入向量结合各自的标签输入到各自的不同神经网络模型中进行训练,标签是指两组输入向量共同组成的组合对应于结构化查询语句所属部分的分类标签,获得训练后的两个不同神经网络模型;(4)将待测试的自然语言查询语句按照上述步骤处理成输入向量,通过训练后的两个不同神经网络模型映射到两个不同的标签空间,对结构化查询语句的不同分类部分进行预测输出,预测后再组合合并成完整的预测结果。本专利技术方法上将已存储的运维数据所带来的丰富信息加入到神经网络模型中。所述步骤(2)中,如果出现某个字段或者字段的属性值是由多个词组成,则将多个词视为一个整体对待,多个词的词向量的平均值作为整体的词向量。所述步骤(2)中,具体是将类型向量和第一词向量前后拼接进行组合,将内容向量和第二词向量前后拼接进行组合,第一词向量是由自然语言查询语句的每个词获得,第二词向量是指字段的词向量。在本专利技术的新型供电城轨列车运维数据的查询解析处理中,数据库中存储的运维数据是一种获取成本低、存储代价小、使用效率高的信息来源。本专利技术将每个字段下已存储的数据用于对字段的语义表示,能够突破字段名称的局限性,对字段形成更加准确的语义存储;对自然语言中出现的属性值按照字段进行标记,能够直接形成自然语言和字段的联系,为结构化查询语句的生成做好铺垫。此外,新型城轨列车系统的数据存储规模很大,本专利技术扩充了训练样本,缓解该任务缺乏大规模标注样本的问题,增强模型的泛化性。本专利技术的有益效果是:本专利技术解决的问题是对新型供电城轨列车运维中的自然语言查询进行语义解析进而转换为结构化查询语句。现有的技术方案通常先对输入的自然语言和数据库字段进行向量表示然后用神经网络预测结果,但是仅从训练样本中学习的向量表示缺乏足够的语义信息,对预测效果有很大影响。本专利技术方法在解析自然语言查询的过程中,利用了数据库已存储的大规模数据扩充训练样本,并在向量表示阶段结合了已存储数据的语义信息,在获取成本低、存储代价小、使用效率高的基础上,丰富了模型学习到的语义信息,提升了对结构化查询语句的预测准确率。附图说明图1是面向新型供电城轨列车个性化运维的自然语言查询解析示意图。具体实施方式现结合具体实施过程对本专利技术的技术方案作进一步说明。如图1所示,本专利技术的具体实施例及其具体实施过程如下:(1)首先根据列车已存储的运维数据对训练样本进行扩充。本实施采用的基本思想是用数据表中存储的同一字段的其他内容,替换训练样本中的属性值,产生新样本。这种替换能够在保证新样本正确性的情况下,丰富训练集蕴含的语义信息。具体的流程如下,对于每条训练样本:a)遍历它的标签里的条件子句,返回所有出现的字段;b)对于a)步得到的每个字段,遍历它的每个属性值,如果能够在该样本的自然语言查询中唯一的匹配的到同样的字符串,则将该字段加入可替换字段集合;c)对于可替换字段集合中的每个字段,随机的取一个属性值并替换样本中原有的属性值,为了充分利用已存储数据,重复此过程5次,那么产生了5条新的训练样本。例如,在列车已存储的运维数据中,字段“车厢编号”具有“四号”、“五号”、“八号”等多个属性值,一条自然语言查询语句为“返回四号车厢的空气细颗粒物浓度”,其中包含字段“车厢编号”的属性值“四号”,所以可以将自然语言查询语句“返回四号车厢的空气细颗粒物浓度”替换为“返回五号车厢的空气细颗粒物浓度”、“返回八号车厢的空气细颗粒物浓度”等,自然语言查询语句“返回四号车厢的空气细颗粒物浓度”对应的结构化查询语句也做相同替换。经过以上步骤,训练样本在原来的基础上扩充了约5倍,和原有的样本相比,新样本利用了大规模的本文档来自技高网...

【技术保护点】
1.一种面向新型供电城轨列车数据运维的自然语言查询解析方法,其特征在于:方法的步骤如下:/n(1)新型供电城轨列车运行时采集获得的运维数据存储于数据库中,由运维数据的一个自然语言查询语句以及该自然查询语句所对应的一个结构化查询语句组建一条运维数据的训练样本,自然语言查询语句包含有字段,每种字段具有多个属性值;对于每条训练样本,将自然语言查询语句中出现的每个字段的属性值替换为同种字段的其他属性值,并同样对结构化查询语句做相同替换,由此重复多次形成一批训练样本,完成对训练样本的扩展;/n(2)针对新型供电城轨列车运行时采集获得的运维数据,对运维数据的自然语言查询和字段进行嵌入处理:对自然语言查询语句中出现的属于字段属性值的词进行标记,按照不同种字段对应的词映射为不同的类型向量,同一种字段对应的词映射为同一类型向量;同时对自然语言查询语句中每个字段属性值的词处理获得第一词向量;对数据库中每种字段属性值的词的第一词向量进行平均处理获得平均词向量作为该种字段的内容向量,对每个字段的词处理获得第二词向量;最后将自然语言查询语句中每个类型向量以及数据库中每种字段的内容向量和各自的词向量组合,形成两组输入向量;/n(3)将两组输入向量结合各自的标签输入到各自的不同神经网络模型中进行训练,标签是指两组输入向量共同组成的组合对应于结构化查询语句所属部分的分类标签,获得训练后的两个不同神经网络模型;/n(4)将待测试的自然语言查询语句按照上述步骤处理成输入向量,通过训练后的两个不同神经网络模型映射到两个不同的标签空间,对结构化查询语句的不同分类部分进行预测输出,预测后再组合合并成完整的预测结果。/n...

【技术特征摘要】
1.一种面向新型供电城轨列车数据运维的自然语言查询解析方法,其特征在于:方法的步骤如下:
(1)新型供电城轨列车运行时采集获得的运维数据存储于数据库中,由运维数据的一个自然语言查询语句以及该自然查询语句所对应的一个结构化查询语句组建一条运维数据的训练样本,自然语言查询语句包含有字段,每种字段具有多个属性值;对于每条训练样本,将自然语言查询语句中出现的每个字段的属性值替换为同种字段的其他属性值,并同样对结构化查询语句做相同替换,由此重复多次形成一批训练样本,完成对训练样本的扩展;
(2)针对新型供电城轨列车运行时采集获得的运维数据,对运维数据的自然语言查询和字段进行嵌入处理:对自然语言查询语句中出现的属于字段属性值的词进行标记,按照不同种字段对应的词映射为不同的类型向量,同一种字段对应的词映射为同一类型向量;同时对自然语言查询语句中每个字段属性值的词处理获得第一词向量;对数据库中每种字段属性值的词的第一词向量进行平均处理获得平均词向量作为该种字段的内容向量,对每个字段的词处理获得第二词向量;最后将自然语言查询语句中每个类型向量以及数据库中每种字段的内容...

【专利技术属性】
技术研发人员:吴晓凡刘晋潘硕李辉田野陈刚陈珂江大伟
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1