当前位置: 首页 > 专利查询>湖南大学专利>正文

用于工业故障信息快速匹配的语义检索方法技术

技术编号:22330758 阅读:37 留言:0更新日期:2019-10-19 12:23
本发明专利技术公开了一种用于工业故障信息快速匹配的语义检索方法,其包括以下步骤:步骤一、对原始文档进行分词索引、统计词频;步骤二、利用词袋模型和词的局部差和训练算法进行训练;步骤三、对工业零件分类归档;步骤四、输入文档,通过矩阵距离算法计算出距离最接近的文档;步骤五、结合工业故障信息再次筛选排序选出的结果文档,根据索引返回解决方案文档。本发明专利技术针对实现工业故障匹配的方法提高了匹配精准度和匹配速度。

Semantic retrieval method for fast matching of industrial fault information

【技术实现步骤摘要】
用于工业故障信息快速匹配的语义检索方法
本专利技术属于自然语言处理文本相似度匹配
,涉及一种工业故障信息快速匹配的语义检索方法。
技术介绍
随着数据时代的来临,各工业企业积累了大量的数据,有望提示和解决工业界面临的传统难题。其中凸显的一点问题是工业技术往往需要工人长时间的累计,师傅带学徒制的积累经验,学徒由于经验不足往往应对故障问题时不知道该如何去解决故障,并且由于人力原因,特殊情况等,可能师傅没有时间去优先解决该问题,这就造成了人力资源的损失和由于故障造成的财务损失。由于目前搜索引擎技术大都基于词语逆向索引,及词语对应文档,通过输入词对应的文档取交集处理,这样的方式简单粗暴,适合于互联网中海量数据的对应搜索,但是在企业中,匹配文档量往往只有几万,十几万的数据量,且往往业务针对主题域进行设定,企业更关注的是如何提高匹配精准度和匹配速度。相比之下,通过建立分词与词频数据仓,建立词袋模型和词的局部差和训练算法,然后通过矩阵距离算法进行匹配,更适合于工业企业检索领域和高精准度快速检索的要求。
技术实现思路
一种用于工业故障信息快速匹配的语义检索方法,包括以下步骤:步骤一、对原始文档进行分词索引、统计词频;步骤二、利用词袋模型和词的局部差和训练算法进行训练;步骤三、对工业零件分类归档;步骤四、输入待检测文档,通过矩阵距离算法计算出最接近的文档;步骤五、结合工业故障信息筛选出最接近的前十个文档,根据索引返回解决方案文档。进一步的,所述步骤一的分词索引,是通过把所有原始文档以单个单词为区分进行分词处理,并基于所述分词建立索引,对所有所述文档建立索引并存入数据仓,同时统计词频存入数据仓。进一步的,所述利用词袋模型和词的局部差和训练算法具体为:基于所述数据仓的所有所述分词及所述词频进行训练,构建词出现的频率矩阵数值,设定n篇文档共有k个不同词,则构建n*k维的矩阵,矩阵i行j列内容则为第j个词在第i篇文档中出现的次数加上通过局部差和训练算法求出的表示词语位置的数值。进一步的,所述词袋模型和词的局部差训练算法还包括位置数据的计算,所述位置数据是通过计算提取词语在文本中的位置,计算词语位置分布位置的和、差,然后两项做积,并与词频相加,实现将词语的多个位置集合为一个数字来表示,词的局部差、和是将句子位置向量压缩为一个可以逼近唯一代表其位置的一个数字,其计算公式为:设定位置a、位置b、位置c,其中a<c,b<c,a<b,则(a/c+b/c)*(b/c-a/c)=(b2-a2)/c2<1;由所述公式计算出的值代表词位置,当其词频不超过2时,此值必定小于1,设定每个文本分为十个位置,词语只分布在这十个位置中;当词语有n个位置时,通过所述计算公式迭代计算出第n-1个位置,重复所述计算,计算出第n-2个位置,通过重复迭代所述计算将词语的多个位置转换为2个位置,最终实现用一个数值来表示词语的多个位置的分布;所述计算采用绝对值来计算。进一步的,所述对工业零件分类归档包含工业零件、故障现象及对应的解决方案文档,同样将所述工业零件分类归档数据存入所述数据仓。进一步的,所述矩阵距离算法具体为:将输入待检测文档执行所述分词及词频统计、以及所述位置数据的计算,得到矩阵Xak,通过将所述矩阵Xak与所述数据仓中的数据矩阵Xnk进行所述矩阵距离计算,在计算时所述矩阵中以相同词语做计算,即Xa1与Xn1对应同一个词语,计算后得到对比结果值dan,所述值dan越小表示越接近,其计算公式为:进一步的,所述工业故障信息包括工业零件数据、故障特征数据及人为定义反馈数据。与现有技术相比,本专利技术通过建立分词与词频数据仓,建立词袋模型和词的局部差和训练算法,然后通过矩阵距离算法进行匹配,更适合于工业企业检索领域和高精准度快速检索的要求。【附图说明】图1是本专利技术提供的用于工业故障信息快速匹配的语义检索方法的流程图;图2是经过通过本方法实验比较的相同词频不同词语分布句子的实例展示。【具体实施方式】下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。一种用于工业故障信息快速匹配的语义检索方法,包括以下步骤:步骤一、对原始文档进行分词索引、统计词频,对所有原始文档进行分词,建立索引;具体地,请参阅表1分词索引构建矩阵数据的举例,例如:我喜欢你,你喜欢我吗,在表1中进行分词统计,构建矩阵位[2,2,2,1],将进行分词及索引的数据存入所述数据仓;表1步骤二、利用词袋模型和词的局部差和训练算法进行训练,基于所述数据仓的所有所述分词及所述词频进行训练,构建词出现的频率矩阵数值,设定n篇文档共有k个不同词,则构建n*k维的矩阵,矩阵i行j列内容则为第j个词在第i篇文档中出现的次数加上通过局部差和训练算法求出的表示词语位置的数值。进一步的,所述词袋模型和词的局部差训练算法还包括位置数据的计算,所述位置数据是通过计算提取词语在文本中的位置,计算词语位置分布位置的和、差,然后两项做积,并与词频相加,实现将词语的多个位置集合为一个数字来表示,词的局部差、和是将句子位置向量压缩为一个可以逼近唯一代表其位置的一个数字,其计算公式为:设定位置a、位置b、位置c,其中a<c,b<c,a<b,则(a/c+b/c)*(b/c-a/c)=(b2-a2)/c2<1;由所述公式计算出的值代表词位置,当其词频不超过2时,此值必定小于1,设定每个文本分为十个位置,词语只分布在这十个位置中;当词语超过2时,将词位置按照在文档中出现的先后顺序排序,通过逐级将相邻的两个词位置两两做和,两两做差的方式转变为2个局部向量,然后再次进行计算,所述计算采用绝对值来计算。当词语有n个位置时,通过所述计算公式迭代计算出第n-1个位置,重复所述计算,计算出第n-2个位置,通过重复迭代所述计算将词语的多个位置转换为2个位置,最终实现用一个数值来表示词语的多个位置的分布。具体如下:设定词语有[a,b,c]三个位置,则先计算w1=(b-a)*(b+a),然后计算:W2=(c-b)*(b+c),最后计算|w1-w2|*(w1+w2),由于可能会出现w1<w1,为了保证词语向量的非负性,我们采用绝对值来计算w1-w2,但是这就导致了误差的出现,可能会有|d2-b2|=|c2-b2|,计算出的概率为约为1/90,且随着词频的增大,误差会变得变小,当为3个词时,选中3个位置的组合有10*9*8=720种,而可能出现误差的情况只有8种,同时当词量上升时概率做乘积,会变得更小,所以延伸至词语超过3时的迭代计算方法,即通过这样不断聚合的方式来计算:当词频超过2时,通过词块两两聚合的方式,即每两个相邻词即为一个词块来进行迭代计算,如有[a,b,c,d]4个位置,则可以分为三个词块,然后3个词块再次通过这样的方式聚合为2个词块,然后计算出结果。请参阅图2,是经过通过本方法实验比较的相同词频不同词语分布句子的实例展示,样例1为句子:我喜欢你,你喜欢我吗样例2位句子:你喜欢我吗本文档来自技高网...

【技术保护点】
1.一种用于工业故障信息快速匹配的语义检索方法,其特征在于,包括以下步骤:步骤一、对原始文档进行分词索引、统计词频;步骤二、利用词袋模型和词的局部差和训练算法;步骤三、对工业零件分类归档;步骤四、输入待检测文档,通过矩阵距离算法计算出最接近的文档;步骤五、结合工业故障信息筛选出最接近的前十个文档,根据索引返回解决方案文档。

【技术特征摘要】
1.一种用于工业故障信息快速匹配的语义检索方法,其特征在于,包括以下步骤:步骤一、对原始文档进行分词索引、统计词频;步骤二、利用词袋模型和词的局部差和训练算法;步骤三、对工业零件分类归档;步骤四、输入待检测文档,通过矩阵距离算法计算出最接近的文档;步骤五、结合工业故障信息筛选出最接近的前十个文档,根据索引返回解决方案文档。2.如权利要求1所述的语义检索方法,其特征在于,在步骤一中,所述分词索引具体为:通过把所有原始文档以单个单词为区分进行分词处理,并基于所述分词建立索引,对所有所述文档建立索引并存入数据仓,同时统计词频存入数据仓。3.如权利要求2所述的语义检索方法,其特征在于,所述利用词袋模型和词的局部差和训练算法具体为:基于所述数据仓的所有所述分词及所述词频进行训练,构建词出现的频率矩阵数值,设定n篇文档共有k个不同词,则构建n*k维的矩阵,矩阵i行j列内容则为第j个词在第i篇文档中出现的次数加上通过局部差和训练算法求出的表示词语位置的数值。4.如权利要求3所述的语义检索方法,其特征在于,所述词袋模型和词的局部差和训练算法还包括位置数据的计算,所述位置数据是通过计算提取词语在文本中的位置,计算词语位置分布位置的和、差,然后两项做积,并与词频相加,实现将词语的多个位置集合为一个数字来表示,词的局部差、和是将句子位置向量压缩为一个可以逼近唯一代表...

【专利技术属性】
技术研发人员:李肯立闫安民阳王东刘楚波陈岑周旭吴帆唐卓李克勤
申请(专利权)人:湖南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1