一种基于TF-IDF思想及神经网络的相似性处理方法技术

技术编号:20363534 阅读:19 留言:0更新日期:2019-02-16 16:49
本发明专利技术公开了一种基于TF‑IDF思想及神经网络的相似性处理方法,包含以下步骤:A、创建元素字典;B、依据TF‑IDF思想数值化样本集中所有样本;C、矩阵化样本集中所有样本;D、搭建神经网络;E、计算某样本与所有样本间的相似性。本发明专利技术基于TF‑IDF思想及神经网络的相似性处理方法可以在比较某事物与N个事物相似性时,只需通过极短的时间计算1次,即可得到该事物与N个事物的相似性,极大的提升了计算某事物与N个事物计算相似性的效率。

【技术实现步骤摘要】
一种基于TF-IDF思想及神经网络的相似性处理方法
本专利技术涉及人工智能领域,具体是一种基于TF-IDF思想及神经网络的相似性处理方法。
技术介绍
目前,采用在采用数学方式计算事物间相似性时,往往需要对相关事物进行数值化处理。TF-IDF,意为TermFrequency-InverseDocumentFrequency,即词频-逆文本频率,其理论依据是信息论中原理,目前主要是用于对文章(Document)中文字(Term)的内容进行数值化处理的一种方式,而基于TF-IDF思想,可以对很多事物(主要其为某事物由子元素组成的情况)进行类似的处理。依据TF-IDF思想,可以派生出较多的类似想法如PF-IPF(Part-Frequncey-InverseProductFrequency,零件频率-逆产品频率),FF-IPF(FeatureFrequency-InversePartFrequency,特征频率-逆零件频率)等等。对相关事物进行数值化处理后,就可以通过基于特征向量的相关算法(比如欧式距离、余弦定理、皮尔逊相关性、斯皮尔曼等级相关系数等)对不同事物之间进行相似性计算。然而通过这种方式,只能两两事物之间的相似性,如果需要计算某事物与N个事物之间的相似性,就需要计算其与每个事物之间的相似性,这样在计算相似性时的计算量就会非常大,这样就会造成大量的资源浪费,以及等待时间过长。
技术实现思路
本专利技术的目的在于提供一种基于TF-IDF思想及神经网络的相似性处理方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于TF-IDF思想及神经网络的相似性处理方法,包含以下步骤:A、创建元素字典;B、依据TF-IDF思想数值化样本集中所有样本;C、矩阵化样本集中所有样本;D、搭建神经网络;E、训练神经网络;F、计算某样本与所有样本间的相似性。作为本专利技术的进一步技术方案:所述步骤A具体是:获取当前需计算相似性物体的所有样本集,将样本集中所有内容中的元素子集进行聚合处理,以去除重复的元素。利用聚合后的元素,将其归入元素字典库。作为本专利技术的进一步技术方案:所述步骤B具体是:依据TF-IDF思想,对样本集中的所有样本进行数值化处理。作为本专利技术的进一步技术方案:所述步骤C具体是:将步骤B中的样本,转化为一个具有N×M维输入矩阵,以及一个M×M的稀疏输出矩阵。作为本专利技术的进一步技术方案:所述步骤D具体是:通过步骤A中的元素字典中元素的个数,确定神经网络的输入层神经元个数N;通过样本集中样本的个数,确定神经网络中的输出层神经元的个数M;隐含层的层数与每个隐含层的神经元个数,根据样本训练的拟合程度进行确定,并逐渐逼近最优的隐含层层数与每个隐含层的神经元个数。作为本专利技术的进一步技术方案:所述步骤E具体是:利用步骤D中的神经网络与步骤C中矩阵化后的样本集,对神经网络进行训练。作为本专利技术的进一步技术方案:所述步骤F具体是:对于待计算的样本,基于TF-IDF思想对其进行向量化处理,利用步骤E中训练后的神经网络进行推理,通过一次计算,快速得到当前样本与所有已知样本间的相似性。与现有技术相比,本专利技术的有益效果是:本专利技术基于TF-IDF思想及神经网络的相似性处理方法可以在比较某事物与N个事物相似性时,只需通过极短的时间计算1次,即可得到该事物与N个事物的相似性,极大的提升了计算某事物与N个事物计算相似性的效率。附图说明图1为产品样本集矩阵化示意图;图2为在神经网络中训练(产品)样本集示意图;图3为利用神经网络快速计算某样本(产品)与所有样本(产品)间的相似性示意图。具体实施方式下面将对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-3,一种基于TF-IDF思想及神经网络的相似性处理方法,包含以下步骤:A、创建元素字典。获取当前需计算相似性物体的所有样本集,将样本集中所有内容中的元素子集(即组成该物体的子集要素,如对产品来说,零件为其子集)进行聚合处理,以去除重复的元素。利用聚合后的元素,将其归入元素字典库。(以零件字典为例,如表1);B、依据TF-IDF思想数值化样本集中所有样本;依据TF-IDF思想,计算每个样本在元素字典库中每个元素的TF-IDF值。(以计算产品的PF-IPF为例,计算方法参考专利技术专利“基于TF-IDF思想的产品结构数值化处理方法”,计算出该产品中每一个零件的PF-IPF值)(如表2所示);C、矩阵化样本集中所有样本。将步骤B中的样本,转化为一个具有N×M维输入矩阵(如图1所示),以及一个M×M的稀疏输出矩阵;D、搭建神经网络。通过步骤A中的元素字典中元素的个数,确定神经网络的输入层神经元个数N;通过样本集中样本的个数,确定神经网络中的输出层神经元的个数M;隐含层的层数与每个隐含层的神经元个数,根据样本训练的拟合程度进行确定,并逐渐逼近最优的隐含层层数与每个隐含层的神经元个数;E、训练神经网络。利用步骤D中的神经网络与步骤C中矩阵化后的样本集,对神经网络进行训练(如图2所示);F、计算某样本与所有样本件的相似性。对于待计算的样本,基于TF-IDF思想对其进行向量化处理,利用步骤E中训练后的神经网络进行推理,通过一次计算,快速得到当前样本与所有已知样本间的相似性(如图3所示)。表1为零件字典表:零件编号零件1外六角螺栓M10×202螺母M103全螺纹螺柱M10×25……1000四缸发动机机架……N涡轮;表2为某产品的PF-IPF值数据表:零件编号PF-IPF值1020.00130.00065……10001.889……N0对于本领域技术人员而言,显然本专利技术不限于上述示范性实施例的细节,而且在不背离本专利技术的精神或基本特征的情况下,能够以其他的具体形式实现本专利技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本专利技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本专利技术内。此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。本文档来自技高网...

【技术保护点】
1.一种基于TF‑IDF思想及神经网络的相似性处理方法,其特征在于,包含以下步骤:A、创建元素字典;B、依据TF‑IDF思想数值化样本集中所有样本;C、矩阵化样本集中所有样本;D、搭建神经网络;E、训练神经网络;F、计算某样本与所有样本间的相似性。

【技术特征摘要】
1.一种基于TF-IDF思想及神经网络的相似性处理方法,其特征在于,包含以下步骤:A、创建元素字典;B、依据TF-IDF思想数值化样本集中所有样本;C、矩阵化样本集中所有样本;D、搭建神经网络;E、训练神经网络;F、计算某样本与所有样本间的相似性。2.根据权利要求1所述的一种基于TF-IDF思想及神经网络的相似性处理方法,其特征在于,所述步骤A具体是:获取当前需计算相似性物体的所有样本集,将样本集中所有内容中的元素子集进行聚合处理,以去除重复的元素,利用聚合后的元素,将其归入元素字典库。3.根据权利要求1所述的一种基于TF-IDF思想及神经网络的相似性处理方法,其特征在于,所述步骤B具体是:依据TF-IDF思想,对样本集中的所有样本进行数值化处理。4.根据权利要求1所述的一种基于TF-IDF思想及神经网络的相似性处理方法,其特征在于,所述步骤C具体是:将步骤B中的样本,转化为一个具有N×M维输入矩阵,以及一个M...

【专利技术属性】
技术研发人员:马佳支含绪邓森洋
申请(专利权)人:艾凯克斯嘉兴信息科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1