基于机器学习的BOM表识别方法、装置、计算机设备及介质制造方法及图纸

技术编号:29586039 阅读:13 留言:0更新日期:2021-08-06 19:45
本发明专利技术实施例公开了一种基于机器学习的BOM表识别方法,通过使用Python平台的机器学习包scikit‑learn构建目标识别模型;获取待识别BOM表,对待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;将待识别特征数据作为目标识别模型的输入进行识别,确定待识别特征项的特征类型,实现了对BOM表的自动化识别,无需用户参与,同时由于是采用机器学习的算法识别BOM表,能够应用于不同应用场景的BOM表,具有广泛适用性。此外,还提出了一种基于机器学习的BOM表识别装置、计算机设备及介质。

【技术实现步骤摘要】
基于机器学习的BOM表识别方法、装置、计算机设备及介质
本专利技术涉及计算机
,尤其涉及一种基于机器学习的BOM表识别方法、装置、计算机设备及介质。
技术介绍
BOM(BillofMaterial)物料清单,是以数据格式来描述产品结构的文件,实际生产中BOM不仅仅是零件和物料的简单集合,还可以包含零部件所有有价值的属性信息,例如,关于电子元器件的BOM中,电子元器件的图号、装配要求、质量标准、供应商数据、公差规范、定价数据、订购数量等。作为存储物料信息的工具,需要快速从物料清单中查找到需要的信息,因此,需要提供一种BOM表识别方法。由于不同行业的产品结构和制造方式千差万别,且用户在列好自己想要的元器件清单后,不同用户的书写行为、排版格式等都不一样,在处理用户上传的BOM表的过程中,需要通过人工介入,BOM表的快速准确识别存在一定的难度。目前行业所采用的数据库匹配和字符串匹配的方式对BOM表进行识别,虽然在比较标准的模板BOM下能获得较为精确的结果,但是在应对一些格式不够规范的BOM表单时会束手无策,并且对于类似元器件的参数型号数据上千万乃至亿级别的数据量时,用数据库匹配不仅无法穷尽所有参数型号,而且数据量过大会导致识别耗时,影响BOM表的识别效率。
技术实现思路
基于此,有必要针对上述问题,提出一种能够提高BOM表识别效率的基于机器学习的BOM表识别方法、装置、计算机设备及介质。一种基于机器学习的BOM表识别方法,所述方法包括:使用Python平台的机器学习包scikit-learn构建目标识别模型;获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型。一种基于机器学习的BOM表识别装置,所述装置包括:模型构建模块,用于使用Python平台的机器学习包scikit-learn构建目标识别模型;特征提取模块,用于获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;识别模块,用于将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:使用Python平台的机器学习包scikit-learn构建目标识别模型;获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型。一种计算机可读介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:使用Python平台的机器学习包scikit-learn构建目标识别模型;获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型。上述基于机器学习的BOM表识别方法、系统、计算机设备及介质,通过使用Python平台的机器学习包scikit-learn构建目标识别模型;获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型,通过对BOM表进行分析处理,确定对应的特征及特征数据,利用基于机器学习的识别模型进行识别,实现了对BOM表的自动化且高效识别,提高了BOM表的识别效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:图1为一个实施例中基于机器学习的BOM表识别方法的流程图;图2为一个实施例中电子元器件的待识别BOM表的示意图;图3为一个实施例中待识别特征项提取方法的流程图;图4为另一个实施例中待识别特征项提取方法的流程图;图5为一个实施例中目标识别模型构建方法的流程图;图6为另一个实施例中目标识别模型构建方法的流程图;图7为一个实施例中基于机器学习的BOM表识别装置的结构框图;图8为一个实施例中计算机设备的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,在一个实施例中,提供了一种基于机器学习的BOM表识别方法,该基于机器学习的BOM表识别方法既可以应用于终端,也可以应用于服务器,本实施例以应用于服务器举例说明。基于机器学习的BOM表识别方法具体包括以下步骤:步骤102,使用Python平台的机器学习包scikit-learn构建目标识别模型。其中,Python平台的机器学习包scikit-learn是一个Python第三方提供的非常强力的机器学习库,它包含了从数据预处理到训练模型的各个方面,通过利用该机器学习包,可以极大的减少模型的代码编写。目标识别模型是值用于对BOM表中的数据进行分类识别的机器学习分类器。使用Python平台的机器学习包scikit-learn构建目标识别模型的具体方法为:利用少量数据先行训练出识别模型,再用模型去预测类型,基于预测结果对识别模型进行优化调整,得到该目标识别模型。步骤104,获取待识别BOM表,对待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据。其中,待识别BOM表是指用户上传至服务器的数据表格。特征项是指BOM的字段。以电子元器件的BOM表为例,如图2所示,为电子元器件的待识别BOM表的示意图,其中的特征项可以是电子元器件的型号、参数、封装、位号、序号及数量等。在实际应用中,若用户需要查找多种型号的电子元器件时,为了保证查找的准确性和全面性,需要对待识别BOM表进行特征提取,获取到待识别特征项及对应的待识别特征数据,从而可以针对待识别特征性准确查找数据,提高后续的查找识别率。具体地,可以利用处理与分析工具pandas对待识别BOM表进行分析处理,实现待识别BOM表的特征提取,得到多个待识别特征项及对应的待识别特征数据。值得说明的是,在实际应用中,可能存在待识别BOM表中存在干扰数据,为了进一步提高特征提取效率,可以对待识别BOM表进行预处理,本文档来自技高网...

【技术保护点】
1.一种基于机器学习的BOM表识别方法,其特征在于,所述方法包括:/n使用Python平台的机器学习包scikit-learn构建目标识别模型;/n获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;/n将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型。/n

【技术特征摘要】
1.一种基于机器学习的BOM表识别方法,其特征在于,所述方法包括:
使用Python平台的机器学习包scikit-learn构建目标识别模型;
获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;
将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型。


2.根据权利要求1所述的基于机器学习的BOM表识别方法,其特征在于,所述对所述待识别BOM表进行特征提取,得到多个待识别特征项,包括:
利用tf-idf关键词提取方法提取所述待识别BOM表的初始关键词;
通过Python平台的分词器对所述关键词进行分词处理,得到目标关键词;
基于所述目标关键词确定所述待识别特征项。


3.根据权利要求2所述的基于机器学习的BOM表识别方法,其特征在于,所述基于所述目标关键词确定所述待识别特征项,包括:
利用正则表达式对所述目标关键词进行筛选,得到候选关键词;
获取所述待识别BOM表的目标特征数据;
计算所述目标特征数据与所述关键词的匹配度;
将所述匹配度中满足匹配度阈值的所述候选关键词确定为所述待识别特征项。


4.根据权利要求2所述的基于机器学习的BOM表识别方法,其特征在于,在所述利用tf-idf关键词提取方法提取所述待识别BOM表的初始关键词之前,还包括:
对所述待识别BOM表进行预处理,所述预处理包括数据清洗、分词、或者数据格式转换中的至少一种。


5.根据权利要求1所述的基于机器学习的BOM表识别方法,其特征在于,所述使用Python平台的机器学习包scikit-learn构建目标识别模型,包括:
获取样本BOM表,从所述样本BOM表中提取样本集,所述样本集包括多个样本特征项及对应的样本特征数据,所述样本特征数据标注了对应的特征类型;
将所述样本集按照预设比例切分为训练集和验证集;
根据所述训练集和所述验证集,利用所述机器学习包scikit-learn中的估计器进行预测,确定所述目标识别模型。


6.根据权利要求5所...

【专利技术属性】
技术研发人员:常江熊斌李成刚陈森彬杨树贤
申请(专利权)人:深圳市猎芯科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1