配方文件识别方法及装置、电子设备、存储介质制造方法及图纸

技术编号:24290028 阅读:49 留言:0更新日期:2020-05-26 20:13
本公开提供了一种配方文件识别方法及装置、电子设备、计算机可读存储介质,属于人工智能技术领域。该方法包括:获取待识别文件;从所述待识别文件中提取出配方关键词,所述配方关键词为所述待识别文件中与数值成组出现的词;根据所述待识别文件的配方关键词得到所述待识别文件的特征张量;利用配方文件识别模型对所述特征张量进行处理,得到所述待识别文件是否为配方文件的识别结果。本公开可以较为充分的提取出文件中的特征信息,提高识别文件是否为配方文件的结果的准确度,并减少需要处理的关键词数量,提高识别效率。

Identification method, device, electronic equipment and storage medium of formula document

【技术实现步骤摘要】
配方文件识别方法及装置、电子设备、存储介质
本公开涉及人工智能
,特别涉及一种配方文件识别方法、配方文件识别装置、电子设备及计算机可读存储介质。
技术介绍
在很多企业中,配方(Recipe)文件都具有很高的机密性,例如半导体晶圆厂的工艺配方文件、制药公司的合成配方文件、食品厂的食材配方文件等,一旦发生外泄,将造成企业的重大损失。为了防止该情况的发生,需要将配方文件从种类繁多的企业内部文件中识别出来,以进行严格的区分性管理。现有的配方文件识别方法较多的依赖于关键词匹配,基于事先配置的关键词库,对文件的文件名或内容关键词进行查找匹配,根据匹配的结果判断文件是否为配方文件。然而,配方文件的关键词与企业内部其他文件的关键词之间难免有一定的重合,通过上述方法难以精准的区分出两类文件,导致配方文件识别的准确率较低、误判率较高,且对于人为恶意篡改、隐藏文件名或文件内容的情况,上述方法也无法有效地识别出,从而给企业的信息安全管理带来风险。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开提供了一种配方文件识别方法、配方文件识别装置、电子设备及计算机可读存储介质,进而至少在一定程度上克服现有的配方文件识别方法准确率较低且识别范围较小的问题。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的一个方面,提供一种配方文件识别方法,包括:获取待识别文件;从所述待识别文件中提取出配方关键词,所述配方关键词为所述待识别文件中与数值成组出现的词;根据所述待识别文件的配方关键词得到所述待识别文件的特征张量;利用配方文件识别模型对所述特征张量进行处理,得到所述待识别文件是否为配方文件的识别结果。在本公开的一种示例性实施例中,所述方法还包括:获取多个样本文件与所述样本文件的文件类型,所述文件类型包括配方文件与非配方文件;根据所述样本文件的配方关键词得到所述样本文件的样本特征张量;利用所述样本特征张量与所述文件类型训练机器学习模型,得到所述配方文件识别模型。在本公开的一种示例性实施例中,在获取多个样本文件后,所述方法还包括:对所述样本文件的文本进行分词,根据分词的结果构建样本词库;将所述样本文件的文本中的词组添加到所述样本词库中,得到完整的所述样本词库;所述从所述待识别文件中提取出配方关键词包括:从所述待识别文件中提取出与数值相邻的词或词组,将所述词或词组与所述样本词库进行匹配,并将匹配成功的词或词组确定为所述待识别文件的配方关键词。在本公开的一种示例性实施例中,在得到完整的所述样本词库后,所述方法还包括:通过所述样本词库提取所述样本文件的配方关键词,得到配方词库;对所述配方词库中的配方关键词进行独热(one-hot)编码,得到所述配方关键词的独热向量;所述根据所述待识别文件的配方关键词得到所述待识别文件的特征张量包括:根据所述待识别文件的配方关键词的独热向量,得到所述待识别文件的特征张量。在本公开的一种示例性实施例中,所述根据所述待识别文件的配方关键词的独热向量,得到所述待识别文件的特征张量包括:将所述待识别文件的全部配方关键词的独热向量相加,得到所述待识别文件的特征向量。在本公开的一种示例性实施例中,在获取待识别文件后,所述方法还包括:提取所述待识别文件的路径名;所述根据所述待识别文件的配方关键词得到所述待识别文件的特征张量包括:根据所述待识别文件的配方关键词与所述待识别文件的路径名得到所述特征张量。在本公开的一种示例性实施例中,在获取多个样本文件后,所述方法还包括:提取所述样本文件的路径名,并对所述样本文件的路径名进行分词,根据分词的结果构建路径词库;对所述路径词库中的路径词进行独热编码,得到所述路径词的独热向量;所述根据所述待识别文件的配方关键词与所述待识别文件的路径名得到所述特征张量包括:根据所述待识别文件的配方关键词得到所述待识别文件的第一特征向量;根据所述路径词库将所述待识别文件的路径名拆分为路径词,并根据所述待识别文件的路径词的独热向量得到所述待识别文件的第二特征向量;根据所述第一特征向量与所述第二特征向量生成所述待识别文件的特征张量。在本公开的一种示例性实施例中,在获取待识别文件后,所述方法还包括:提取所述待识别文件的文件名;所述根据所述待识别文件的配方关键词得到所述待识别文件的特征张量包括:根据所述待识别文件的配方关键词与所述待识别文件的文件名得到所述特征张量。在本公开的一种示例性实施例中,在获取多个样本文件后,所述方法还包括:提取所述样本文件的文件名,并对所述样本文件的文件名进行分词,根据分词的结果构建文件名词库;对所述文件名词库中的文件名词进行独热编码,得到所述文件名词的独热向量;所述根据所述待识别文件的配方关键词与所述待识别文件的文件名得到所述特征张量包括:根据所述待识别文件的配方关键词得到所述待识别文件的第一特征向量;根据所述文件名词库将所述待识别文件的文件名拆分为文件名词,并根据所述待识别文件的文件名词的独热向量得到所述待识别文件的第三特征向量;根据所述第一特征向量与所述第三特征向量生成所述待识别文件的特征张量。在本公开的一种示例性实施例中,所述机器学习模型包括神经网络模型。在本公开的一种示例性实施例中,所述神经网络模型包括1个输入层、5个中间层与1个输出层。在本公开的一种示例性实施例中,所述从所述待识别文件中提取出配方关键词包括:对所述待识别文件的文本进行分词(Tokenize),并根据分词的结果提取出所述待识别文件的配方关键词。在本公开的一种示例性实施例中,在对所述待识别文件的文本进行分词之前,所述方法还包括:对所述待识别文件的文本进行预处理,所述预处理包括以下处理中的任意一种或多种:删除无用字符、大小写转换、词干提取(Stemming)与词形还原(Lemmatization)。根据本公开的一个方面,提供一种配方文件识别装置,包括:文件获取模块,用于获取待识别文件;关键词提取模块,用于从所述待识别文件中提取出配方关键词,所述配方关键词为所述待识别文件中与数值成组出现的词;张量转换模块,用于根据所述待识别文件的配方关键词得到所述待识别文件的特征张量;模型处理模块,用于利用配方文件识别模型对所述特征张量进行处理,得到所述待识别文件是否为配方文件的识别结果。根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。本公开的示例性实施例具有以下有益效果:基于待识别文件中与数值成组出现的配方关键词,利用配方关键词编码的方式生成待识别文件的特征张量,并利用配方文件识别模型对特征张量进行处理,得到识别结果。本文档来自技高网...

【技术保护点】
1.一种配方文件识别方法,其特征在于,包括:/n获取待识别文件;/n从所述待识别文件中提取出配方关键词,所述配方关键词为所述待识别文件中与数值成组出现的词;/n根据所述待识别文件的配方关键词得到所述待识别文件的特征张量;/n利用配方文件识别模型对所述特征张量进行处理,得到所述待识别文件是否为配方文件的识别结果。/n

【技术特征摘要】
1.一种配方文件识别方法,其特征在于,包括:
获取待识别文件;
从所述待识别文件中提取出配方关键词,所述配方关键词为所述待识别文件中与数值成组出现的词;
根据所述待识别文件的配方关键词得到所述待识别文件的特征张量;
利用配方文件识别模型对所述特征张量进行处理,得到所述待识别文件是否为配方文件的识别结果。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个样本文件与所述样本文件的文件类型,所述文件类型包括配方文件与非配方文件;
根据所述样本文件的配方关键词得到所述样本文件的样本特征张量;
利用所述样本特征张量与所述文件类型训练机器学习模型,得到所述配方文件识别模型。


3.根据权利要求2所述的方法,其特征在于,在获取多个样本文件后,所述方法还包括:
对所述样本文件的文本进行分词,根据分词的结果构建样本词库;
将所述样本文件的文本中的词组添加到所述样本词库中,得到完整的所述样本词库;
所述从所述待识别文件中提取出配方关键词包括:
从所述待识别文件中提取出与数值相邻的词或词组,将所述词或词组与所述样本词库进行匹配,并将匹配成功的词或词组确定为所述待识别文件的配方关键词。


4.根据权利要求3所述的方法,其特征在于,在得到完整的所述样本词库后,所述方法还包括:
通过所述样本词库提取所述样本文件的配方关键词,得到配方词库;
对所述配方词库中的配方关键词进行独热编码,得到所述配方关键词的独热向量;
所述根据所述待识别文件的配方关键词得到所述待识别文件的特征张量包括:
根据所述待识别文件的配方关键词的独热向量,得到所述待识别文件的特征张量。


5.根据权利要求4所述的方法,其特征在于,所述根据所述待识别文件的配方关键词的独热向量,得到所述待识别文件的特征张量包括:
将所述待识别文件的全部配方关键词的独热向量相加,得到所述待识别文件的特征向量。


6.根据权利要求2所述的方法,其特征在于,在获取待识别文件后,所述方法还包括:
提取所述待识别文件的路径名;
所述根据所述待识别文件的配方关键词得到所述待识别文件的特征张量包括:
根据所述待识别文件的配方关键词与所述待识别文件的路径名得到所述特征张量。


7.根据权利要求6所述的方法,其特征在于,在获取多个样本文件后,所述方法还包括:
提取所述样本文件的路径名,并对所述样本文件的路径名进行分词,根据分词的结果构建路径词库;
对所述路径词库中的路径词进行独热编码,得到所述路径词的独热向量;
所述根据所述待识别文件的配方关键词与所述待识别文件的路径名得到所述特征张量包括:
根据所述待识别文件的配方关键词得到所述待识别文件的第一特征向量;
根据所述路径词库将所述待识别文件的路径名拆分为路径词,并根据所述待识别文...

【专利技术属性】
技术研发人员:陈予郎
申请(专利权)人:长鑫存储技术有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1