配方文件识别方法及装置、电子设备、存储介质制造方法及图纸

技术编号：24290028 阅读：49 留言：0更新日期：2020-05-26 20:13

本公开提供了一种配方文件识别方法及装置、电子设备、计算机可读存储介质，属于人工智能技术领域。该方法包括：获取待识别文件；从所述待识别文件中提取出配方关键词，所述配方关键词为所述待识别文件中与数值成组出现的词；根据所述待识别文件的配方关键词得到所述待识别文件的特征张量；利用配方文件识别模型对所述特征张量进行处理，得到所述待识别文件是否为配方文件的识别结果。本公开可以较为充分的提取出文件中的特征信息，提高识别文件是否为配方文件的结果的准确度，并减少需要处理的关键词数量，提高识别效率。

Identification method, device, electronic equipment and storage medium of formula document

全部详细技术资料下载

【技术实现步骤摘要】
配方文件识别方法及装置、电子设备、存储介质
本公开涉及人工智能
，特别涉及一种配方文件识别方法、配方文件识别装置、电子设备及计算机可读存储介质。
技术介绍
在很多企业中，配方(Recipe)文件都具有很高的机密性，例如半导体晶圆厂的工艺配方文件、制药公司的合成配方文件、食品厂的食材配方文件等，一旦发生外泄，将造成企业的重大损失。为了防止该情况的发生，需要将配方文件从种类繁多的企业内部文件中识别出来，以进行严格的区分性管理。现有的配方文件识别方法较多的依赖于关键词匹配，基于事先配置的关键词库，对文件的文件名或内容关键词进行查找匹配，根据匹配的结果判断文件是否为配方文件。然而，配方文件的关键词与企业内部其他文件的关键词之间难免有一定的重合，通过上述方法难以精准的区分出两类文件，导致配方文件识别的准确率较低、误判率较高，且对于人为恶意篡改、隐藏文件名或文件内容的情况，上述方法也无法有效地识别出，从而给企业的信息安全管理带来风险。需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开提供了一种配方文件识别方法、配方文件识别装置、电子设备及计算机可读存储介质，进而至少在一定程度上克服现有的配方文件识别方法准确率较低且识别范围较小的问题。本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。根据本公开的一个方面，提供一种配方文件识别方法，包括：获取待识别文件...

【技术保护点】
1.一种配方文件识别方法，其特征在于，包括：/n获取待识别文件；/n从所述待识别文件中提取出配方关键词，所述配方关键词为所述待识别文件中与数值成组出现的词；/n根据所述待识别文件的配方关键词得到所述待识别文件的特征张量；/n利用配方文件识别模型对所述特征张量进行处理，得到所述待识别文件是否为配方文件的识别结果。/n

【技术特征摘要】
1.一种配方文件识别方法，其特征在于，包括：
获取待识别文件；
从所述待识别文件中提取出配方关键词，所述配方关键词为所述待识别文件中与数值成组出现的词；
根据所述待识别文件的配方关键词得到所述待识别文件的特征张量；
利用配方文件识别模型对所述特征张量进行处理，得到所述待识别文件是否为配方文件的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
获取多个样本文件与所述样本文件的文件类型，所述文件类型包括配方文件与非配方文件；
根据所述样本文件的配方关键词得到所述样本文件的样本特征张量；
利用所述样本特征张量与所述文件类型训练机器学习模型，得到所述配方文件识别模型。

3.根据权利要求2所述的方法，其特征在于，在获取多个样本文件后，所述方法还包括：
对所述样本文件的文本进行分词，根据分词的结果构建样本词库；
将所述样本文件的文本中的词组添加到所述样本词库中，得到完整的所述样本词库；
所述从所述待识别文件中提取出配方关键词包括：
从所述待识别文件中提取出与数值相邻的词或词组，将所述词或词组与所述样本词库进行匹配，并将匹配成功的词或词组确定为所述待识别文件的配方关键词。

4.根据权利要求3所述的方法，其特征在于，在得到完整的所述样本词库后，所述方法还包括：
通过所述样本词库提取所述样本文件的配方关键词，得到配方词库；
对所述配方词库中的配方关键词进行独热编码，得到所述配方关键词的独热向量；
所述根据所述待识别文件的配方关键词得到所述待识别文件的特征张量包括：
根据所述待识别文件的配方关键词的独热向量，得到所述待识别文件的特征张量。

5.根据权利要求4所述的方法，其特征在于，所述根据所述待识别文件的配方关键词的独热向量，得到所述待识别文件的特征张量包括：
将所述待识别文件的全部配方关键词的独热向量相加，得到所述待识别文件的特征向量。

6.根据权利要求2所述的方法，其特征在于，在获取待识别文件后，所述方法还包括：
提取所述待识别文件的路径名；
所述根据所述待识别文件的配方关键词得到所述待识别文件的特征张量包括：
根据所述待识别文件的配方关键词与所述待识别文件的路径名得到所述特征张量。

7.根据权利要求6所述的方法，其特征在于，在获取多个样本文件后，所述方法还包括：
提取所述样本文件的路径名，并对所述样本文件的路径名进行分词，根据分词的结果构建路径词库；
对所述路径词库中的路径词进行独热编码，得到所述路径词的独热向量；
所述根据所述待识别文件的配方关键词与所述待识别文件的路径名得到所述特征张量包括：
根据所述待识别文件的配方关键词得到所述待识别文件的第一特征向量；
根据所述路径词库将所述待识别文件的路径名拆分为路径词，并根据所述待识别文...

【专利技术属性】
技术研发人员：陈予郎，
申请(专利权)人：长鑫存储技术有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人