【技术实现步骤摘要】
一种基于主动学习的多哈希数据识别方法
[0001]本专利技术涉及学习识别方法
,具体为一种基于主动学习的多哈希数据识别方法
。
技术介绍
[0002]随着互联网与智能手机的迅猛发展,移动互联网软件快速普及,尤其以移动为操作系统的应用软件尤为突出,基于深度学习的命名实体识别模型依赖于大量标注数据,但人工标注成本较高
。
基于深度学习的模型因其深度的结构能从数据中学习复杂的特征,而被广泛应用于命名实体识别任务
。
[0003]但是具体到应用环境中,命名实体识别任务不可能仅局限于对人物
、
地点
、
日期等实体的识别,可能要根据业务场景进行进一步地细化,所以首先要收集标注的数据,但是人工标注又需要投入人力,通过人力无法能够快速有效的对软件进行检测,并且检测的效率较低,且费时费力,为此我们提出了一种基于主动学习的多哈希数据识别方法
。
技术实现思路
[0004]本专利技术的目的在于提供一种基于主动学习的多哈希数据识别方法,以解决上述 ...
【技术保护点】
【技术特征摘要】
1.
一种基于主动学习的多哈希数据识别方法,其特征在于:包括以下步骤:步骤一:获取文本集合和待识别领域的文件夹路径,根据文件夹路径读取移动软件;步骤二:构建主动学习系统框架,根据文本集合和待识别领域结合的主动学习算法,不断对主动池中样本进行迭代;步骤三:通过源代码特征值,获取模糊哈希值,根据模糊哈希值对移动软件的每个反编译文件中代码进行模糊哈希处理;步骤四:通过将处理后的模糊哈希值和文本集合和待识别领域中的源代码文件比较;步骤五:根据模糊哈希值相似度和源代码文件相似分数的权值,从而获得软件之间的相似性比较结果
。2.
根据权利要求1所述的一种基于主动学习的多哈希数据识别方法,其特征在于:建立主动学习框架,使用基于信息性和代表性主动学习方法在主动池中挑选出具有信息性和代表性的样本,选择一个最有价值的实例信息,使种子集通过训练得到一个分类边界
。3.
根据权利要求1所述的一种基于主动学习的多哈希数据识别方法,其特征在于:根据数据量预先设置一个长度为
M
的数组,使用一个哈希函数
F
并以数据的关键字作为自变量;得到唯一的返回值
,
返回值的范围为0‑
m
‑
1,
这样就可以利用哈希函数
F
将数据元素映射到数组的某一位下标并把数据存放在对应位置上,查找时,利用哈希函数
F
计算该数据的存放下标,再到相应的位置取出查找的数据
。4.
根据权利要求1所述的一种基于主动学习的多哈希数据识别方法,其特征在于:设置的哈希函数能够将数据的关键字映射为一个唯一地址,...
【专利技术属性】
技术研发人员:周云飞,张洪岭,邹翔,孟影,
申请(专利权)人:中创华源科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。