一种随机森林哈希的医学CT图像存储与检索方法技术

技术编号:20047598 阅读:43 留言:0更新日期:2019-01-09 05:02
本发明专利技术请求保护一种随机森林哈希学习的医学CT图像高效存储与检索的方法,具体是通过在医学CT图像集上训练得到随机森林哈希模型,保存模型及图像库对应的哈希码库。当用户输入一张需要检索的新的图像时,首先,模型将该图像映射为哈希码;然后在哈希码库中检索与之最近的K个哈希码;最后,将这个K个哈希码利用树的决策路径所定义的最大相容规则解码重构为图像并返回给用户。该方法的实现,有效地提高了图像检索的速度,并且极大地节省了图像的存储空间,有助于医生的医学诊断,减少医生的工作量,提高工作效率,提升医院存储设备的利用率。

【技术实现步骤摘要】
一种随机森林哈希的医学CT图像存储与检索方法
本专利技术属于医学图像处理领域,尤其涉及医学CT图像存储与检索方法技术。
技术介绍
大数据时代数据量大幅度增加,现代信息技术的基础设施必须能够处理巨大的数据,由此造成的存储、传输、管理等成本随之增加。事实上,与这些成本相比,在大型数据库中搜索相关内容变得更具挑战性。尤其是搜索诸如音频、图像和视频之类的媒体数据仍然是一个主要的挑战。除了广泛使用的基于文本的商业搜索引擎,如:谷歌、百度和必应,基于内容的图像检索在过去十年中引起了广泛的关注。基于内容的图像检索无需依赖基于文本关键字的索引结构,直接对媒体内容进行有效的索引,以便直接响应视觉查询。在给定数据库中搜索类似的数据样本与最近邻搜索问题相关。高维数据检索本质上可以转换为最近邻查找问题,即给定一个分布在高维空间内的数据集和一个检索样例,在高维空间中返回与检索样例距离最近的数据或与之最接近的前K个数据。将查询点与数据库中的每个样本彻底比较是不可行的,因为线性时间复杂度在现实的大规模应用中往往是不可取的。除了不可扩展外,由于数据通常包含数千甚至数万个维度,所以在实际中的大规模应用也会受到数据维度的限制。因此,除了穷举搜索的计算成本的太大,将原始数据加载到存储器中占用的空间过大也是一个关键问题。对于高维数据的处理,哈希索引技术能够表现出良好性能,近年来受到越来越多的研究者的关注。哈希方法通过学得一组哈希函数将原始特征映射为紧凑二进制哈希码,使得哈希码尽可能的保持原始空间中的近邻关系,即保持相似性。以图像数据为例,两张内容相近的图像经过哈希编码后,哈希码尽可能保持一致,而内容差别较大的图像经过哈希编码后,哈希码尽可能的不相同。并且哈希方法能够通过使用查找表或者基于排名的汉明距离实现快速的搜索。事实上,在汉明空间中计算索引样例与数据库中所有的样本之间的汉明距离也可以很迅速地完成。在汉明空间内进行近邻查找,一般使用遍历的方法将待检索的图像与图像库中的所有图像对比计算汉明距离。两个数据之间的汉明距离可以直接用计算机硬件通过“异或”操作实现,这样计算千万数量级数据的汉明距离所需的时间只在毫秒级。紧凑的二进制代码对于大规模的数据存储也非常有效。哈希学习方法通过机器学习机制将数据映射成二进制串的形式,能显著减少数据的存储和通信开销,从而有效提高学习系统的效率。然而,现有的哈希学习技术应用在图像检索中时,需要保存原始图像库,检索过程仍然需要利用到原始图像库,没有彻底地减少数据的存储空间。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种提高检索准确性与检索速度,提高存储设备的利用率的方法。本专利技术的技术方案如下:一种随机森林哈希的医学CT图像存储与检索方法,其包括以下步骤:获取若干医学CT图像并作为训练集,计算所有医学CT图像的标签相似度和流形相似度,标签相似度直接根据图像的标签构建标签相似矩阵,流形相似度根据图像之间的欧氏距离定义相似度;根据求得的标签相似矩阵,将所有图像分块,标签一致的图像分在一个块中;对于每一个块中的图像,利用流形相似度作为边的权值构建图,使用图分割算法为块中的所有图像初始化一位哈希码;将初始化的哈希码作为标签训练随机森林模型,模型的结果更新初始的哈希码;重复直到达到预设的哈希码位数;保存所有随机森林模型,并将图像库中的图像映射为哈希码,得到与之对应的哈希码库;当用户输入一张待检索的图像时,随机森林模型将该图像映射为哈希码,在哈希码库中检索与之最近的K个哈希码,将这K个哈希码利用树的决策路径所定义的最大相容规则解码重构为图像返回给用户。进一步地,所述步骤1)标签相似度的计算方法为:标签一致即为相似设为1,标签不一致即为不相似设为-1,无定义则设为0。模型的目标函数如下,i和j表示两张图像的索引,yij表示这两张图像的相似度,hr(x)表示哈希函数,Φ(·)表示哈希函数集,n表示图像的总数量,k表示哈希码位数,r表示哈希码的索引:进一步地,所述步骤1)计算图像之间的距离,公式为,其中d2(xi,xj)表示图像xi和xj之间的欧式距离,α和β是常数,再根据图像间的距离计算图像之间的相似度作为图中边的权值:其中τ为常数。进一步地,所述步骤3)-步骤6)应用图分割算法为所有图像初始化一位哈希码,这些哈希码将作为数据标签来训练随机森林分类器,随机森林输出的分类结果再更新初始化的哈希码,如此迭代直到达到预设的哈希码位数,因此,每一个随机森林模型作为一个哈希函数,将原始图像映射为哈希码。进一步地,在所述步骤7)中,在哈希码库中检索与之最近的K个哈希码,具体包括:根据汉明相似度排序求得与待检索图像的哈希码距离最近的K个哈希码,汉明相似度计算公式如下:进一步地,所述步骤7)中将检索到的哈希码解码到图像空间,由于随机森林是若干决策树的集成,树中的每一个叶子结点对应来自根的一条路径,可以基于叶子节点确定这个路径;其次,每条路径对应一个符号规则,可以根据这些规则推导出最大相容规则,这个最大相容规则的每个组成部分覆盖范围都不能扩大,否则就会与其他条件冲突,因此,原始样本不得超出最大相容规则定义的输入区域;最后,根据最大相容规则即可将哈希码解码重构为图像。本专利技术的优点及有益效果如下:本专利技术1、利用随机森林作为哈希函数实现了非线性的哈希映射具有较强的泛化能力,并且树型结构的模型训练速度很快。2、随机森林可以提取规则集,因此具有很强的可解释性。3、利用数据间的流形相似度作为图中边的权值,使原始空间中相似的CT图像尽可能地相似,不相似的图像差别尽可能大。4、根据随机森林提取的规则集可以求得最大相容规则,利用最大相容规则可以将随机森林的结果解码到原始图像空间,这样使得可以只保存模型和哈希码库,大大减少存储消耗,提高存储设备的利用率。附图说明图1是本专利技术提供优选实施例本专利技术的操作流程图;图2是本专利技术的模型训练示意图;图3是本专利技术中图分割与随机森林迭代示意图;图4是本专利技术中医学CT图像解码重构结果图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本专利技术的一部分实施例。本专利技术解决上述技术问题的技术方案是:本专利技术是为了探索大规模医学CT图像的高效、准确的检索模型与算法。试图解决大规模医学CT图像的检索效率、存储空间限制等问题,提高检索准确性与检索速度,提高存储设备的利用率。树型结构的模型具有可解释性好,天然适用于并行计算,训练速度快等优势。使用哈希技术能够极大的提高检索速度,大大减少存储空间。本专利技术利用随机森林作为哈希函数,将基于树的方法和哈希学习方法结合起来处理具有高维度的医学CT图像数据,从而实现非线性的哈希映射使模型具有更强大的泛化能力。为了实现上述目的,本专利技术提出了一种随机森林哈希的医学CT图像存储与检索方法,包括:通过在医学CT图像集上训练得到随机森林哈希模型,保存模型及图像库对应的哈希码库。当用户输入一张需要检索的新的图像时,首先,模型将该图像映射为哈希码;然后在哈希码库中检索与之最近的K个哈希码;最后,将这个K个哈希码利用树的决策路径所定义的最大相容规则解码重构为图像并返回给用户。根据哈希学习任务中的哈希函数是人工设定还是通过学习学得,可以将哈希方法划分为两大本文档来自技高网
...

【技术保护点】
1.一种随机森林哈希的医学CT图像存储与检索方法,其特征在于,包括以下步骤:1)获取若干医学CT图像并作为训练集,计算所有医学CT图像的标签相似度和流形相似度,标签相似度直接根据图像的标签构建标签相似矩阵,流形相似度根据图像之间的欧氏距离定义相似度;2)根据求得的标签相似矩阵,将所有图像分块,标签一致的图像分在一个块中;3)对于每一个块中的图像,利用流形相似度作为边的权值构建图,使用图分割算法为块中的所有图像初始化一位哈希码;4)将初始化的哈希码作为标签训练随机森林模型,模型的结果更新初始的哈希码;5)重复3)和4)直到达到预设的哈希码位数;6)保存所有随机森林模型,并将图像库中的图像映射为哈希码,得到与之对应的哈希码库;7)当用户输入一张待检索的图像时,随机森林模型将该图像映射为哈希码,在哈希码库中检索与之最近的K个哈希码,将这K个哈希码利用树的决策路径所定义的最大相容规则解码重构为图像返回给用户。

【技术特征摘要】
1.一种随机森林哈希的医学CT图像存储与检索方法,其特征在于,包括以下步骤:1)获取若干医学CT图像并作为训练集,计算所有医学CT图像的标签相似度和流形相似度,标签相似度直接根据图像的标签构建标签相似矩阵,流形相似度根据图像之间的欧氏距离定义相似度;2)根据求得的标签相似矩阵,将所有图像分块,标签一致的图像分在一个块中;3)对于每一个块中的图像,利用流形相似度作为边的权值构建图,使用图分割算法为块中的所有图像初始化一位哈希码;4)将初始化的哈希码作为标签训练随机森林模型,模型的结果更新初始的哈希码;5)重复3)和4)直到达到预设的哈希码位数;6)保存所有随机森林模型,并将图像库中的图像映射为哈希码,得到与之对应的哈希码库;7)当用户输入一张待检索的图像时,随机森林模型将该图像映射为哈希码,在哈希码库中检索与之最近的K个哈希码,将这K个哈希码利用树的决策路径所定义的最大相容规则解码重构为图像返回给用户。2.根据权利要求1所述的随机森林哈希的医学CT图像存储与检索方法,其特征在于,所述步骤1)标签相似度的计算方法为:标签一致即为相似设为1,标签不一致即为不相似设为-1,无定义则设为0。模型的目标函数如下,i和j表示两张图像的索引,yij表示这两张图像的相似度,hr(x)表示哈希函数,Φ(·)表示哈希函数集,n表示图像的总数量,k表示哈希码位数,r表示哈希码的索引:3.根据权利要求1所述的随机森林哈希的医学CT图像存储与...

【专利技术属性】
技术研发人员:曾宪华周萌
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1