基于非负张量分解的时序可视媒体语义索引精度增强方法技术

技术编号：18553770 阅读：19 留言：0更新日期：2018-07-28 10:51

本发明专利技术涉及一种基于非负张量分解的时序可视媒体语义索引精度增强方法，属于视觉媒体处理技术领域。首先，对时序可视媒体中包含的物体和场景进行语义索引，构建置信度张量，通过阈值判断筛选出部分元素，应用加权非负张量分解的方法对筛选后的张量进行重新估计，完成精度增强。本发明专利技术的优点是利用时序语义关系，增强了时序可视媒体语义索引的准确率。本方法不依赖于大量标注数据集和知识库，具有很强的灵活性和适应性。采用加权非负张量分解，提高了方法的灵活性和效果。算法的计算复杂度低，可扩展性强，适合于实际工业应用。

全部详细技术资料下载

【技术实现步骤摘要】
基于非负张量分解的时序可视媒体语义索引精度增强方法
本专利技术涉及一种基于非负张量分解的时序可视媒体语义索引精度增强方法，属于视觉媒体处理

技术介绍
可视媒体语义索引的精度增强是利用概念相关性对索引结果进行进一步改善的关键技术。这种索引增强技术的作用是给出可视媒体进行概念探测的结果，对概念探测的结果应用概念的量化关系进行调整和改善，以达到对大量可视媒体有效索引的目的。专利技术名称为“一种用于可视媒体语义索引的精度增强方法”(申请号：201610108055.3)的专利申请公开了一种全局增强和局部增强相结合的方式，对可视媒体语义索引的结果进行改善。但是在全局增强过程中，该专利申请采用的加权矩阵分解的方法，无法更好地利用时序可视媒体中语义概念出现的时间特征，故在时序可视媒体语义索引精度增强的过程中还存在改善的空间。尤其随着图像流、视频等时序可视媒体体量的快速增长，对时序可视媒体如可穿戴视觉采集设备记录的连续图像流或者视频的有效索引具有很高的应用价值。对时序可视媒体语义索引的精度增强方法同样需要满足如下要求：1)对语义概念索引的灵活性；2)对不同数量和质量的标注数据的适应性；3)对大规模样本数据的扩展性。在时序可视媒体语义索引增强的过程中，应该尽量保证上述三点，这样才能保证增强方法在视觉大数据上的灵活应用，从而达到预期的效果。
技术实现思路
本专利技术的目的是提出一种基于非负张量分解的时序可视媒体语义索引精度增强方法，以应对当前单类概念探测器造成的概念探测精度低及不均衡的问题，既可应对普通的索引精度增强任务，也可处理由于外部知识或标注数据不足造成的概念相关...

【技术保护点】
1.一种基于非负张量分解的时序可视媒体语义索引精度增强方法，其特征在于该方法包括以下步骤：(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引，得到时序可视媒体语义索引的初始探测置信度值，根据所有初始探测置信度值得到一个张量T(Tijk)N×M×L，其中，L表示时序可视媒体按固定时间间隔切分成段的分段总数量，N表示每个时间间隔中所包含的连续图片的数量，M表示时序可视媒体中的概念的个数，张量T中的每个元素Tijk表示在第k个时间间隔中第i个图片对第j个概念的探测置信度值，1≤k≤L；(2)设定一个探测置信度阈值，分别将上述张量T中的初始探测置信度值即每个元素Tijk与设定的探测置信度阈值进行比较，若张量T中的初始探测置信度值大于或等于设定的探测置信度阈值，则保留初始探测置信度值，若张量T中的初始探测置信度值小于设定的探测置信度阈值，则将初始探测置信度值更新为0，并将更新后的张量记为T”，将张量T”中的每个元素记为T”ijk,其中，1≤i≤N,1≤j≤M,1≤k≤L；(3)采用加权非负张量分解方法对上述更新后的张量T”进行加权非负张量分解，得到精度增强后的时序可视媒体语义索引，记为张...

【技术特征摘要】
1.一种基于非负张量分解的时序可视媒体语义索引精度增强方法，其特征在于该方法包括以下步骤：(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引，得到时序可视媒体语义索引的初始探测置信度值，根据所有初始探测置信度值得到一个张量T(Tijk)N×M×L，其中，L表示时序可视媒体按固定时间间隔切分成段的分段总数量，N表示每个时间间隔中所包含的连续图片的数量，M表示时序可视媒体中的概念的个数，张量T中的每个元素Tijk表示在第k个时间间隔中第i个图片对第j个概念的探测置信度值，1≤k≤L；(2)设定一个探测置信度阈值，分别将上述张量T中的初始探测置信度值即每个元素Tijk与设定的探测置信度阈值进行比较，若张量T中的初始探测置信度值大于或等于设定的探测置信度阈值，则保留初始探测置信度值，若张量T中的初始探测置信度值小于设定的探测置信度阈值，则将初始探测置信度值更新为0，并将更新后的张量记为T”，将张量T”中的每个元素记为T”ijk,其中，1≤i≤N,1≤j≤M,1≤k≤L；(3)采用加权非负张量分解方法对上述更新后的张量T”进行加权非负张量分解，得到精度增强后的时序可视媒体语义索引，记为张量T'，具体包括以下步骤：(3-1)构建三个初始非负矩阵及其中K为一个设定参数，取值范围为[M/2,2M]；(3-2)构建一个权重张量W，W＝(Wijk)N×M×L...

【专利技术属性】
技术研发人员：王鹏，孙立峰，杨士强，晏晨，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人