当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于融合特征的文物推荐算法制造技术

技术编号:32130031 阅读:16 留言:0更新日期:2022-01-29 19:27
本发明专利技术为了更好的文物推荐效果,让用户兴趣与推荐结果有更好的匹配程度,提出了一种基于融合特征的文物推荐算法,其中融合特征分别指文物文本特征和文物图像特征。在文本特征提取中,涉及到文物名称中关键信息提取,本文提出基于匹配规则和基于统计的方法结合对文物名称分词,方便后续文本向量化;针对文物文本向量化过程中采用doc2vec方式来提取向量,每一类型文物分别对应一种文本模型,这样提高同类文物向量相似度;文物图像特征提取应用Alexnet网络,且保证数据充足训练量。在特征融合层面,本发明专利技术是分别计算文物文本相似度和图像相似度,而后计算综合数值=α图像相似度+β文本相似度,其中α+β=1,首先计算图像相似度保证了文物在形状上相似,而计算文本相似度是对文物细节特征补充,两者的综合特征能提升推荐或搜索满意度。而为了搜索速度,提出应用KD树来存储特征数据,并用KNN算法来提高搜索效率,与传统链式检索效率有明显提升。最后提出文物推荐系统的原型图,让用户可以测试文物推荐的结果满意度与推荐速度满意度。物推荐的结果满意度与推荐速度满意度。物推荐的结果满意度与推荐速度满意度。

【技术实现步骤摘要】
一种基于融合特征的文物推荐算法


[0001]本专利技术涉及到的
包括文物数据的爬取和提取、图像特征提取、文本特征提取和推荐方法的有效结合,是一种基于融合特征的文物推荐算法。

技术介绍

[0002]文物是人类文明的见证者和记录者,不仅仅是一件件展览品,它更反映的是所处年代的生活水平、技术水平以及艺术水平,文物的价值不单纯局限于它的艺术价值,它更能让当代人去了解古人的生活状态。近些年来随着人民生活质量提高,精神文明需求不断增加,越来越多的人喜欢去欣赏文物和了解古代文明,而逛博物馆是最简单的了解文物的方式。
[0003]图像特征提取包括了最原始的感知哈希值算法,粗略计算两张图片的相似度;而SIFT特征提取向量,这种算法极大提高了图片相似度计算的特征,但是方法计算复杂度很高,后续出现提出用积分图的方式来代替PCA

SIFT算法加速图像卷积速度,也就是SURF方法[1][2][3]。而随着近几年深度学习领域各种方法不断被改进,人们开始使用卷积神经网络(CNN)来提取图像特征,经典的CNN网络包括Alexnet、VGG等,而CNN提取图像特征的方法也被证明是有效的。
[0004]文本特征提取,也就是将文本转换为计算机可以理解的向量语言,按照方法大致可以分为两类:离散式表示和分布式表示。离散式表示涉及到的方法包括了one

hot编码、词袋模型等,而离散式方法的最大问题就是忽略了词语顺序对表达的影响,不包含语义信息;分布式模型在考虑一个词语时候会加入其周围的词语,改善了离散式方法忽略语义信息的问题,从最开始的N

gram模型到后来的NNLM模型,再到2014年Mikolov总结前人方法,提出了Word2vec以及Doc2Vec,文本特征提取向量的准确度在不断提高[4][5]。2018年底Google发布预训练模型Bert,该模型通过巨量的数据训练来强化词语表达能力,后续人员可以利用训练好的模型提取文本向量,而后应用于各类下游任务,且在各类任务Bert都取得了明显效果提升[6]。
[0005]将有效信息推送给用户,提高时间效率,各种各样的推荐算法出现并被用于各类app中,比如在淘宝中有商品推荐、抖音有短视频推荐以及各类新闻app也会推送感性的文本信息。我们也希望在浏览文物或者逛展会的过程中也可以推荐或者搜索相关文物,这样就可以加深对一类文物的理解。针对图像搜索领域或者说是推荐领域的方法很多都是单纯图像特征,而就文物信息来说其包含的文本信息特征没有使用到,也导致了推荐结果与用户兴趣相去甚远[7][8]。
[0006]我们在本文中考虑基于文物的图像特征和文本特征的融合特征来做文物相关性搜索或推荐,从而提高推荐的准确度;另一方面也通过改变数据储存方式和搜索算法来提高文物搜索的效率。

技术实现思路

[0007]本专利技术为了更好的文物推荐效果,让用户兴趣与推荐结果有更好的匹配程度,提出了一种基于融合特征的文物推荐算法,其中融合特征分别指文物文本特征和文物图像特征。在文本特征提取中,涉及到文物名称中关键信息提取,本文提出基于匹配规则和基于统计的方法结合对文物名称分词,方便后续文本向量化;针对文物文本向量化过程中采用doc2vec方式来提取向量,每一类型文物分别对应一种文本模型,这样提高同类文物向量相似度;文物图像特征提取应用Alexnet网络,且保证数据充足训练量。在特征融合层面,本专利技术是分别计算文物文本相似度和图像相似度,而后计算综合数值=α图像相似度+β文本相似度,其中α+β=1,首先计算图像相似度保证了文物在形状上相似,而计算文本相似度是对文物细节特征补充,两者的综合特征能提升推荐或搜索满意度。而为了搜索速度,提出应用KD树来存储特征数据,并用KNN算法来提高搜索效率,与传统链式检索效率有明显提升。最后提出文物推荐系统的原型图,让用户可以测试文物推荐的结果满意度与推荐速度满意度。
[0008]一种基于融合特征的文物推荐方法,大致步骤如下描述:
[0009]1)构建文物数据集,通过网络爬虫、书籍扫描等方式获得文物数据,其中包括了文物名称、馆藏地、类型等文本信息,也包括了文物图片图像信息,另外通过扫描获得文物数据还包括了文物详细描述信息,而后文物名称字段分词;
[0010]2)利用文物文本中文物名称,构建文本模型,提取文本向量,而后用于特征相似性计算;
[0011]3)搭建Alexnet网络结构,利用文物图片进行训练,而后用模型提取文物图片特征,用于特征相似性计算;
[0012]4)应用KD树来存储对应的高维向量,并结合KNN算法来对相似向量检索,提高检索效率;
[0013]5)设计文物推荐界而原型,通过原型可以测试提到的各种技术。
附图说明
[0014]图1是本专利技术的流程图
[0015]图2是本专利技术的图像特征提取网络结构
[0016]图3是本专利技术的文物推荐测试平台原型界面
具体实施方式
[0017]为了更加清楚明白的阐述本专利技术的目的、技术过程及优点,以下将参照附图并列举实施例,进一步对本专利技术进行详细说明。
[0018]本专利技术提出了一种基于融合特征的文物推荐方法,融合特征指文物的文本特征和图像特征,其主要步骤包括:构建文物数据集、文物文本特征提取、文物图像特征提取、文物融合特征计算、搜索效率提升以及相关人员评测。
[0019]步骤1:构建文物数据集,该步骤可以分为以下个小步骤:
[0020](i)通过数据申请、网络爬虫等技术获得需要文物数据,这部分文物数据包括名称、馆藏地、时间、类型以及文物图片;
[0021](ii)通过图像扫描技术获得文物数据,选取了青铜器、瓷器、敦煌壁画以及服饰等书籍,获得了精品文物信息,这部分数据除了名称、类型、时间和图片等基础内容,还包括了对文物纹饰、内容的详细解读信息;
[0022](iii)对获取的文献数据进行数据清洗,需要将数据中包含重复信息、部分内容不全的数据进行剔除,部分文物图片内容角度不对的也需要删除;
[0023](iv)文物分词针对文物名称数据分词,因文物名称中包含了年代、类型、材质、描述信息等内容,现成的方法很难对文物这种特殊类型取得好的分词效果,因此本专利技术提出基于匹配规则和基于内容融合的方法来对文物分词,采用这种方法的主要原因是文物命名有基本规则“年代+描述特征+材质+器型”,可能命名中有部分信息省略,因此可以首先基于针对基于匹配规则对文物分词,需要构建了文物领域特殊的朝代、类型、材质等文物领域词典,词典并没有可以借鉴的内容,需要自己构建;
[0024](v)数据整理将分词后的文物数据与文物图片按照统一顺序整理,保证每一张图片都有对应的描述信息文本,而扫描部分图片需要有对应的详细描述信息,后续对文物文本特征提取就可以直接直接利用分词好的数据。
[0025]步骤2:利用文物名称信息,提取文物文本特征:
[0026](i)选用Doc2Vec来对不定长的题目字段学习本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于融合特征的文物推荐方法,其特征在于,综合考虑文物中的文本特征和图像特征作为推荐依据,并改进高维数据存储方式和检索方式,来提高相似文物检索效率,具体步骤包括:1)构建文物数据集,通过网络爬虫、书籍扫描等方式获得文物数据,其中包括了文物名称、馆藏地、类型等文本信息,也包括了文物图片图像信息,另外通过扫描获得文物数据还包括了文物详细描述信息,而后文物名称字段分词;2)利用文物文本中文物名称,构建文本模型,提取文本向量,而后用于特征相似性计算;3)搭建Alexnet网络结构,利用文物图片进行训练,而后用模型提取文物图片特征,用于特征相似性计算;4)应用KD树来存储对应的高维向量,并结合KNN算法来对相似向量检索,提高检索效率;5)设计文物推荐界面原型,通过原型可以测试提到的各种技术。2.根据权力要求1所述基于融合特征的文物推荐算法,在文物推荐领域第一次考虑到将文物文本特征和图像特征联合起来做相似性计算,提高推荐准确率,这种方式可以补充文物细节相似,同时也根据数据特点提出应用“KD树+KNN算法”的方式提高数据储存和检索,整个流程在相似文物推荐中首次提出,有独创性;3.根据要求1中所述步骤1)具体步骤中涉及的文物名称分词,在这一步中针对文物名称为“年代+描述符+材质+器型”的特点,提出应用基于词典和基于内容组合的方式对文物分词,提高...

【专利技术属性】
技术研发人员:梁振均潘刚牛志彬
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1