图文匹配方法、装置及存储介质制造方法及图纸

技术编号：21454162 阅读：44 留言：0更新日期：2019-06-26 04:51

本申请实施例提供一种图文匹配方法、装置及存储介质，本申请可以线下训练好用来估计图片与文本信息相关度的图文匹配预估模型，该图文匹配预估模型能够建立文本与图片之间更加可靠的关联，这样，在需要线上为某文章配图的情况下，可以向服务器上传相应的待配图文本，以使服务器先从图库中筛选与待配图文本关联的多个候选图片，之后，再利用该图文匹配模型，从这多个候选图片中，精确选择与待配图文本相关度较高的第一数量个候选图片，并反馈至客户端进行展示，此时，用户只需要从服务器反馈的有限个与待发布文章相关度较高的候选图片中，选择所需图片即可，不需要从大量图片中进行选择，极大减小了配图工作量，且提高了图文匹配正确率。

全部详细技术资料下载

【技术实现步骤摘要】
图文匹配方法、装置及存储介质
本申请涉及通信
，具体涉及一种图文匹配方法、装置及存储介质。
技术介绍
随着信息技术的快速发展以及网络的全球化，用户对多媒体的需求越来越高。例如，用户在新闻平台阅读新闻，更希望阅读图文并茂的新闻，而不仅仅是纯文本的新闻；或者用户在互动问答平台搜索问题时，更愿意选择具有配图的问答查看。因此，为了提高阅读量，更好地为用户服务，这些应用平台在发布文本信息时，通常会为其配置图片，这使得图文匹配成为技术人员重要研究方向之一。在图文匹配任务中，图片与文本的相关度往往是核心工作，现有技术中，通常是由用户从图片数据集合中，人工挑选与待配图文本相关度较高的图片，工作量非常大，且图文匹配准确率较低，不利于配图文本的推广。
技术实现思路
本申请实施例提供一种图文匹配方法、装置及存储介质，实现了图文自动匹配，无需人工筛选，大大降低了工作量，提高了图文匹配准确率。为实现上述目的，本申请实施例提供如下技术方案：一种图文匹配方法，所述方法包括：获取客户端发送的待配图文本；筛选与所述待配图文本关联的多个候选图片；将所述多个候选图片及所述待配图文本输入图文匹配模型，得到相应候选图片与所述待配图文本的相关度，所述图文匹配模型是依据注意力机制及三元组损失函数，利用样本图片中物体区域的视觉特征和位置特征，以及样本文件的单词特征和/或文本特征，进行深度学习网络训练得到的；将相关度较大的第一数量个候选图片反馈至所述客户端进行展示一种图文匹配装置，所述装置包括：第一获取模块，用于获取客户端发送的待配图文本；候选图片筛选模块，用于筛选与所述待配图文本关联的多个候选图片；模...

【技术保护点】
1.一种图文匹配方法，其特征在于，所述方法包括：获取客户端发送的待配图文本；筛选与所述待配图文本关联的多个候选图片；将所述多个候选图片及所述待配图文本输入图文匹配模型，得到相应候选图片与所述待配图文本的相关度，所述图文匹配模型是依据注意力机制及三元组损失函数，利用样本图片中物体区域的视觉特征和位置特征，以及样本文件的单词特征和/或文本特征，进行深度学习网络训练得到的；将相关度较大的第一数量个候选图片反馈至所述客户端进行展示。

【技术特征摘要】
1.一种图文匹配方法，其特征在于，所述方法包括：获取客户端发送的待配图文本；筛选与所述待配图文本关联的多个候选图片；将所述多个候选图片及所述待配图文本输入图文匹配模型，得到相应候选图片与所述待配图文本的相关度，所述图文匹配模型是依据注意力机制及三元组损失函数，利用样本图片中物体区域的视觉特征和位置特征，以及样本文件的单词特征和/或文本特征，进行深度学习网络训练得到的；将相关度较大的第一数量个候选图片反馈至所述客户端进行展示。2.根据权利要求1所述的方法，其特征在于，所述图文匹配模型的训练过程包括：获取样本图片及样本文本；利用循环神经网络，获取所述样本文本的单词特征；确定所述样本图片中的物体区域，并获取所述物体区域的视觉特征及位置特征；依据所述物体区域的位置特征、所述视觉特征及所述样本文本的单词特征，计算相应单词与所述物体区域的相关度；利用所述样本文本的各单词与各物体区域的相关度，得到所述样本文本与所述样本图片的相关度；基于三元组损失函数，对所述样本文本与所述样本图片的相关度、困难样本图片与所述样本文本的相关度、困难样本文本与所述样本图片的相关度进行网络训练，得到图文匹配模型；其中，所述困难样本图片是所述样本图片所在图片数据集中，除所述样本图片外，与所述样本文本相关度最高的图片；所述困难样本文本是所述样本文本所在文本数据集中，除所述样本文本外，与所述样本图片相关度最高的文本。3.根据权利要求2所述的方法，其特征在于，所述获取所述物体区域的位置特征，包括：将所述样本图片划分成多个大小相同的图片块，并为所述多个大小相同的图片块分配索引号；采用位置嵌入方式，利用各图片块的索引号，得到图片块的位置向量；计算各物体区域与所述图片块的重叠面积，并选择重叠面积较大的第一数量个图片块为相应物体区域的候选图片块；利用候选图片块的位置向量，得到相应物体区域的位置特征。4.根据权利要求3所述的方法，其特征在于，所述获取所述物体区域的位置特征，还包括：利用候选图片块的位置向量及相应物体区域的视觉特征，得到该物体区域的候选图片块对于该物体区域的重要度；基于注意力机制，利用所述候选图片块对于该物体区域的重要度，对所述物体区域的位置特征进行更新，得到所述物体区域的目标位置特征。5.根据权利要求2～4任一项所述的方法，其特征在于，所述依据所述物体区域的位置特征、所述视觉特征及所述样本文本的单词特征，计算相应单词与所述物体区域的相关度，包括：对所述物体区域的位置特征和视觉特征进行拼接，得到所述物体区域的视觉-位置联合特征；对所述视觉-位置联合特征进行编码处理，得到所述物体区域的视觉编码向量；利用所述物体区域的视觉编码向量及所述样本文本的单词特征，得到所述样本文本的视觉向量；利用...

【专利技术属性】
技术研发人员：杨皓，卢菁，李彪，王亚雄，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人