识别演示文稿内图片类型的方法及装置、电子设备制造方法及图纸

技术编号:38892512 阅读:11 留言:0更新日期:2023-09-22 14:16
本申请涉及智能办公技术领域,公开了一种识别演示文稿内图片类型的方法。该识别演示文稿内图片类型的方法包括:获得演示文稿内的图片以及文本框中的文本内容;提取文本框中的文本内容的文本特征向量,以及提取图片的图片特征向量;拼接文本特征向量以及图片特征向量,获得待识别特征向量;对待识别特征向量进行识别,获得图片的类型。采用该识别演示文稿内图片类型的方法可识别出符合演示文稿的演示场景的图片类型,便于继续为用户推荐相关操作,以提高用户的使用体验。本申请还公开一种识别演示文稿内图片类型的装置、电子设备和存储介质。质。质。

【技术实现步骤摘要】
识别演示文稿内图片类型的方法及装置、电子设备


[0001]本申请涉及智能办公
,例如涉及一种识别演示文稿内图片类型的方法及装置、电子设备。

技术介绍

[0002]如图1所示,现有演示文稿具备单页美化功能或全文美化功能,单页美化功能的作用范围是演示文稿的单一页面,全文美化功能的作用范围是完整的演示文稿。单页美化或全文美化均需要获得页面的类型,并根据页面的类型提供相应美化方案。以下结合图2对现有技术中的单页美化功能进行进一步说明:首先确定当前页的页面类型,页面类型可包括封面、目录、章节页、正文页以及结束页,再展示当前页的页面类型对应的多种美化风格,以供用户选择。
[0003]在实现本申请实施例的过程中,发现相关技术中至少存在如下问题:
[0004]用户在演示文稿中插入不同类型的图片后,通常会有对应于图片类型的相关操作,例如,在图片类型为标志(Logo)的情况下,则应当使该插图缩小居边,而不是放大居中;若实现为不同类型的图片推荐对应的操作,则首先需要对演示文稿内包含的图片进行分类。现有技术仅可对演示文稿的页面类型进行分类,无法对演示文稿内包含的图片进行分类,进而无法为不同类型的图片提供对应的操作。

技术实现思路

[0005]为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
[0006]本申请实施例提供了一种识别演示文稿内图片类型的方法及装置、电子设备,以在用户操作需求的角度,对演示文稿中的图片类型进行识别,以便于继续为用户推荐与图片类型对应的操作。
[0007]在一些实施例中,识别演示文稿内图片类型的方法包括:获得演示文稿中的图片以及文本框中的文本内容;提取所述文本框中的文本内容的文本特征向量,以及提取所述图片的图片特征向量;拼接所述文本特征向量以及所述图片特征向量,获得待识别特征向量;对所述待识别特征向量进行分类处理,获得所述图片的类型。
[0008]可选地,获得演示文稿中的文本框中的文本内容,包括:获得演示文稿中的全部文本框;在全部文本框中选定设定数量的特征文本框;将所述特征文本框中的文本内容确定为演示文稿中的文本框中的文本内容;其中,所述特征文本框中文本内容的长度小于或等于全部文本框中除所述特征文本框之外的文本框中的文本内容的长度。
[0009]可选地,在所述全部文本框的数量小于所述设定数量的情况下,以空文本框补足。
[0010]可选地,提取文本框中的文本内容的文本特征向量,包括:提取每个文本框中的文本内容的子文本特征向量;拼接全部子文本特征向量,获得所述文本特征向量。
[0011]可选地,提取每个文本框中文本内容的子文本特征向量,包括:针对每个所述文本框执行以下处理:将文本框中文本内容进行文本嵌入和位置嵌入,获得原始嵌入向量;利用至少一个子编码器对所述原始嵌入向量依次进行编码处理;将最后一个子编码器的输出确定为所述子文本特征向量。
[0012]可选地,获得每个文本框中文本内容的子文本特征向量,包括:针对每个所述文本框执行以下处理:通过孪生神经网络(Siamese Neural Network)的子网络对所述文本框的文本内容进行特征提取处理,得到所述文本框中文本内容的子文本特征向量;其中,所述孪生神经网络输出的相似度用于表示所述孪生神经网络在训练过程中的训练目标。
[0013]可选地,提取所述图片的图片特征向量,包括:利用卷积神经网络的每个输入通道对应的卷积核对所述图片进行卷积处理,获得多个卷积输出量;利用单个卷积核对多个卷积输出量进行线性化组合,以获得所述图片特征向量。
[0014]可选地,对所述待识别特征向量进行识别,获得所述图片的类型,包括:
[0015]将所述待识别特征向量进行至少一次特征表征整合处理,以获得特征表征整合向量;将所述特征表征整合向量确定为分类器的输入量;根据所述分类器的输出量确定所述图片的类型。
[0016]在一些实施例中,识别演示文稿内图片类型的装置包括获得模块、提取模块、拼接模块和识别模块;所述获得模块用于获得演示文稿中的图片以及文本框中的文本内容;所述提取模块用于提取所述文本框中的文本内容的文本特征向量,以及提取所述图片的图片特征向量;所述拼接模块用于拼接所述文本特征向量以及所述图片特征向量,获得待识别特征向量;所述识别模块用于对所述待识别特征向量进行分类处理,获得所述图片的类型。
[0017]可选地,所述获得模块包括第一获得单元、选定单元和第一确定单元;所述第一获得单元用于获得演示文稿中的全部文本框;所述选定单元用于在全部文本框中选定设定数量的特征文本框;所述第一确定单元用于将所述特征文本框中的文本内容确定为演示文稿中的文本框中的文本内容;其中,所述特征文本框中文本内容的长度小于或等于全部文本框中除所述特征文本框之外的文本框中的文本内容的长度。
[0018]可选地,所述提取模块包括提取单元和第二获得单元;所述提取单元用于获得每个文本框中文本内容的子文本特征向量;所述第二获得单元用于拼接全部子文本特征向量,获得所述文本特征向量。
[0019]可选地,所述提取单元具体用于针对每个所述文本框执行如下处理:将所述文本框中文本内容进行文本嵌入和位置嵌入,获得原始嵌入向量;利用至少一个子编码器对所述原始嵌入向量依次进行编码处理;将最后一个子编码器的输出确定为所述子文本特征向量。
[0020]可选地,所述提取单元具体用于针对每个所述文本框执行如下处理:通过孪生神经网络的子网络对所述文本框的文本内容进行特征提取处理;得到所述文本框中文本内容的子文本特征向量;其中,所述孪生神经网络输出的相似度用于表示所述孪生神经网络在训练过程中的训练目标。
[0021]可选地,所述提取模块包括第三获得单元,所述第三获得单元用于利用卷积神经网络的每个输入通道对应的卷积核对所述图片进行卷积处理,获得多个卷积输出量;利用单个卷积核对多个卷积输出量进行线性化组合,以获得所述图片特征向量。
[0022]可选地,所述识别模块包括第四获得单元、第二确定单元和第三确定单元;所述第四获得单元用于将所述待识别特征向量进行至少一次特征表征整合处理,以获得特征表征整合向量;所述第二确定单元用于将所述特征表征整合向量确定为分类器的输入量;所述第三确定单元用于根据所述分类器的输出量确定所述图片的类型。
[0023]在一些实施例中,电子设备包括处理器和存储有程序指令的存储器,所述处理器被配置为在执行所述程序指令时,执行前述实施例提供的识别演示文稿内图片类型的方法。
[0024]在一些实施例中,存储介质存储有程序指令,所述程序指令在运行时执行前述实施例提供的识别演示文稿内图片类型的方法。
[0025]本申请实施例提供的识别演示文稿内图片类型的方法及装置、电子设备,可以实现以下技术效果:
[0026]在演示文稿中通常存在文本内容以及图片,结合文本内容的特征与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别演示文稿内图片类型的方法,其特征在于,包括:获得演示文稿中的图片以及文本框中的文本内容;提取所述文本框中的文本内容的文本特征向量,以及提取所述图片的图片特征向量;拼接所述文本特征向量以及所述图片特征向量,获得待识别特征向量;对所述待识别特征向量进行分类处理,获得所述图片的类型。2.根据权利要求1所述的方法,其特征在于,获得演示文稿中的文本框中的文本内容,包括:获得演示文稿中的全部文本框;在全部文本框中选定设定数量的特征文本框;将所述特征文本框中的文本内容确定为演示文稿中的文本框中的文本内容;其中,所述特征文本框中文本内容的长度小于或等于全部文本框中除所述特征文本框之外的文本框中的文本内容的长度。3.根据权利要求1所述的方法,其特征在于,提取文本框中的文本内容的文本特征向量,包括:提取每个文本框中的文本内容的子文本特征向量;拼接全部子文本特征向量,获得所述文本特征向量。4.根据权利要求3所述的方法,其特征在于,提取每个文本框中的文本内容的子文本特征向量,包括:针对每个所述文本框执行以下处理:将所述文本框中的文本内容进行文本嵌入处理和位置嵌入处理,获得原始嵌入向量;利用至少一个子编码器对所述原始嵌入向量依次进行编码处理;将最后一个子编码器的输出确定为所述子文本特征向量。5.根据权利要求3所述的方法,其特征在于,提取每个文本框中的文本内容的子文本特征向量,包括:针对每个所述文本框执行以下处理:通过孪生神经网络的子网络对所述文本框的文本内容进行特征提取处理,得到所述文本框...

【专利技术属性】
技术研发人员:潘云嵩张家瑞宋超
申请(专利权)人:北京金山办公软件股份有限公司武汉金山办公软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1