演示文稿的识别方法和装置、电子设备和存储介质制造方法及图纸

技术编号:38088902 阅读:7 留言:0更新日期:2023-07-06 08:59
本公开涉及演示文稿的识别方法和装置、电子设备和存储介质,涉及计算机技术领域。该演示文稿的识别方法包括:获取演示文稿中的目标页面,其中,所述目标页面是所述演示文稿中的任一页面;提取所述目标页面的结构特征,并提取所述目标页面的内容特征;将所述目标页面的结构特征和所述目标页面的内容特征输入至页面类型识别模型中,通过所述页面类型识别模型识别出所述目标页面的类型。该演示文稿的识别方法可以提升识别准确性。方法可以提升识别准确性。方法可以提升识别准确性。

【技术实现步骤摘要】
演示文稿的识别方法和装置、电子设备和存储介质


[0001]本公开涉及计算机
,更具体地,涉及演示文稿的识别方法和装置、电子设备和存储介质。

技术介绍

[0002]随着编辑软件的发展,用户对软件功能提出了更高的要求,希望软件具有自动美化幻灯片页面(以下简称为页面)的功能。为了更好的支持这一功能,需要对演示文稿的页面的页面类型进行识别,在美化时根据页面类型确定美化策略以进行针对性的美化处理。通常是由用户确定页面的类型,选取出与该页面对应的美化策略,这一过程需要用户参与、不够友好方便。因此,有必要提供一种更准确、更通用的识别演示文稿页面类型的方案。

技术实现思路

[0003]本公开实施例的一个目的是提供演示文稿的识别方法和装置、电子设备和存储介质,可以准确识别出文稿的页面的类型并且具有更好的通用性。
[0004]根据本公开的实施例的第一方面,提供了演示文稿的识别方法。
[0005]该演示文稿的识别方法,包括:
[0006]获取演示文稿中的目标页面,其中,所述目标页面是所述演示文稿中的任一页面;
[0007]提取所述目标页面的结构特征,并提取所述目标页面的内容特征;
[0008]将所述目标页面的结构特征和所述目标页面的内容特征输入至页面类型识别模型中,通过所述页面类型识别模型识别出所述目标页面的类型。
[0009]可选地,所述页面类型识别模型包括分类网络和至少一个全连接网络;所述通过所述页面类型识别模型识别出所述目标页面的类型,包括:通过所述全连接网络将所述目标页面的结构特征和所述目标页面的内容特征拼接成所述目标页面的特征矩阵,并对所述目标页面的特征矩阵进行向量处理得到中间向量;通过所述分类网络对所述中间向量进行分类处理,得到所述目标页面的类型。
[0010]可选地,在将所述目标页面的结构特征和所述目标页面的内容特征输入至页面类型识别模型中之前,所述方法还包括:提取所述目标页面的图像特征;所述将所述目标页面的结构特征和所述目标页面的内容特征输入至页面类型识别模型中,包括:将所述目标页面的结构特征、所述目标页面的内容特征和所述目标页面的图像特征输入至页面类型识别模型中。
[0011]可选地,所述提取所述目标页面的图像特征,包括:将所述目标页面转换为第一图片;对所述第一图片进行灰度处理,得到第二图片;对所述第二图片进行压缩处理,得到第三图片;将所述第三图片输入至预先训练好的图片特征提取模型中,提取出所述第三图片的特征作为所述目标页面的图像特征。
[0012]可选地,所述提取所述目标页面的内容特征,包括:将所述目标页面中的所有文字排列成第一序列;将所述第一序列输入至预先训练好的孪生神经网络中,提取出所述第一
序列的特征作为所述目标页面的内容特征。
[0013]可选地,在将所述目标页面的结构特征和所述目标页面的内容特征输入至页面类型识别模型中之前,所述方法还包括:提取所述目标页面的文件名特征;所述将所述目标页面的结构特征和所述目标页面的内容特征输入至页面类型识别模型中,包括:将所述目标页面的结构特征、所述目标页面的内容特征和所述目标页面的文件名特征输入至页面类型识别模型中。
[0014]可选地,所述提取所述目标页面的文件名特征,包括:将所述演示文稿的文件名中的所有文字排列成第二序列;将所述第二序列输入至预先训练好的孪生神经网络中,提取出所述第二序列的特征作为所述目标页面的文件名特征。
[0015]可选地,所述提取所述目标页面的结构特征,包括:对所述目标页面进行解析,确定所述目标页面的第一结构特征值和所述目标页面的第二结构特征值;所述目标页面的第一结构特征值表征所述目标页面中含有的预设结构的数量;所述目标页面的第二结构特征值表征所述目标页面中含有的预设结构的平均面积;将所述目标页面的第一结构特征值和所述目标页面的第二结构特征值作为所述目标页面的结构特征。
[0016]可选地,在将所述目标页面的结构特征和所述目标页面的内容特征输入至页面类型识别模型中之前,所述方法还包括:提取所述目标页面的页面属性特征;所述将所述目标页面的结构特征和所述目标页面的内容特征输入至页面类型识别模型中,包括:将所述目标页面的结构特征、所述目标页面的内容特征和所述目标页面的页面属性特征输入至页面类型识别模型中。
[0017]可选地,所述提取所述目标页面的页面属性特征,包括:提取所述目标页面中文字的字号,作为所述目标页面的字号属性特征值;检测所述目标页面中是否含有预设关键词,根据检测结果确定所述目标页面的关键词属性特征值;根据所述目标页面是否为所述演示文稿的第一页,确定所述目标页面的首页属性特征值;根据所述目标页面是否为所述演示文稿的最后一页,确定所述目标页面的尾页属性特征值;将所述目标页面的字号属性特征值、所述目标页面的关键词属性特征值、所述目标页面的首页属性特征值和所述目标页面的尾页属性特征值作为所述目标页面的页面属性特征。
[0018]根据本公开的实施例的第二方面,提供了演示文稿的识别装置。
[0019]该演示文稿的识别装置包括:
[0020]获取模块,用于获取演示文稿中的目标页面,其中,所述目标页面是所述演示文稿中的任一页面;
[0021]第一提取模块,用于提取所述目标页面的结构特征;
[0022]第二提取模块,用于提取所述目标页面的内容特征;
[0023]识别模块,用于将所述目标页面的结构特征和所述目标页面的内容特征输入至页面类型识别模型中,通过所述页面类型识别模型识别出所述目标页面的类型。
[0024]可选地,所述页面类型识别模型包括分类网络和至少一个全连接网络;所述通过所述页面类型识别模型识别出所述目标页面的类型,包括:通过所述全连接网络将所述目标页面的结构特征和所述目标页面的内容特征拼接成所述目标页面的特征矩阵,并对所述目标页面的特征矩阵进行向量处理得到中间向量;通过所述分类网络对所述中间向量进行分类处理,得到所述目标页面的类型。
[0025]可选地,该演示文稿的识别装置还包括第三提取模块。所述第三提取模块用于提取所述目标页面的图像特征。所述识别模块,具体用于将所述目标页面的结构特征、所述目标页面的内容特征和所述目标页面的图像特征输入至页面类型识别模型中,通过所述页面类型识别模型识别出所述目标页面的类型。
[0026]可选地,所述提取所述目标页面的图像特征,包括:将所述目标页面转换为第一图片;对所述第一图片进行灰度处理,得到第二图片;对所述第二图片进行压缩处理,得到第三图片;将所述第三图片输入至预先训练好的图片特征提取模型中,提取出所述第三图片的特征作为所述目标页面的图像特征。
[0027]可选地,所述提取所述目标页面的内容特征,包括:将所述目标页面中的所有文字排列成第一序列;将所述第一序列输入至预先训练好的孪生神经网络中,提取出所述第一序列的特征作为所述目标页面的内容特征。
[0028]可选地,该演示文稿的识别装置还包括第四提取模块。所述第四提取模块,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种演示文稿的识别方法,其特征在于,包括:获取演示文稿中的目标页面,其中,所述目标页面是所述演示文稿中的任一页面;提取所述目标页面的结构特征,并提取所述目标页面的内容特征;将所述目标页面的结构特征和所述目标页面的内容特征输入至页面类型识别模型中,通过所述页面类型识别模型识别出所述目标页面的类型。2.根据权利要求1所述的方法,其特征在于,所述页面类型识别模型包括分类网络和至少一个全连接网络;所述通过所述页面类型识别模型识别出所述目标页面的类型,包括:通过所述全连接网络将所述目标页面的结构特征和所述目标页面的内容特征拼接成所述目标页面的特征矩阵,并对所述目标页面的特征矩阵进行向量处理得到中间向量;通过所述分类网络对所述中间向量进行分类处理,得到所述目标页面的类型。3.根据权利要求1所述的方法,其特征在于,在将所述目标页面的结构特征和所述目标页面的内容特征输入至页面类型识别模型中之前,所述方法还包括:提取所述目标页面的图像特征;所述将所述目标页面的结构特征和所述目标页面的内容特征输入至页面类型识别模型中,包括:将所述目标页面的结构特征、所述目标页面的内容特征和所述目标页面的图像特征输入至页面类型识别模型中。4.根据权利要求3所述的方法,其特征在于,所述提取所述目标页面的图像特征,包括:将所述目标页面转换为第一图片;对所述第一图片进行灰度处理,得到第二图片;对所述第二图片进行压缩处理,得到第三图片;将所述第三图片输入至预先训练好的图片特征提取模型中,提取出所述第三图片的特征作为所述目标页面的图像特征。5.根据权利要求1所述的方法,其特征在于,所述提取所述目标页面的内容特征,包括:将所述目标页面中的所有文字排列成第一序列;将所述第一序列输入至预先训练好的孪生神经网络中,提取出所述第一序列的特征作为所述目标页面的内容特征。6.根据权利要求1所述的方法,其特征在于,在将所述目标页面的结构特征和所述目标页面的内容特征输入至页面类型识别模型中之前,所述方法还包括:提取所述目标页面的文件名特征;所述将所述目标页面的结构特征和所述目标页面的内容特征输入至页面类型识别模型中,包括:将所述目标页面的结构特征、所述目标页面的内容特征和所述目标页面的文件名特征输入至页面类型识别模型中。7.根据权利要求6所述的方法,其特征在于,所述提取所述目标页面的文件名特征,包括:将所述演示文稿的文件名中的所有文字排列成第二序列;将所述第二序列输入至预先训练好的孪生神经网络中,提取出所述第二序...

【专利技术属性】
技术研发人员:潘云嵩张家瑞宋超
申请(专利权)人:珠海金山办公软件有限公司北京金山办公软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1