System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 演示文稿的识别方法和装置、电子设备和存储介质制造方法及图纸_技高网

演示文稿的识别方法和装置、电子设备和存储介质制造方法及图纸

技术编号:41194488 阅读:2 留言:0更新日期:2024-05-07 22:23
本公开涉及演示文稿的识别方法和装置、电子设备和存储介质,涉及计算机技术领域。该演示文稿的识别方法包括:获取包含多个页面的演示文稿;提取每个所述页面的内容特征;将所述演示文稿中的每个所述页面的内容特征输入至页面类型识别模型中,通过所述页面类型识别模型,识别出所述演示文稿中的每个所述页面的类型;其中,所述提取每个所述页面的内容特征,包括针对每个所述页面执行以下处理:对所述页面中的文本内容进行分词处理得到第一词语序列;利用第一词表对所述第一词语序列中的词语进行编码,得到所述第一词语序列的第一编码结果;基于所述第一词语序列的第一编码结果,提取所述页面的内容特征。该演示文稿的识别方法可以提升识别准确性。

【技术实现步骤摘要】

本公开涉及计算机,更具体地,涉及演示文稿的识别方法和装置、电子设备和存储介质


技术介绍

1、随着编辑软件的发展,用户对软件功能提出了更高的要求,希望软件具有自动美化幻灯片页面(以下简称为页面)的功能。为了更好的支持这一功能,需要对演示文稿的页面的页面类型进行识别,在美化时根据页面类型确定美化策略以进行针对性的美化处理。通常是由用户确定页面的类型,选取出与该页面对应的美化策略,这一过程需要用户参与、不够友好方便。因此,有必要提供一种可以更准确地识别文件页面类型的方案。


技术实现思路

1、本公开实施例的一个目的是提供演示文稿的识别方法和装置、电子设备和存储介质,可以准确识别出文件的页面的类型并且具有更好的通用性。

2、根据本公开的实施例的第一方面,提供了演示文稿的识别方法。

3、该演示文稿的识别方法,包括:获取包含多个页面的演示文稿;提取每个所述页面的内容特征;将所述演示文稿中的每个所述页面的内容特征输入至页面类型识别模型中,通过所述页面类型识别模型,识别出所述演示文稿中的每个所述页面的类型;其中,所述提取每个所述页面的内容特征,包括针对每个所述页面执行以下处理:对所述页面中的文本内容进行分词处理得到第一词语序列;利用第一词表对所述第一词语序列中的词语进行编码,得到所述第一词语序列的第一编码结果;基于所述第一词语序列的第一编码结果,提取所述页面的内容特征。

4、可选地,所述利用第一词表对所述第一词语序列中的词语进行编码,得到所述第一词语序列的第一编码结果,包括:在所述第一词表中查找目标词,所述目标词是所述第一词语序列中的任一个词语;在所述第一词表中存在所述目标词的情况下,从所述第一词表中获取所述目标词对应的编码值;在所述第一词表中不存在所述目标词的情况下,将目标编码值作为所述目标词的编码值,所述目标编码值与所述第一词表中的每一个编码值均不相同。

5、可选地,在将所述演示文稿中的每个所述页面的内容特征输入至页面类型识别模型中之前,所述方法还包括:提取每个所述页面的文件名特征;所述将所述演示文稿中的每个所述页面的内容特征输入至页面类型识别模型中,包括:将所述演示文稿中的每个所述页面的内容特征和文件名特征同时输入至页面类型识别模型中。

6、可选地,所述提取每个所述页面的文件名特征,包括:对所述演示文稿的文件名进行分词处理得到第二词语序列;利用所述第一词表对所述第二词语序列中的词语进行编码,得到第二所述词语序列的第二编码结果;基于所述第二词语序列的第二编码结果,提取每个所述页面的文件名特征。

7、可选地,在将所述演示文稿中的每个所述页面的内容特征输入至页面类型识别模型中之前,所述方法还包括:提取每个所述页面的页面属性特征;所述将所述演示文稿中的每个所述页面的内容特征输入至页面类型识别模型中,包括:将所述演示文稿中的每个所述页面的内容特征和页面属性特征同时输入至页面类型识别模型中。

8、可选地,所述提取每个所述页面的页面属性特征,包括:提取所述演示文稿的每个页面中文字的字号,作为每个页面的字号属性特征值;检测所述演示文稿的每个页面中是否含有预设关键词,根据检测结果确定每个页面的关键词属性特征值;根据所述演示文稿的每个页面是否为所述演示文稿的第一页,确定每个页面的首页属性特征值;根据所述演示文稿的每个页面是否为所述演示文稿的最后一页,确定每个页面的尾页属性特征值;对所述演示文稿中的每个页面的字号属性特征值进行归一化处理,得到每个页面的归一化后的字号属性特征值;对所述演示文稿中的每个页面的关键词属性特征值进行归一化处理,得到每个页面的归一化后的关键词属性特征值;对所述演示文稿中的每个页面的首页属性特征值进行归一化处理,得到每个页面的归一化后的首页属性特征值;对所述演示文稿中的每个页面的尾页属性特征值进行归一化处理,得到每个页面的归一化后的尾页属性特征值;将每个所述页面的归一化后的字号属性特征值、归一化后的关键词属性特征值、归一化后的首页属性特征值和归一化后的尾页属性特征值作为对应的每个所述页面的页面属性特征。

9、可选地,提取每个所述页面的页面属性特征,包括:提取页面中的所有的文本框的总字数或平均字数,作为页面的第一字数属性特征值;对每个页面的第一字数属性特征值进行归一化处理,得到每个页面的归一化后的第一字数属性特征值;将归一化后的第一字数属性特征值作为对应页面的页面属性特征。

10、可选地,所述方法还包括按照如下方式获取所述第一词表:对所述演示文稿中的文本内容进行分词处理,得到分词结果;对所述分词结果进行去重处理,得到第二词表;计算所述第二词表中的各个词语在所述演示文稿中的重要性程度,按照所述重要性程度从高到低的顺序对所述第二词表中的词语进行排序;将排序靠前的预设数量的词语加入到空白词表中形成所述第一词表,并为所述第一词表中的每一个词语赋予不同的编码值。

11、可选地,所述计算所述第二词表中的各个词语在所述演示文稿中的重要性程度,包括:计算各个词语的词频值;计算各个词语的逆文件频率值;计算各个词语的词频值和逆文件频率值的乘积,以得到词频-逆文本频率指数用于表征词语在所述演示文稿中的重要性程度。

12、可选地,所述页面类型识别模型包括记忆神经网络和随机场网络;所述通过所述页面类型识别模型识别出所述演示文稿中的每个所述页面的类型,包括:通过所述记忆神经网络,输出每个所述页面映射到不同类型标签的概率,并将每个所述页面映射到不同类型标签的概率作为初始概率;通过所述随机场网络,计算所述页面之间的状态转移概率,以对所述初始概率进行修正得到修正概率,并根据所述修正概率确定所述页面的类型。

13、可选地,在将所述演示文稿中的每个所述页面的内容特征输入至页面类型识别模型中之前,所述方法还包括:提取每个所述页面的结构特征;所述将所述演示文稿中的每个所述页面的内容特征输入至页面类型识别模型中,包括:将所述演示文稿中的每个所述页面的内容特征和结构特征同时输入至页面类型识别模型中。

14、可选地,所述提取每个所述页面的结构特征,包括:对所述演示文稿中的每个所述页面分别进行解析,确定每个所述页面的第一结构特征值和每个所述页面的第二结构特征值;所述页面的第一结构特征值表征所述页面中含有的预设结构的数量;所述页面的第二结构特征值表征所述页面中含有的预设结构的平均面积;对所述演示文稿中的每个所述页面的第一结构特征值进行归一化处理,得到每个所述页面的归一化后的第一结构特征值;对所述演示文稿中的每个所述页面的第二结构特征值进行归一化处理,得到每个所述页面的归一化后的第二结构特征值;将每个所述页面的归一化后的第一结构特征值和归一化后的第二结构特征值作为对应的每个所述页面的结构特征。

15、根据本公开的实施例的第二方面,提供了演示文稿的识别装置,包括:获取模块,用于获取包含多个页面的演示文稿;

16、第二提取模块,用于提取所述页面的内容特征;

17、识别模块,用于将所述演示文本文档来自技高网...

【技术保护点】

1.一种演示文稿的识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述利用第一词表对所述第一词语序列中的词语进行编码,得到所述第一词语序列的第一编码结果,包括:

3.根据权利要求1所述的方法,其特征在于,在将所述演示文稿中的每个所述页面的内容特征输入至页面类型识别模型中之前,所述方法还包括:提取每个所述页面的文件名特征;

4.根据权利要求3所述的方法,其特征在于,所述提取每个所述页面的文件名特征,包括:

5.根据权利要求1所述的方法,其特征在于,在将所述演示文稿中的每个所述页面的内容特征输入至页面类型识别模型中之前,所述方法还包括:提取每个所述页面的页面属性特征;

6.根据权利要求5所述的方法,其特征在于,所述提取每个所述页面的页面属性特征,包括:

7.根据权利要求5所述的方法,其特征在于,所述提取每个所述页面的页面属性特征,包括:

8.根据权利要求1所述的方法,其特征在于,所述方法还包括按照如下方式获取所述第一词表:

9.根据权利要求8所述的方法,其特征在于,所述计算所述第二词表中的各个词语在所述演示文稿中的重要性程度,包括:

10.根据权利要求1至9任一项所述的方法,其特征在于,所述页面类型识别模型包括记忆神经网络和随机场网络;所述通过所述页面类型识别模型识别出所述演示文稿中的每个所述页面的类型,包括:

11.根据权利要求1至9任一项所述的方法,其特征在于,在将所述演示文稿中的每个所述页面的内容特征输入至页面类型识别模型中之前,所述方法还包括:提取每个所述页面的结构特征;

12.根据权利要求11所述的方法,其特征在于,所述方法还包括按照如下方式提取每个所述页面的结构特征:

13.一种演示文稿的识别装置,其特征在于,包括:

14.一种电子设备,包括存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序,以实现权利要求1至12中任一项所述的方法。

15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序在被处理器执行时实现权利要求1至12中任一项所述的方法。

...

【技术特征摘要】

1.一种演示文稿的识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述利用第一词表对所述第一词语序列中的词语进行编码,得到所述第一词语序列的第一编码结果,包括:

3.根据权利要求1所述的方法,其特征在于,在将所述演示文稿中的每个所述页面的内容特征输入至页面类型识别模型中之前,所述方法还包括:提取每个所述页面的文件名特征;

4.根据权利要求3所述的方法,其特征在于,所述提取每个所述页面的文件名特征,包括:

5.根据权利要求1所述的方法,其特征在于,在将所述演示文稿中的每个所述页面的内容特征输入至页面类型识别模型中之前,所述方法还包括:提取每个所述页面的页面属性特征;

6.根据权利要求5所述的方法,其特征在于,所述提取每个所述页面的页面属性特征,包括:

7.根据权利要求5所述的方法,其特征在于,所述提取每个所述页面的页面属性特征,包括:

8.根据权利要求1所述的方法,其特征在于,所述方法还包括按照如下方式获取所述第一词表:

9.根据权利要求8所...

【专利技术属性】
技术研发人员:潘云嵩张家瑞宋超
申请(专利权)人:珠海金山办公软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1