基于人工智能的文本课件的内容抽取方法及相关设备技术

技术编号:30333287 阅读:26 留言:0更新日期:2021-10-10 00:56
本发明专利技术涉及人工智能,提供一种基于人工智能的文本课件的内容抽取方法及相关设备,在提取课件页面中的实体及实体的属性值后,搜索每个实体的最近邻实体,在实体与最近邻实体之间生成实体边,根据属性值计算每个实体边的边特征,从而得到实体网络结构图,利用图卷积神经网络基于预设线性约束对实体网络结构图进行预测,得到实体边的类别,通过设置线性约束能够有效的保证预测结果的准确性;在得到图卷积神经网络的目标层的各个节点的隐藏状态之后,对隐藏状态进行最大池化处理,最大池化可以将参数隐藏状态中的参数极大地缩小,减少了信息的冗余度,提高了全局嵌入表示的效率和文字描述的生成效率,进而提高了课件语义结构树的生成效率。成效率。成效率。

【技术实现步骤摘要】
基于人工智能的文本课件的内容抽取方法及相关设备


[0001]本专利技术涉及人工智能
,具体涉及一种基于人工智能的文本课件的内容抽取方法、装置、电子设备及存储介质。

技术介绍

[0002]PPT课件是网络课程的重要组成部分,承载了网络课程中重要的知识点和教学逻辑脉络。如何有效地管理和处理这些课件也成为网络课程提供商的重要课题。从PPT课件中对知识内容进行合理的分析和归纳,能够有效地提高网络课程教学的效率。
[0003]专利技术人在实现本专利技术的过程中发现,由于PPT课件往往具有丰富的内容结构,传统的自动化处理方式只能利用文本检测技术(OCR)等提取PPT课件中的文字,并使用一些启发式规则将识别到的不同文字段落组合在一起,这样PPT课件的段落、标题等结构信息很容易丢失,使得最终解析结果不正确或者不完整。另外,PPT课件通常含有大量不规范的文本,如斜着的文字,竖着的文字,动画效果也会造成识别的失效。

技术实现思路

[0004]鉴于以上内容,有必要提出一种基于人工智能的文本课件的内容抽取方法、装置、电子设备及存储介质,将一份包括多个文本页面(例如,PPT页面)的课件作为一个整体进行处理,从中自动化的抽取语义信息,抽取的语义信息的准确度高。
[0005]本专利技术的第一方面提供一种基于人工智能的文本课件的内容抽取方法,所述方法包括:
[0006]获取文本课件中的多个课件页面,并提取每个所述课件页面中的多个实体;
[0007]提取每个所述实体的属性值;
[0008]对于每个所述课件页面,搜索每个所述实体的多个最近邻实体,在每个所述实体与每个所述最近邻实体之间生成实体边,并根据所述属性值计算每个所述实体边的边特征,得到每个所述课件页面的实体网络结构图;
[0009]调用预先训练的图卷积神经网络基于预设线性约束对每个所述实体网络结构图进行预测,得到每条实体边的分类概率,并根据所述分类概率确定所述实体边的类别;
[0010]获取所述图卷积神经网络的目标层的各个节点的隐藏状态,对所述隐藏状态进行最大池化,得到全局嵌入表示,根据所述全局嵌入表示生成文字描述;
[0011]根据每个所述实体结构图中所述实体边的类别及对应的所述文字描述生成课件语义结构树。
[0012]在一个可选的实施方式中,所述搜索每个所述实体的多个最近邻实体包括:
[0013]根据所述实体的属性值确定所述实体的位置坐标;
[0014]根据所述位置坐标确定多个搜索方向;
[0015]在每个所述搜索方向上搜索一个实体,作为所述搜索方向上的最近邻实体。
[0016]在一个可选的实施方式中,所述根据所述属性值计算每个所述实体边的边特征包
括:
[0017]根据所述实体的属性值中的第一属性值及每个所述最近邻实体的属性值中的第一属性值计算距离边特征;
[0018]根据所述实体的属性值中的第二属性值及每个所述最近邻实体的属性值中的第二属性值计算内容边特征;
[0019]拼接所述距离边特征及对应的所述内容边特征得到所述实体边的边特征。
[0020]在一个可选的实施方式中,所述预设线性约束包括:
[0021][0022]c(e,i)∈{0,1},
[0023][0024][0025]其中,p(e,i)为实体边e为第i分类的概率,c(e,i)为选择实体边e的类别为第i类的指示变量,
[0026]是指每条实体边上必须有一个且只有一个类别,
[0027]是指每个节点最多只有一个父亲或文本合并目标。
[0028]在一个可选的实施方式中,所述实体边的类别包括如下中的一种:
[0029]实体边的两个节点之间是父亲

儿子关系;
[0030]实体边的两个节点之间是儿子

父亲关系;
[0031]实体边的两个节点之间是需要合并的文字段落;
[0032]实体边的两个节点之间无关系。
[0033]在一个可选的实施方式中,所述对所述隐藏状态进行最大池化,得到全局嵌入表示包括:
[0034]根据池化滤波器的大小对所述隐藏状态进行区块分割;
[0035]选择每个所述区块中的最大值作为特征值;
[0036]将所述特征值按照顺序进行拼接得到全局嵌入表示。
[0037]在一个可选的实施方式中,所述提取实体的属性值包括:
[0038]识别所述实体的类型;
[0039]根据预设实体类型属性字段表获取与所述类型对应的属性字段;
[0040]根据所述属性字段提取所述实体的属性值。
[0041]本专利技术的第二方面提供一种基于人工智能的文本课件的内容抽取装置,所述装置包括:
[0042]获取模块,用于获取文本课件中的多个课件页面,并提取每个所述课件页面中的多个实体;
[0043]提取模块,用于提取每个所述实体的属性值;
[0044]构建模块,用于对于每个所述课件页面,搜索每个所述实体的多个最近邻实体,在每个所述实体与每个所述最近邻实体之间生成实体边,并根据所述属性值计算每个所述实
体边的边特征,得到每个所述课件页面的实体网络结构图;
[0045]预测模块,用于调用预先训练的图卷积神经网络基于预设线性约束对每个所述实体网络结构图进行预测,得到每条实体边的分类概率,并根据所述分类概率确定所述实体边的类别;
[0046]池化模块,用于获取所述图卷积神经网络的目标层的各个节点的隐藏状态,对所述隐藏状态进行最大池化,得到全局嵌入表示,根据所述全局嵌入表示生成文字描述;
[0047]生成模块,用于根据每个所述实体结构图中所述实体边的类别及对应的所述文字描述生成课件语义结构树。
[0048]本专利技术的第三方面提供一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述基于人工智能的文本课件的内容抽取方法。
[0049]本专利技术的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于人工智能的文本课件的内容抽取方法。
[0050]综上所述,本专利技术所述的基于人工智能的文本课件的内容抽取方法、装置、电子设备及存储介质,在获取到文本课件中的多个课件页面之后,提取每个课件页面中的多个实体及每个实体的属性值,对于每个课件页面,搜索每个实体的多个最近邻实体,在每个实体与每个最近邻实体之间生成实体边,并根据所述属性值计算每个实体边的边特征,从而得到实体网络结构图,利用图卷积神经网络基于预设线性约束对每个所述实体网络结构图进行预测,得到每条实体边的分类概率,并根据所述分类概率确定所述实体边的类别,通过设置线性约束,能够有效的保证预测结果的准确性;在得到图卷积神经网络的目标层的各个节点的隐藏状态之后,对所述隐藏状态进行最大池化处理,最大池化可以将参数隐藏状态中的参数极大地缩小,从而减少信息的冗余度,提高全本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的文本课件的内容抽取方法,其特征在于,所述方法包括:获取文本课件中的多个课件页面,并提取每个所述课件页面中的多个实体;提取每个所述实体的属性值;对于每个所述课件页面,搜索每个所述实体的多个最近邻实体,在每个所述实体与每个所述最近邻实体之间生成实体边,并根据所述属性值计算每个所述实体边的边特征,得到每个所述课件页面的实体网络结构图;调用预先训练的图卷积神经网络基于预设线性约束对每个所述实体网络结构图进行预测,得到每条实体边的分类概率,并根据所述分类概率确定所述实体边的类别;获取所述图卷积神经网络的目标层的各个节点的隐藏状态,对所述隐藏状态进行最大池化,得到全局嵌入表示,根据所述全局嵌入表示生成文字描述;根据每个所述实体结构图中所述实体边的类别及对应的所述文字描述生成课件语义结构树。2.如权利要求1所述的基于人工智能的文本课件的内容抽取方法,其特征在于,所述搜索每个所述实体的多个最近邻实体包括:根据所述实体的属性值确定所述实体的位置坐标;根据所述位置坐标确定多个搜索方向;在每个所述搜索方向上搜索一个实体,作为所述搜索方向上的最近邻实体。3.如权利要求1所述的基于人工智能的文本课件的内容抽取方法,其特征在于,所述根据所述属性值计算每个所述实体边的边特征包括:根据所述实体的属性值中的第一属性值及每个所述最近邻实体的属性值中的第一属性值计算距离边特征;根据所述实体的属性值中的第二属性值及每个所述最近邻实体的属性值中的第二属性值计算内容边特征;拼接所述距离边特征及对应的所述内容边特征得到所述实体边的边特征。4.如权利要求1所述的基于人工智能的文本课件的内容抽取方法,其特征在于,所述预设线性约束包括:c(e,i)∈{0,1},c(e,i)∈{0,1},其中,p(e,i)为实体边e为第i分类的概率,c(e,i)为选择实体边e的类别为第i类的指示变量,是指每条实体边上必须有一个且只有一个类别,是指每个节点最多只有一个父亲或文本合并目标。5.如权利要求1所述的基于人工智能的文本课件的内容抽取方法,其特征在于,所述实体边的类别包括如下中的一种:
实体边的两个节点之间是父亲

【专利技术属性】
技术研发人员:王异秀
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1