一种基于机器学习的PPT自动生成系统技术方案

技术编号:37345044 阅读:14 留言:0更新日期:2023-04-22 21:37
本发明专利技术公开了一种基于机器学习的PPT自动生成系统,包括主题提取模块、资源获取模块和生成模块;主题提取模块用于对待处理文本进行文本预处理,获得预处理文本;获取预处理文本对应的文本向量;以及获取文本向量之间的差异,使用聚类算法对文本向量进行聚类处理,获得聚类主题:资源获取模块用于通过机器学习算法获取待处理文本所对应的插入资源;生成模块用于获取聚类主题对应的PPT模板,并生成PPT。本发明专利技术对聚类时用来衡量两个特征向量之间的差别的参数的计算方式进行了改进,加入了取值距离,通过欧式距离和取值距离的结合,使得本发明专利技术在对规模较小的文本进行文本聚类时,能够获得更为准确的聚类结果。获得更为准确的聚类结果。获得更为准确的聚类结果。

【技术实现步骤摘要】
一种基于机器学习的PPT自动生成系统


[0001]本专利技术涉及文件处理领域,尤其涉及一种基于机器学习的PPT自动生成系统。

技术介绍

[0002]PPT自动生成一般是指事先准备好多种类型的PPT模板,然后根据需要生成PPT的文本的主题来匹配相应的PPT模板,在获得模板后,再将文本和相关的资源插入到PPT模板中,从而获得相应的PPT模板。
[0003]现有技术中,在判断文本的主题时,一般需要用到文本聚类算法来进行确定。但是现有的文本聚类算法,在对文本进行聚类时,一般是采用欧式距离作为特征向量之间的差异。但这种差异的表示方式一般仅适合在规模较大的文本中,而用于生成PPT的文本一般规模比较小,因此,现有的文本的特征之间的表示方式会使得获取的文本的主题的准确度降低,影响获得的PPT模板的准确性,影响生成的PPT的准确性。

技术实现思路

[0004]本专利技术的目的在于公开一种基于机器学习的PPT自动生成系统,解决现有的PPT生成系统,在判断规模较小的文本的主题使用欧式距离作为特征之间的差异,导致获得的文本主题准确度受到影响的准确度降低,影响获得的PPT模板的准确性,影响生成的PPT的准确性的问题。
[0005]为了达到上述目的,本专利技术采用如下技术方案:一种基于机器学习的PPT自动生成系统,包括主题提取模块、资源获取模块和生成模块;主题提取模块用于获取待处理文本的聚类主题,包括:对待处理文本进行文本预处理,获得预处理文本;获取预处理文本对应的文本向量;基于以下算公式获取文本向量之间的差异,使用聚类算法对文本向量进行聚类处理,获得聚类主题:;其中,表示第i个文本向量和第j个文本向量之间的差异,表示预设的控制参数,表示预设的计算参数,表示文本向量的维数,和分别表示和在第维的取值,表示判断函数,若和之间的乘积为零,则的取值为0,若和之间的乘积不为零,则;、
表示预设的权重系数,表示预设的取值距离参考值,表示和之间的欧氏距离,表示预设的欧式距离参考值;资源获取模块用于通过机器学习算法获取待处理文本所对应的插入资源;生成模块用于获取聚类主题对应的PPT模板,并基于插入资源、待处理文本和PPT模板生成PPT。
[0006]优选地,基于机器学习的PPT自动生成系统还包括数据存储模块;数据存储模块用于存储所述插入资源和所述PPT模板。
[0007]优选地,所述插入资源包括图像、背景音乐和显示特效。
[0008]优选地,所述对待处理文本进行文本预处理,获得预处理文本,包括:对待处理文本进行标点符号的去除,获得不包含标点符号的文本;对不包含标点符号的文本进行停用词去除处理,获得不包含停用词的文本;使用正向最大匹配法对不包含停用词的文本进行词语划分,获得多个独立词语,所有的独立词语组成预处理文本。
[0009]优选地,所述获取预处理文本对应的文本向量,包括:将独立词语转换为词向量;对所有的词向量进行叠加获得取预处理文本对应的文本向量。
[0010]优选地,所述聚类算法包括K

MEANS算法、K

MEDOIDS算法和CLARANS算法中的任一种。
[0011]优选地,所述通过机器学习算法获取待处理文本所对应的插入资源,包括:对待处理文本进行分段处理,获得多个分段文本;使用基于机器学习的关键词提取算法分别获取每个分段文本中的关键词;基于关键词在所述数据存储模块中获取对应的插入资源。
[0012]优选地,所述PPT模板包括每一页PPT的文本显示位置、文本显示格式和图片显示位置。
[0013]本专利技术在自动生成PPT的过程中,对聚类时用来衡量两个特征向量之间的差别的参数的计算方式进行了改进,并不是仅仅基于欧氏距离来进行考虑,加入了取值距离,通过欧式距离和取值距离的结合,使得本专利技术在对规模较小的文本进行文本聚类时,能够获得更为准确的聚类结果,从而提高后续获得的PPT模板的准确性,进而提高了最终生成的PPT的准确性。
附图说明
[0014]利用附图对本专利技术作进一步说明,但附图中的实施例不构成对本专利技术的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
[0015]图1为本专利技术无线传感器网络的一种实施例图。
[0016]图2为本专利技术无线传感器网络的另一种实施例图。
[0017]图3为本专利技术获得预处理文本的一种实施例图。
具体实施方式
[0018]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。
[0019]如图1所示的一种实施例,本专利技术提供了一种基于机器学习的PPT自动生成系统,包括主题提取模块、资源获取模块和生成模块;主题提取模块用于获取待处理文本的聚类主题,包括:对待处理文本进行文本预处理,获得预处理文本;获取预处理文本对应的文本向量;基于以下算公式获取文本向量之间的差异,使用聚类算法对文本向量进行聚类处理,获得聚类主题:;其中,表示第i个文本向量和第j个文本向量之间的差异,表示预设的控制参数,表示预设的计算参数,表示文本向量的维数,和分别表示和在第维的取值,表示判断函数,若和之间的乘积为零,则的取值为0,若和之间的乘积不为零,则;、表示预设的权重系数,表示预设的取值距离参考值,表示和之间的欧氏距离,表示预设的欧式距离参考值;,;资源获取模块用于通过机器学习算法获取待处理文本所对应的插入资源;生成模块用于获取聚类主题对应的PPT模板,并基于插入资源、待处理文本和PPT模板生成PPT。
[0020]本专利技术在自动生成PPT的过程中,对聚类时用来衡量两个特征向量之间的差别的参数的计算方式进行了改进,并不是仅仅基于欧氏距离来进行考虑,加入了取值距离,通过欧式距离和取值距离的结合,使得本专利技术在对规模较小的文本进行文本聚类时,能够获得更为准确的聚类结果,从而提高后续获得的PPT模板的准确性,进而提高了最终生成的PPT的准确性。
[0021]用于生成PPT的文本的规模一般比较小,传统的基于欧式距离的文本聚类方式由于仅考虑了单一的特征,因此并不能够进行准确的聚类。而本专利技术则是从两个方面的特征进行了综合的考虑,从而使得文本向量之间的差异能够准确表示两个文本向量的差距。
[0022]优选地,如图2所示,基于机器学习的PPT自动生成系统还包括数据存储模块;数据存储模块用于存储所述插入资源和所述PPT模板。
[0023]具体的,对于插入资源和PPT模板,都用了相应的标记方式来进行表示。例如,对于PPT模板,每个PPT模板都有一个对应的聚类主题作为标签。在计算得到聚类主题后,只需要从数据存储模块进行寻找,获得标签为该聚类主题的PPT模板即实现PPT模板的选取。
[0024]优选地,所述插入资源包括图像、背景音乐和显示特效。
[0025]优选地,如图3所示,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的PPT自动生成系统,其特征在于,包括主题提取模块、资源获取模块和生成模块;主题提取模块用于获取待处理文本的聚类主题,包括:对待处理文本进行文本预处理,获得预处理文本;获取预处理文本对应的文本向量;基于以下算公式获取文本向量之间的差异,使用聚类算法对文本向量进行聚类处理,获得聚类主题:;其中,表示第i个文本向量和第j个文本向量之间的差异,表示预设的控制参数,表示预设的计算参数,表示文本向量的维数,和分别表示和在第维的取值,表示判断函数,若和之间的乘积为零,则的取值为0,若和之间的乘积不为零,则;、表示预设的权重系数,表示预设的取值距离参考值,表示和之间的欧氏距离,表示预设的欧式距离参考值;资源获取模块用于通过机器学习算法获取待处理文本所对应的插入资源;生成模块用于获取聚类主题对应的PPT模板,并基于插入资源、待处理文本和PPT模板生成PPT。2.根据权利要求1所述的一种基于机器学习的PPT自动生成系统,其特征在于,还包括数据存储模块;数据存储模块用于存储所述插入资源和所述PPT模板。3.根据权利要求1所述的一种基于机器学习的PPT自动生成系统,其特征在于,所述插入资源包括图像、背景音乐和显示特效。4.根据权利要求1所述的一种基于机器学习的PPT自动生成系统,其特征在于,所述对待处理文本进行文本...

【专利技术属性】
技术研发人员:邓凤桂
申请(专利权)人:广东聚智诚科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1