数据处理方法、样本获取方法、模型训练方法和装置制造方法及图纸

技术编号:32857430 阅读:50 留言:0更新日期:2022-03-30 19:30
本公开提供了一种数据处理方法、训练样本的获取方法、文本处理模型的训练方法和装置,涉及人工智能领域,尤其涉及知识图谱和深度学习领域。数据处理方法包括对多媒体数据进行语音识别,得到针对所述多媒体数据的多个第一文本,多媒体数据包括音频数据;采用文本处理模型,确定所述多个第一文本中的每个第一文本与至少一个预定分割文本之间的相似度;以及根据相似度,将多媒体数据分割为至少两个多媒体片段。段。段。

【技术实现步骤摘要】
数据处理方法、样本获取方法、模型训练方法和装置


[0001]本公开涉及人工智能领域,尤其涉及知识图谱和深度学习领域,更具体地涉及一种数据处理方法、训练样本的获取方法、文本处理模型的训练方法、装置、电子设备和存储介质。

技术介绍

[0002]随着信息传播技术的发展,视频成为人们日常生活中传递信息的重要方式之一。新闻报道、新闻发布会、运动竞赛等各种类型的视频能将正在发生的热点及时传播到想了解其内容的用户手中。而完整的视频往往包含多个事件。

技术实现思路

[0003]本公开提供了一种数据处理方法、训练样本的获取方法、文本处理模型的训练方法、装置、电子设备和存储介质。
[0004]根据本公开的一方面,提供了一种数据处理方法,包括:对多媒体数据进行语音识别,得到针对上述多媒体数据的多个第一文本,所述多媒体数据包括音频数据;采用文本处理模型,确定上述多个第一文本中的每个第一文本与至少一个预定分割文本之间的相似度;以及根据上述相似度,将上述多媒体数据分割为至少两个多媒体片段。
[0005]根据本公开的另一方面,提供了一种训练样本的获取方法,包括:针对多个查询文本中的每个查询文本,确定根据上述每个查询文本查询到的第二文本,得到由上述每个查询文本及上述第二文本构成的文本组,作为针对上述每个查询文本的文本组;以及根据针对上述多个查询文本的多个文本组,确定训练文本处理模型的训练样本,上述训练样本包括由两个文本构成的文本对及根据上述两个文本所属的文本组确定的实际相似度。
[0006]根据本公开的另一方面,提供了一种文本处理模型的训练方法,包括:采用上述文本处理模型确定训练样本包括的两个文本之间的预测相似度;上述训练样本还包括上述两个文本之间的实际相似度;以及根据上述预测相似度和上述实际相似度,对上述文本处理模型进行训练,其中,上述训练样本是采用上述训练样本的获取方法获得的。
[0007]根据本公开的另一方面,提供了一种数据处理装置,包括:第一文本确定模块,用于对多媒体数据进行语音识别,得到针对上述多媒体数据的多个第一文本,上述多媒体数据包括音频数据;相似度确定模块,用于采用文本处理模型,确定上述多个第一文本中的每个第一文本与至少一个预定分割文本之间的相似度;以及分割模块,用于根据上述相似度,将上述多媒体数据分割为至少两个多媒体片段。
[0008]根据本公开的另一方面,提供了一种训练样本的获取装置,包括:文本组确定模块,用于针对多个查询文本中的每个查询文本,确定根据上述每个查询文本查询到的第二文本,得到由上述每个查询文本及上述第二文本构成的文本组,作为针对上述每个查询文本的文本组;以及训练样本确定模块,用于根据针对上述多个查询文本的多个文本组,确定训练文本处理模型的训练样本,上述训练样本包括由两个文本构成的文本对及根据上述两
个文本所属的文本组确定的实际相似度。
[0009]根据本公开的另一方面,提供了一种文本处理模型的训练装置,包括:预测模块,用于采用上述文本处理模型确定训练样本包括的两个文本之间的预测相似度;上述训练样本还包括上述两个文本之间的实际相似度;以及训练模块,用于根据上述预测相似度和上述实际相似度,对上述文本处理模型进行训练,其中,上述训练样本是采用上述训练样本的获取装置获得的。
[0010]根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的数据处理方法、训练样本的获取方法、文本处理模型的训练方法中的任意一者。
[0011]根据本公开的另一个方面提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的数据处理方法、训练样本的获取方法、文本处理模型的训练方法中的任意一者。
[0012]根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现本公开提供的数据处理方法、训练样本的获取方法、文本处理模型的训练方法中的任意一者。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0015]图1是根据本公开实施例的数据处理方法、训练样本的获取方法、文本处理模型的训练方法和装置的应用场景示意图;
[0016]图2是根据本公开实施例的数据处理方法的流程示意图;
[0017]图3是根据本公开另一实施例的数据处理方法的流程示意图;
[0018]图4是根据本公开实施例的数据处理方法的示意图;
[0019]图5是根据本公开实施例的训练样本的获取方法的流程示意图;
[0020]图6是根据本公开实施例的训练样本的获取方法的示意图;
[0021]图7是根据本公开实施例的文本处理模型的训练方法的流程示意图;
[0022]图8是根据本公开实施例的数据处理装置的结构框图;
[0023]图9是根据本公开实施例的训练样本的获取装置的结构框图;
[0024]图10是根据本公开实施例的文本处理模型的训练装置的结构框图;以及
[0025]图11是用来实施本公开实施例的方法的电子设备的结构框图。
具体实施方式
[0026]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0027]在一个实施例中,可以通过人工方式对新闻视频、发布会视频等各种类型的视频或者无画面的音频进行拆解,工作人员在浏览完整视频或者听取完整音频后,将完整的数据拆解为多个片段。
[0028]可以理解的是,通过人工方式对多媒体数据进行分割,需要工作人员观看或听取完整音频,分割效率较低,人工成本较高。并且人工分割容易出现人为误判的情况,影响分割的准确性。
[0029]本公开实施例旨在提出一种处理方法以代替人工方式进行多媒体数据的分割,无需人工介入,以此节省人工成本。本公开提供的处理方法还可以避免因人为误差而导致分割位置错误的问题,提高多媒体数据分割的质量。
[0030]以下将结合附图和具体实施例详细阐述本公开提供的处理方法进行多媒体数据分割的技术方案。
[0031]以下将结合图1对本公开提供的方法和装置的应用场景进行描述。
[0032]图1是根据本公开实施例的数据处理方法、训练样本的获取方法、文本处理模型的训练方法和装置的应用场景示意图。
[0033]如图1所示,该实施例的应用场景100可以包括电本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:对多媒体数据进行语音识别,得到针对所述多媒体数据的多个第一文本,所述多媒体数据包括音频数据;采用文本处理模型,确定所述多个第一文本中的每个第一文本与至少一个预定分割文本之间的相似度;以及根据所述相似度,将所述多媒体数据分割为至少两个多媒体片段。2.根据权利要求1所述的方法,其中,所述采用文本处理模型,确定所述多个第一文本中的每个第一文本与至少一个预定分割文本之间的相似度包括:提取所述每个第一文本的第一文本特征;以及确定所述第一文本特征与所述至少一个预定分割文本中每个预定分割文本的文本特征之间的相似度。3.根据权利要求1所述的方法,其中,所述每个第一文本包括针对所述多媒体数据的时间信息;所述根据所述相似度,将所述多媒体数据分割为至少两个多媒体片段包括:根据所述相似度,确定所述多个第一文本中的第一目标文本;所述第一目标文本与所述至少一个预定分割文本中至少一个文本之间的相似度大于第一相似度阈值;以及根据第一目标文本的时间信息,将所述多媒体数据分割为至少两个多媒体片段。4.根据权利要求1至3中任意一项所述的方法,还包括:根据所述相似度,确定所述多个第一文本中的第二目标文本;所述第二目标文本与所述至少一个预定分割文本中至少一个文本之间的相似度大于第二相似度阈值;以及根据所述第二目标文本,更新所述至少一个预定分割文本。5.一种训练样本的获取方法,包括:针对多个查询文本中的每个查询文本,确定根据所述每个查询文本查询到的第二文本,得到由所述每个查询文本及所述第二文本构成的文本组,作为针对所述每个查询文本的文本组;以及根据针对所述多个查询文本的多个文本组,确定训练文本处理模型的训练样本,所述训练样本包括由两个文本构成的文本对及根据所述两个文本所属的文本组确定的实际相似度。6.根据权利要求5所述的方法,其中,确定根据所述每个查询文本查询到的第二文本包括:确定根据所述每个查询文本查询到的链接的标题;以及根据所述链接的标题,确定所述第二文本。7.根据权利要求5所述的方法,其中,所述根据针对所述多个查询文本的多个文本组,确定训练文本处理模型的训练样本包括:确定训练所述文本处理模型的正样本,所述正样本包括从同一个文本组中获取的任意两个文本,所述正样本中的两个文本之间的相似度为第一相似度;以及确定训练所述文本处理模型的负样本,所述负样本包括从两个文本组中获取的任意两个文本,所述负样本中的两个文本之间的相似度为第二相似度。8.一种文本处理模型的训练方法,包括:采用文本处理模型确定训练样本包括的两个文本之间的预测相似度;所述训练样本还
包括所述两个文本之间的实际相似度;以及根据所述预测相似度和所述实际相似度,对所述文本处理模型进行训练,其中,所述训练样本是采用权利要求5至7中任意一项所述的方法获得的。9.一种数据处理装置,包括:第一文本确定模块,用于对多媒体数据进行语音识别,得到针对所述多媒体数据的多个第一文本,所述多媒体数据包括音频数据;相似度确定模块,用于采用文本处理模型,确定所述多个第一文本中的每个第一文本与至少一个预定分割文本之间的相似度;以及分割模块,用于根据所述相似度,将所述多媒体数据分割为至少两个多媒体片段...

【专利技术属性】
技术研发人员:杨虎汪琦冯知凡柴春光朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1