数据处理方法、样本获取方法、模型训练方法和装置制造方法及图纸

技术编号：32857430 阅读：50 留言：0更新日期：2022-03-30 19:30

本公开提供了一种数据处理方法、训练样本的获取方法、文本处理模型的训练方法和装置，涉及人工智能领域，尤其涉及知识图谱和深度学习领域。数据处理方法包括对多媒体数据进行语音识别，得到针对所述多媒体数据的多个第一文本，多媒体数据包括音频数据；采用文本处理模型，确定所述多个第一文本中的每个第一文本与至少一个预定分割文本之间的相似度；以及根据相似度，将多媒体数据分割为至少两个多媒体片段。段。段。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、样本获取方法、模型训练方法和装置

[0001]本公开涉及人工智能领域，尤其涉及知识图谱和深度学习领域，更具体地涉及一种数据处理方法、训练样本的获取方法、文本处理模型的训练方法、装置、电子设备和存储介质。

技术介绍

[0002]随着信息传播技术的发展，视频成为人们日常生活中传递信息的重要方式之一。新闻报道、新闻发布会、运动竞赛等各种类型的视频能将正在发生的热点及时传播到想了解其内容的用户手中。而完整的视频往往包含多个事件。

技术实现思路

[0003]本公开提供了一种数据处理方法、训练样本的获取方法、文本处理模型的训练方法、装置、电子设备和存储介质。
[0004]根据本公开的一方面，提供了一种数据处理方法，包括：对多媒体数据进行语音识别，得到针对上述多媒体数据的多个第一文本，所述多媒体数据包括音频数据；采用文本处理模型，确定上述多个第一文本中的每个第一文本与至少一个预定分割文本之间的相似度；以及根据上述相似度，将上述多媒体数据分割为至少两个多媒体片段。
[0005]根据本公开的另一方面，提供了一种训练样本的获取方法，包括：针对多个查询文本中的每个查询文本，确定根据上述每个查询文本查询到的第二文本，得到由上述每个查询文本及上述第二文本构成的文本组，作为针对上述每个查询文本的文本组；以及根据针对上述多个查询文本的多个文本组，确定训练文本处理模型的训练样本，上述训练样本包括由两个文本构成的文本对及根据上述两个文本所属的文本组确定的实际相似度。
[0006]根据本公开的另一方...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，包括：对多媒体数据进行语音识别，得到针对所述多媒体数据的多个第一文本，所述多媒体数据包括音频数据；采用文本处理模型，确定所述多个第一文本中的每个第一文本与至少一个预定分割文本之间的相似度；以及根据所述相似度，将所述多媒体数据分割为至少两个多媒体片段。2.根据权利要求1所述的方法，其中，所述采用文本处理模型，确定所述多个第一文本中的每个第一文本与至少一个预定分割文本之间的相似度包括：提取所述每个第一文本的第一文本特征；以及确定所述第一文本特征与所述至少一个预定分割文本中每个预定分割文本的文本特征之间的相似度。3.根据权利要求1所述的方法，其中，所述每个第一文本包括针对所述多媒体数据的时间信息；所述根据所述相似度，将所述多媒体数据分割为至少两个多媒体片段包括：根据所述相似度，确定所述多个第一文本中的第一目标文本；所述第一目标文本与所述至少一个预定分割文本中至少一个文本之间的相似度大于第一相似度阈值；以及根据第一目标文本的时间信息，将所述多媒体数据分割为至少两个多媒体片段。4.根据权利要求1至3中任意一项所述的方法，还包括：根据所述相似度，确定所述多个第一文本中的第二目标文本；所述第二目标文本与所述至少一个预定分割文本中至少一个文本之间的相似度大于第二相似度阈值；以及根据所述第二目标文本，更新所述至少一个预定分割文本。5.一种训练样本的获取方法，包括：针对多个查询文本中的每个查询文本，确定根据所述每个查询文本查询到的第二文本，得到由所述每个查询文本及所述第二文本构成的文本组，作为针对所述每个查询文本的文本组；以及根据针对所述多个查询文本的多个文本组，确定训练文本处理模型的训练样本，所述训练样本包括由两个文本构成的文本对及根据所述两个文本所属的文本组确定的实际相似度。6.根据权利要求5所述的方法，其中，确定根据所述每个查询文本查询到的第二文本包括：确定根据所述每个查询文本查询到的链接的标题；以及根据所述链接的标题，确定所述第二文本。7.根据权利要求5所述的方法，其中，所述根据针对所述多个查询文本的多个文本组，确定训练文本处理模型的训练样本包括：确定训练所述文本处理模型的正样本，所述正样本包括从同一个文本组中获取的任意两个文本，所述正样本中的两个文本之间的相似度为第一相似度；以及确定训练所述文本处理模型的负样本，所述负样本包括从两个文本组中获取的任意两个文本，所述负样本中的两个文本之间的相似度为第二相似度。8.一种文本处理模型的训练方法，包括：采用文本处理模型确定训练样本包括的两个文本之间的预测相似度；所述训练样本还
包括所述两个文本之间的实际相似度；以及根据所述预测相似度和所述实际相似度，对所述文本处理模型进行训练，其中，所述训练样本是采用权利要求5至7中任意一项所述的方法获得的。9.一种数据处理装置，包括：第一文本确定模块，用于对多媒体数据进行语音识别，得到针对所述多媒体数据的多个第一文本，所述多媒体数据包括音频数据；相似度确定模块，用于采用文本处理模型，确定所述多个第一文本中的每个第一文本与至少一个预定分割文本之间的相似度；以及分割模块，用于根据所述相似度，将所述多媒体数据分割为至少两个多媒体片段...

【专利技术属性】
技术研发人员：杨虎，汪琦，冯知凡，柴春光，朱勇，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人