一种多媒体数据的挖掘方法、装置、存储介质及设备制造方法及图纸

技术编号:32856725 阅读:12 留言:0更新日期:2022-03-30 19:28
本申请公开了一种多媒体数据的挖掘方法、装置、存储介质及设备,涉及数据挖掘技术领域,该方法包括获取少数民族语音的多媒体数据的转写结果和翻译结果,以及获取第一关键词和第二关键词,第一关键词为官方语音的关键词,第二关键词为翻译得到的少数民族语言的关键词;根据转写结果和翻译结果,结合第一关键词和第二关键词,获得多数媒体数据中存在关键词片段的置信度,然后根据多数媒体数据中存在关键词片段的置信度和关键词识别门限,获得识别结果,该识别结果包括多媒体数据中识别到的关键词。可见,该方法能够实现对少数民族语言的多媒体数据的挖掘。媒体数据的挖掘。媒体数据的挖掘。

【技术实现步骤摘要】
一种多媒体数据的挖掘方法、装置、存储介质及设备


[0001]本申请涉及数据挖掘
,尤其涉及一种多媒体数据的挖掘方法、装置、存储介质及设备。

技术介绍

[0002]随着互联网尤其是移动互联网的不断发展,产生了海量数据。通过对海量数据进行挖掘,可以满足用户的不同需求。例如,在文献检索的应用场景中,通过关键词对文本数据进行检索,可以向用户返回与该关键词相关的文本数据。
[0003]在一些场景中,除了文本数据外,还包括大量的多媒体数据。该多媒体数据包括语音数据、图像数据、视频数据等中的一种或多种。通过语音识别、图像识别、视频分析等人工智能(artificial intelligence,AI)技术对上述多媒体数据进行挖掘已成为主流的实现方式之一。
[0004]AI技术通常是以数据驱动的。对于联合国6大官方语言,如英语、法语、俄语、汉语、西班牙语、阿拉伯语等,因其使用广泛,产生的数据规模大,通过对大规模的数据进行学习,可以获得对官方语言的多媒体数据的较强的AI处理能力。而少数民族语言,例如维吾尔语、藏语、蒙古语、哈萨克语、彝语等,因使用人口少,产生的数据规模小,基于小规模的数据,难以实现对少数民族语言的多媒体数据的挖掘。
[0005]如何提供一种少数民族语言的多媒体数据的挖掘方法,成为业界重点关注的问题。

技术实现思路

[0006]本申请的主要目的在于提供一种多媒体数据的挖掘方法、装置、存储介质及设备,能够实现对少数民族语言的多媒体数据的挖掘。
[0007]第一方面,本申请提供了一种多媒体数据的挖掘方法,包括:
[0008]获取少数民族语言的多媒体数据的转写结果和翻译结果,以及获取第一关键词和第二关键词,所述第一关键词为官方语言的关键词,所述第二关键词为翻译得到的少数民族语言的关键词;
[0009]根据所述转写结果和所述翻译结果,结合所述第一关键词和所述第二关键词,获得所述多媒体数据中存在关键词片段的置信度;
[0010]根据所述多媒体数据中存在关键词片段的置信度和关键词识别门限,获得识别结果,所述识别结果包括所述多媒体数据中识别到的关键词。
[0011]第二方面,本申请提供了一种多媒体数据的挖掘装置,包括:
[0012]获取模块,用于获取少数民族语言的多媒体数据的转写结果和翻译结果,以及获取第一关键词和第二关键词,所述第一关键词为官方语言的关键词,所述第二关键词为翻译得到的少数民族语言的关键词;
[0013]计算模块,用于根据所述转写结果和所述翻译结果,结合所述第一关键词和所述
第二关键词,获得所述多媒体数据中存在关键词片段的置信度
[0014]识别模块,用于根据所述多媒体数据中存在关键词片段的置信度和关键词识别门限,获得识别结果,所述识别结果包括所述多媒体数据中识别到的关键词。
[0015]第三方面,本申请还提供了一种多媒体数据的挖掘设备,包括:处理器、存储器、系统总线;
[0016]所述处理器以及所述存储器通过所述系统总线相连;
[0017]所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述多媒体数据的挖掘方法中的任意一种实现方式。
[0018]第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述多媒体数据的挖掘方法中的任意一种实现方式。
[0019]第五方面,本申请还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述多媒体数据的挖掘方法中的任意一种实现方式。
[0020]由上述技术方案可知,本申请至少具有以下有益效果:
[0021]本申请提供了一种少数民族语言的多媒体数据的挖掘方法。具体地,在已知官方语言的关键词的情况下,利用该官方语言的关键词和官方语言的关键词对应的少数民族语言的关键词,结合少数民族语言的多媒体数据的转写结果和翻译结果,获得所述多媒体数据中存在关键词片段的置信度,然后根据多媒体数据中存在关键词片段的置信度和关键词识别门限,获得识别结果。
[0022]上述方法将官方语言的语料和少数民族语言的语料进行融合,提升了少数民族语言的语料的规模,避免了少数民族语言的语料过少导致AI处理能力不佳的情况,提升了少数民族语言的多媒体数据中关键词的识别率,从而提升了少数民族语言的多媒体数据的挖掘效果。
[0023]进一步地,该方法提供了句子级别的关键词识别能力,实现一个多媒体数据例如是一条语音中多个句子的关键词识别,建立关键词和句子对应的多媒体数据的对应关系,通过呈现上述对应关系,还可以支持人工校验,进一步提高准确度。如此可以积累更多的样本数据,并用于更新模型,提升模型性能。
附图说明
[0024]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1为本申请实施例提供的一种多媒体数据的挖掘方法的流程图;
[0026]图2A为本申请实施例提供的一种人机交互界面的示意图;
[0027]图2B为本申请实施例提供的一种人机交互界面的示意图;
[0028]图2C为本申请实施例提供的一种人机交互界面的示意图;
[0029]图3为本申请实施例提供的一种对多媒体数据的处理的示意图;
[0030]图4为本申请实施例提供的一种多媒体数据的挖掘装置的示意图。
具体实施方式
[0031]本申请实施例中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。
[0032]首先对本申请实施例中所涉及到的一些技术术语进行介绍。
[0033]数据挖掘指从大量的数据中自动搜索隐藏于其中有用信息的过程。目前,可以通过构建人工智能模型,对大量的数据进行挖掘,进而得到隐藏于其中的有用信息。以多媒体数据为例,多媒体数据可以分为正常信息和敏感信息,可以基于人工智能模型对大量的多媒体数据进行挖掘,从该大量的多媒体数据中获取到识别出包括敏感信息的多媒体数据,以进行预警或进一步对该敏感信息的关键词片段进行处理等。
[0034]训练人工智能模型需要大量的样本数据,对于官方语言的多媒体数据而言,因官方语言使用较为广泛,产生的数据规模大,基于该大规模的数据进行学习,能够得到具有较好识别效果的人工智能模型。对于非官方语言的多媒体数据,例如少数民族语言的多媒体数据,因少数民族语言的使用较少,产生的数据规模小,小规模的数据难以使得人工智能模型学习到较好的识别效果,进而难以针对少数民族语言的多媒体数据进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多媒体数据的挖掘方法,其特征在于,包括:获取少数民族语言的多媒体数据的转写结果和翻译结果,以及获取第一关键词和第二关键词,所述第一关键词为官方语言的关键词,所述第二关键词为翻译得到的少数民族语言的关键词;根据所述转写结果和所述翻译结果,结合所述第一关键词和所述第二关键词,获得所述多媒体数据中存在关键词片段的置信度;根据所述多媒体数据中存在关键词片段的置信度和关键词识别门限,获得识别结果,所述识别结果包括所述多媒体数据中识别到的关键词。2.根据权利要求1所述的方法,其特征在于,所述根据所述转写结果和所述翻译结果,结合所述第一关键词和所述第二关键词,获得所述多媒体数据中存在关键词片段的置信度,包括:根据所述转写结果和所述第二关键词确定所述转写结果中存在所述第二关键词的置信度,以及根据所述翻译结果和所述第一关键词,确定所述翻译结果中存在所述第一关键词的置信度;根据所述转写结果中存在所述第二关键词的置信度以及所述翻译结果中存在所述第一关键词的置信度,获得所述多媒体数据中存在关键词片段的置信度。3.根据权利要求2所述的方法,其特征在于,所述根据所述转写结果和所述第二关键词,确定所述转写结果中存在所述第二关键词的置信度,包括:将所述第二关键词与所述转写结果进行字符匹配,根据字符匹配的结果获得所述转写结果中存在所述第二关键词的第一置信度;和/或,确定所述第二关键词的词向量与所述转写结果中至少一个单词的词向量的相似度,根据所述相似度获得所述转写结果中存在所述第二关键词的第二置信度。4.根据权利要求3所述的方法,其特征在于,所述转写结果中存在所述第二关键词的第一置信度通过所述转写结果的句子中存在所述第二关键词的第一置信度表征;当所述第二关键词与所述句子匹配时,则所述句子中存在所述第二关键词的第一置信度为所述第二关键词对应的第一关键词的权重与预设系数的乘积,否则所述第一置信度为零。5.根据权利要求3所述的方法,其特征在于,所述转写结果中存在所述第二关键词的第二置信度通过所述转写结果的句子中存在所述第二关键词的第二置信度表征;所述第二关键词的词向量与所述转写结果中单词的词向量的相似度通过所述第二关键词的词向量与所述转写结果的句子中单词的词向量之间的距离表征;所述转写结果的句子中存在所述第二关键词的第二置信度为目标距离的加权和值,所述目标距离为所述句子中目标单词的词向量与所述第二关键词的词向量之间的距离,所述目标单词为所述距离不小于预设距离的单词,所述目标距离的权重为所述第一关键词的权重和所述句子中所述目标单词的权重的乘积。6.根据权利要求2所述的方法,其特征在于,所述根据所述翻译结果和所述第一关键词,确定所述翻译结果中存在所述第一关键词的置信度,包括:将所述第一关键词与所述翻译结果进行字符匹配,根据字符匹配的结果获得所述翻译结果中存在所述第一关键词的第三置信度;和/或,
确定所述第一关键词的词...

【专利技术属性】
技术研发人员:王培养
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1