【技术实现步骤摘要】
一种多媒体数据的挖掘方法、装置、存储介质及设备
[0001]本申请涉及数据挖掘
,尤其涉及一种多媒体数据的挖掘方法、装置、存储介质及设备。
技术介绍
[0002]随着互联网尤其是移动互联网的不断发展,产生了海量数据。通过对海量数据进行挖掘,可以满足用户的不同需求。例如,在文献检索的应用场景中,通过关键词对文本数据进行检索,可以向用户返回与该关键词相关的文本数据。
[0003]在一些场景中,除了文本数据外,还包括大量的多媒体数据。该多媒体数据包括语音数据、图像数据、视频数据等中的一种或多种。通过语音识别、图像识别、视频分析等人工智能(artificial intelligence,AI)技术对上述多媒体数据进行挖掘已成为主流的实现方式之一。
[0004]AI技术通常是以数据驱动的。对于联合国6大官方语言,如英语、法语、俄语、汉语、西班牙语、阿拉伯语等,因其使用广泛,产生的数据规模大,通过对大规模的数据进行学习,可以获得对官方语言的多媒体数据的较强的AI处理能力。而少数民族语言,例如维吾尔语、藏语、蒙古语、哈萨克语、彝语等,因使用人口少,产生的数据规模小,基于小规模的数据,难以实现对少数民族语言的多媒体数据的挖掘。
[0005]如何提供一种少数民族语言的多媒体数据的挖掘方法,成为业界重点关注的问题。
技术实现思路
[0006]本申请的主要目的在于提供一种多媒体数据的挖掘方法、装置、存储介质及设备,能够实现对少数民族语言的多媒体数据的挖掘。
[0007]第一方面,本申请 ...
【技术保护点】
【技术特征摘要】
1.一种多媒体数据的挖掘方法,其特征在于,包括:获取少数民族语言的多媒体数据的转写结果和翻译结果,以及获取第一关键词和第二关键词,所述第一关键词为官方语言的关键词,所述第二关键词为翻译得到的少数民族语言的关键词;根据所述转写结果和所述翻译结果,结合所述第一关键词和所述第二关键词,获得所述多媒体数据中存在关键词片段的置信度;根据所述多媒体数据中存在关键词片段的置信度和关键词识别门限,获得识别结果,所述识别结果包括所述多媒体数据中识别到的关键词。2.根据权利要求1所述的方法,其特征在于,所述根据所述转写结果和所述翻译结果,结合所述第一关键词和所述第二关键词,获得所述多媒体数据中存在关键词片段的置信度,包括:根据所述转写结果和所述第二关键词确定所述转写结果中存在所述第二关键词的置信度,以及根据所述翻译结果和所述第一关键词,确定所述翻译结果中存在所述第一关键词的置信度;根据所述转写结果中存在所述第二关键词的置信度以及所述翻译结果中存在所述第一关键词的置信度,获得所述多媒体数据中存在关键词片段的置信度。3.根据权利要求2所述的方法,其特征在于,所述根据所述转写结果和所述第二关键词,确定所述转写结果中存在所述第二关键词的置信度,包括:将所述第二关键词与所述转写结果进行字符匹配,根据字符匹配的结果获得所述转写结果中存在所述第二关键词的第一置信度;和/或,确定所述第二关键词的词向量与所述转写结果中至少一个单词的词向量的相似度,根据所述相似度获得所述转写结果中存在所述第二关键词的第二置信度。4.根据权利要求3所述的方法,其特征在于,所述转写结果中存在所述第二关键词的第一置信度通过所述转写结果的句子中存在所述第二关键词的第一置信度表征;当所述第二关键词与所述句子匹配时,则所述句子中存在所述第二关键词的第一置信度为所述第二关键词对应的第一关键词的权重与预设系数的乘积,否则所述第一置信度为零。5.根据权利要求3所述的方法,其特征在于,所述转写结果中存在所述第二关键词的第二置信度通过所述转写结果的句子中存在所述第二关键词的第二置信度表征;所述第二关键词的词向量与所述转写结果中单词的词向量的相似度通过所述第二关键词的词向量与所述转写结果的句子中单词的词向量之间的距离表征;所述转写结果的句子中存在所述第二关键词的第二置信度为目标距离的加权和值,所述目标距离为所述句子中目标单词的词向量与所述第二关键词的词向量之间的距离,所述目标单词为所述距离不小于预设距离的单词,所述目标距离的权重为所述第一关键词的权重和所述句子中所述目标单词的权重的乘积。6.根据权利要求2所述的方法,其特征在于,所述根据所述翻译结果和所述第一关键词,确定所述翻译结果中存在所述第一关键词的置信度,包括:将所述第一关键词与所述翻译结果进行字符匹配,根据字符匹配的结果获得所述翻译结果中存在所述第一关键词的第三置信度;和/或,
确定所述第一关键词的词...
【专利技术属性】
技术研发人员:王培养,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。