基于评论的媒体内容项的语言识别的方法、系统和介质技术方案

技术编号:18824820 阅读:55 留言:0更新日期:2018-09-01 13:43
提供一种用于媒体内容项的语言识别的方法、系统和介质。在一些实施例中,该方法包括:获得与媒体内容项相关联的多个评论;基于一个或多个判据选择多个评论的子集;为多个评论的子集中的每个评论指配语言概率的向量,其中该向量的每个分量被指配语言概率,该语言概率指示评论包括来自多个语言中的语言的内容的可能性;组合用于所述多个评论的所述子集中的每个评论的语言概率的向量以生成组合的语言向量;基于组合的语言向量识别与媒体内容项相关联的语言;以及基于所识别的语言执行动作。

【技术实现步骤摘要】
【国外来华专利技术】基于评论的媒体内容项的语言识别的方法、系统和介质相关申请的交叉引用本申请要求于2016年6月6日提交的美国专利申请No.15/174,668的权益,其要求于2016年4月14日提交的美国临时专利申请No.62/322,685的权益,因此其中的每一个通过引用被整体合并在此。
所公开的主题涉及用于基于评论的媒体内容项的语言识别的方法、系统和介质。
技术介绍
许多用户从具有视频内容项的大集合中服务访问视频内容。通常,这些集合包括来自不同国家的用户已经上传并且包含各种语言的音频内容和/或文本内容的视频内容。这样,可以将视频内容供应给不太可能理解内容的用户。对于一些视频内容,重要的是,这些服务向用户呈现包含以用户能够理解的语言的音频和/或文本内容的视频内容。然而,这些服务通常依赖于可能或不可能正确识别视频内容中使用的语言的信息,诸如元数据中的信息或上传视频内容的用户提供的信息。此外,在许多情况下,与视频内容相关联的语言尚未由上传视频内容的用户指示。诸如自动语音识别(ASR)的技术有时可以被用于确定视频内容的语言。但是,这种识别技术并不支持所有的语言,并且对视频内容中的背景音乐、噪音和多方对话等存在问题。因此,很难识别视频内容的语言。因此,期望提供用于基于评论的媒体内容项的语言识别的新方法、系统和介质。
技术实现思路
根据所公开的主题的一些实施方式,提供用于基于评论的媒体内容项的语言识别的机制。根据所公开的主题的一些实施方式,提供一种用于媒体内容的语言识别的方法,该方法包括:获得与媒体内容项相关联的多个评论;基于一个或多个判据选择多个评论的子集;为多个评论的子集中的每个评论指配语言概率的向量,其中该向量的每个分量被指配语言概率,该语言概率指示该评论包括来自多个语言中的语言的内容的可能性;组合用于所述多个评论的所述子集中的每个评论的语言概率的向量以生成组合的语言向量;基于该组合的语言向量识别与媒体内容项相关联的语言;以及基于所识别的语言执行动作。在一些实施例中,基于一个或多个判据选择多个评论的子集包括移除未达到预定单词数量或预定字符数量的评论。在一些实施例中,该方法进一步包括,确定所述多个评论的所述子集中的每个评论的长度,其中所述组合的语言表示是基于每个评论的所确定的长度加权的、针对所述多个语言中的每个语言和跨所述多个评论的所述子集的所述语言概率的加权平均。在一些实施例中,该方法进一步包括确定与所述多个评论的所述子集中的每个评论相关联的投票指示,其中所述组合的语言表示是基于所确定的投票指示加权的、针对所述多个语言中的每个语言和跨所述多个评论的所述子集的所述语言概率的加权平均。在一些实施例中,基于所述组合的语言向量识别与媒体内容项相关联的语言还包括用对应于与媒体内容项相关联的元数据的语言概率的附加向量扩充所述组合的语言向量。在一些实施例中,基于所述组合的语言向量识别与媒体内容项相关联的语言还包括,用媒体内容项信息扩充所述组合的语言向量。在一些实施例中,媒体内容项信息包括媒体内容项的类别。在一些实施例中,执行所述动作还包括响应于呈现媒体内容项,以所识别的语言呈现一个或多个相关媒体内容项。在一些实施例中,执行所述动作还包括:将与所识别的语言相对应的信息发送到广告服务器;从广告服务器接收与识别的语言相对应的广告;以及使广告呈现。在一些实施例中,执行所述动作还包括:确定要呈现的第二媒体内容项具有与所识别的语言不同的语言标识符;以及在呈现第二媒体内容项期间呈现字幕信息,其中该字幕信息使用所识别的语言。根据所公开的主题的一些实施方式,提供一种用于媒体内容的语言识别的系统,该系统包括硬件处理器,该硬件处理器被配置成:获得与媒体内容项相关联的多个评论;基于一个或多个判据选择多个评论的子集;为所述多个评论的所述子集中的每个评论指配语言概率的向量,其中该向量的每个分量被指配语言概率,该语言概率指示该评论包括来自多个语言中的语言的内容的可能性;组合用于所述多个评论的所述子集中的每个评论的语言概率的向量以生成组合的语言向量;基于所述组合的语言向量识别与媒体内容项相关联的语言;以及基于所识别的语言执行动作。根据所公开的主题的一些实施方式,提供一种包含计算机可执行指令的非暂时性计算机可读介质,当由处理器执行该计算机可执行指令时,使处理器执行用于媒体内容的语言标识的方法,该方法包括:获得与媒体内容项相关联的多个评论;基于一个或多个判据选择多个评论的子集;为所述多个评论的所述子集中的每个评论指配语言概率的向量,其中该向量的每个分量被指配语言概率,该语言概率指示该评论包括来自多个语言中的语言的内容的可能性;组合用于所述多个评论的所述子集中的每个评论的语言概率的向量以生成组合的语言向量;基于所述组合的语言向量识别与媒体内容项相关联的语言;并且基于所识别的语言执行动作。根据所公开的主题的一些实施方式,提供一种用于媒体内容的语言识别的系统,该系统包括:用于获得与媒体内容项相关联的多个评论的装置;用于基于一个或多个判据选择多个评论的子集的装置;用于为所述多个评论的所述子集中的每个评论指配语言概率的向量的装置,其中该向量的每个分量被指配语言概率,该语言概率指示评论包括来自多个语言中的语言的内容的可能性;用于组合多个评论的子集中的每个评论的语言概率的向量以生成组合的语言向量的装置;用于基于组合的语言向量识别与媒体内容项相关联的语言的装置;以及用于基于所识别的语言来执行动作的装置。附图说明当结合下述附图进行考虑时,参考下述对所公开的主题的详细描述能够更全面地理解所公开的主题的各种目的、特征和优点,其中相似的附图标记识别相似的元件。图1示出根据所公开的主题的一些实施例的用于呈现视频内容和与所呈现的视频内容相关联的评论的用户界面的说明性示例。图2示出根据所公开的主题的一些实施例的适用于实现用于基于评论的媒体内容项的语言标识的在此描述的机制的说明性系统的示意图。图3示出根据所公开的主题的一些实施例的可以在图2的服务器和/或用户设备中使用的硬件的详细示例。图4示出根据所公开的主题的一些实施例的用于基于评论确定媒体内容项的语言的过程的说明性示例。具体实施方式根据所公开的主题的各种实施例,提供用于基于评论对媒体内容项进行语言识别的机制(能够包括方法、系统和介质)。在所公开的主题的一些实施例中,本文描述的机制能够检索与媒体内容项相关联的评论。这些评论能够以任何合适的方式(例如,按照长度、按照人气、按照用户参与、通过任何其它合适的方式或其任何适当的组合)进行排序和/或过滤。例如,这能够包括过滤掉长度小于5个单词或少于20个字符的评论(例如,移除简短的无意义的评论)、过滤掉自动生成的评论(例如,“SharedonthisService(在此服务上共享)”评论)、过滤掉长度超过一万个字符的评论(例如,移除机器生成的评论)、和/或过滤掉包括URL且没有文本内容的评论。应注意的是,检索到的评论能够包括可公开访问的评论。还应注意的是,评论能够在一些情况下被删除,使得评论不再与媒体内容项相关联。这里描述的语言识别机制能够检索被更新的评论的集合(例如,从与媒体服务相关联的评论数据库),使得删除的评论被排除在考虑之外。在选择评论的子集时,所述机制能够为每个评论生成多个语言中的每一种的概本文档来自技高网...

【技术保护点】
1.一种用于媒体内容的语言识别的方法,所述方法包括:获得与媒体内容项相关联的多个评论;基于一个或多个判据选择所述多个评论的子集;为所述多个评论的所述子集中的每个评论指配语言概率的表示,其中,所述表示的每个分量被指配语言概率,所述语言概率指示所述评论包括来自多个语言中的语言的内容的可能性;组合用于所述多个评论的所述子集中的每个评论的语言概率的所述表示以生成组合的语言表示;基于所述组合的语言表示识别与所述媒体内容项相关联的语言;以及基于所识别的语言执行动作。

【技术特征摘要】
【国外来华专利技术】2016.04.14 US 62/322,685;2016.06.06 US 15/174,6681.一种用于媒体内容的语言识别的方法,所述方法包括:获得与媒体内容项相关联的多个评论;基于一个或多个判据选择所述多个评论的子集;为所述多个评论的所述子集中的每个评论指配语言概率的表示,其中,所述表示的每个分量被指配语言概率,所述语言概率指示所述评论包括来自多个语言中的语言的内容的可能性;组合用于所述多个评论的所述子集中的每个评论的语言概率的所述表示以生成组合的语言表示;基于所述组合的语言表示识别与所述媒体内容项相关联的语言;以及基于所识别的语言执行动作。2.根据权利要求1所述的方法,其中,基于一个或多个判据选择所述多个评论的所述子集包括:移除未达到预定单词数量或预定字符数量的评论。3.根据权利要求1所述的方法,进一步包括确定所述多个评论的所述子集中的每个评论的长度,其中,所述组合的语言表示是基于每个评论的所确定的长度加权的、针对所述多个语言中的每个语言和跨所述多个评论的所述子集的所述语言概率的加权平均。4.根据权利要求1所述的方法,进一步包括确定与所述多个评论的所述子集中的每个评论相关联的投票指示,其中,所述组合的语言表示是基于所确定的投票指示加权的、针对所述多个语言中的每个语言和跨所述多个评论的...

【专利技术属性】
技术研发人员:艾谢·塞扎·多鲁厄兹纳塔利亚·波诺马雷瓦克里斯托夫·乌尔斯·厄勒迪米特里·卡涅夫斯基
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1