视频分类模型的训练方法和视频分类方法技术

技术编号:13638384 阅读:52 留言:0更新日期:2016-09-03 03:27
本发明专利技术公开了一种视频分类模型的训练方法以及基于训练好的视频分类模型对视频进行分类的方法。其中,视频分类模型的训练方法,包括获取某领域视频集合中每个视频的文本内容和已有类别标签;对每个视频的文本内容进行分词,得到每个视频的属性词集合;建立贝叶斯模型,将该领域视频集合中每个视频的属性词集合和已有类别标签输入至贝叶斯模型以对所述贝叶斯模型进行训练,得到视频分类模型。对视频进行分类的方法包括对待分类视频的文本内容进行分词,得到待分类视频的属性词集合,将属性词集合中的每个属性词输入视频分类模型,从而确定所述待分类视频在所述类别目录中的类别标签。本公开能够高效、简便和高准确率的实现对视频的分类。

【技术实现步骤摘要】

本公开属于互联网
,尤其涉及一种视频分类模型的训练方法和视频分类方法
技术介绍
在大数据的环境下,视频的分类存储对于实现视频的管理以及兴趣推荐具有十分重要的作用。现有技术中,对于一些专业性的类别视频播放网站(例如播放教学视频的教育平台),具有自己的一套视频管理系统,对网站上的视频进行分类存储。但由于类别视频播放网站自身能力有限,不具备长程转码能力,当其想上传一个视频时,需要利用视频服务提供商(例如乐视云平台)提供的长程转码功能生成该视频的ID,再将该ID分发至视频服务提供商的CDN平台上,当其需要播放该视频时,只需要从视频服务提供商的CDN平台上取到该视频的网络地址即可实现播放。由于ID一般由一串无意义的字母、数字构成(每个视频的ID是唯一的),因此对于视频服务提供商来讲,存储于其云平台中的该视频的内容标签仅仅为一串无意义的字母、数字。因此,若视频服务提供商想对其云平台中这种类型的视频进行分类十分困难。
技术实现思路
本公开的目的是为了实现视频服务提供商(例如乐视云平台)对存储于其所搭建的云平台服务器群集中的视频的准确分类。为了实现本公开的目的,本公开提供一种视频分类模型的训练方法,包括以下步骤:获取某领域视频集合中每个视频的文本内容和已有类别标签;对每个视频的文本内容进行分词,得到每个视频的属性词集合;建立贝叶斯模型,将该领域视频集合中每个视频的属性词集合和已有类别标签输入至贝叶斯模型以对所述贝叶斯模型进行训练,得到视频分类模型。进一步,所述的视频分类模型的训练方法,其中,在获取某领域视频集合中每个视频的文本内容和已有类别标签的步骤之后,还包括:根据所述已有类别标签,建立该领域视频集合的类别目录。进一步,所述的视频分类模型的训练方法,其中,所述视频分类模型的输入参数为属性词,输出参数为:多个类别概率值;其中,每个类别概率值表示该属性词属于所述类别目录中某个类别的概率。进一步,所述的视频分类模型的训练方法,其中,所述获取某领域的视频集合中每个视频的文本内容和类别标签的步骤包括:获取存储于云服务器中的某领域的视频集合中每个视频的网络地址;根据所述视频的网络地址,通过网页爬取算法获取每个视频的播放网页;从每个视频播放页网中提取当前视频的文本内容和类别标签。进一步,所述的视频分类模型的训练方法,其中,所述对每个视频的文本内容进行分词,得到每个视频的属性词集合的步骤包括:对所述文本内容进行分词,得到分词结果;根据词性标注算法对所述分词结果中的每个词语进行词性标注,并根据标注结果对所述分词结果中的词语进行筛选,得到一级关键词集合;根据停用词表,对所述一级关键词集合进行过滤,得到属性词集合。进一步,所述的视频分类模型的训练方法,其中,所述文本内容包括当前视频的标题和/或内容简介。进一步,所述的视频分类模型的训练方法,其中,所述,所述贝叶斯模型为朴素贝叶斯模型。根据本公开的另一个方面,还提供了一种视频分类方法,包括以下步骤:获取待分类视频的文本内容;对待分类视频的文本内容进行分词,得到待分类视频的属性词集合;将待分类视频的属性词集合中的每个属性词输入权利要求1-4任一项所
述的视频分类模型,得到待分类视频的每个属性词的类别概率值;根据所述每个属性词的类别概率值,确定所述待分类视频在所述类别目录中的类别标签。进一步,所述的视频分类方法,所述得到待分类视频的每个属性词的类别概率值的步骤中,所述每个属性词包括至少一个类别概率值。进一步,所述的视频分类方法,所述根据所述每个属性词的类别概率值,对待分类视频进行分类的步骤包括以下步骤:从每个属性词的多个类别概率值中,选取数值最大的一个作为该属性词的最优类别概率值;对待分类视频的属性词集合中的各个属性词的最优类别概率值进行乘积运算,得到所述待分类视频的类别概率;根据待分类视频的类别概率,确定所述待分类视频在所述类别目录中的类别标签。本公开能够高效、简便和高准确率的实现对视频的分类。附图说明图1是本公开视频分类模型的训练方法的步骤流程图;图2是本公开视频分类模型的训练方法中获取视频的文本内容和类别标签的步骤流程图;图3是本公开视频分类模型的训练方法中对每个视频的文本内容进行分词的步骤流程图;图4是本公开视频分类方法的步骤流程图;图5是本公开视频分类方法中根据每个属性词的类别概率值,对待分类视频进行分类的步骤流程图。具体实施方式为使本公开的目的、技术方案和优点更加清楚明了,下面结合具体实施
方式并参照附图,对本公开进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。图1是本公开视频分类模型的训练方法的步骤流程图。如图1所示,一种视频分类模型的训练方法,包括以下步骤:步骤S1,获取某领域视频集合中每个视频的文本内容和已有类别标签。在一些专业性的类别视频播放网站(例如播放教学视频的教育平台),网站上的视频播放页中包括以自然语言编辑的对视频的内容进行描述的文本内容,所述文本内容包括当前视频的标题和/或内容简介。某领域可以是教育、新闻、娱乐等领域。另外,这些专业性的类别视频播放网站为了便于对视频的管理,一般都会建立自己的一套类别目录,其中,所述一套类别目录包括多个类别名称,每个视频都会被划分到相应的类别名称下,并将该类别名称作为该视频的类别标签。本公开中所述的已有类别标签指的视频在专业性的类别视频播放网站中的类别标签。在获取某领域视频集合中每个视频的文本内容和已有类别标签的步骤之后,还包括:根据所述已有类别标签,建立该领域视频集合的类别目录的步骤。需要说明的是,由于视频服务提供商的云平台(例如乐视云平台)中所存储的某一领域的视频集合中,其中的视频来源不仅仅于一个视频播放网站,可能是来源于海量的视频播放网站,因此,由于每个视频播放网站的已有的类别目录可能不全面,不能覆盖到某领域视频集合中的所有的视频,因此,本公开需要基于已有类别标签,重新建立该领域视频集合的类别目录。具体的,本公开以教育领域为例,重新建立的教育领域视频集合的类别目录中的类别名称主要包括:学前、小学、小升初、初中、中考、高中、高考、大学、出国留学、公务员、司法、IT、财经金融、国际游学、管理、生活技能、体育、夏令营、兴趣、艺术、语言培训、孕婴辅导、职业技能、其他。步骤S2,对每个视频的文本内容进行分词,得到每个视频的属性词集合。本步骤中,可以采用现有技术中的分词算法对每个视频的文本内容进行分词,得到每个视频的属性词集合。其中,每个视频的属性词集合包括至少一个属性词。步骤S3,建立贝叶斯模型,将该领域视频集合中每个视频的属性词集合和已有类别标签输入至贝叶斯模型以对所述贝叶斯模型进行训练,得到视频分类模型。所述贝叶斯模型为朴素贝叶斯模型。所述视频分类模型的输入参数为属性词,输出参数为:多个类别概率值。其中,每个类别概率值表示该属性词属于所述类别目录中某个类别的概率。图2是本公开视频分类模型的训练方法中获取视频的文本内容和类别标签的步骤流程图。如图2所示,所述获取某领域的视频集合中每个视频的文本内容和类别标签的步骤包括:步骤S11,获取存储于云服务器中的某领域的视频集合中每个视频的网络地本文档来自技高网
...

【技术保护点】
一种视频分类模型的训练方法,包括:获取某领域视频集合中每个视频的文本内容和已有类别标签;对每个视频的文本内容进行分词,得到每个视频的属性词集合;建立贝叶斯模型,将该领域视频集合中每个视频的属性词集合和已有类别标签输入至贝叶斯模型以对所述贝叶斯模型进行训练,得到视频分类模型。

【技术特征摘要】
1.一种视频分类模型的训练方法,包括:获取某领域视频集合中每个视频的文本内容和已有类别标签;对每个视频的文本内容进行分词,得到每个视频的属性词集合;建立贝叶斯模型,将该领域视频集合中每个视频的属性词集合和已有类别标签输入至贝叶斯模型以对所述贝叶斯模型进行训练,得到视频分类模型。2.根据权利要求1所述的方法,其中,在获取某领域视频集合中每个视频的文本内容和已有类别标签之后,还包括:根据所述已有类别标签,建立该领域视频集合的类别目录。3.根据权利要求2所述的方法,其中,所述视频分类模型的输入参数为属性词,输出参数为:多个类别概率值;其中,每个类别概率值表示该属性词属于所述类别目录中某个类别的概率。4.根据权利要求1-3任一项所述的方法,其中,所述获取某领域的视频集合中每个视频的文本内容和类别标签包括:获取存储于云服务器中的某领域的视频集合中每个视频的网络地址;根据所述视频的网络地址,获取每个视频的播放网页;从每个视频播放页网中提取当前视频的文本内容和类别标签。5.根据权利要求1-3任一项所述的方法,其中,所述对每个视频的文本内容进行分词,得到每个视频的属性词集合包括:对所述文本内容进行分词,得到分词结果;根据词性标注算法对所述分词结果中的每个词语进行词...

【专利技术属性】
技术研发人员:张立宁余婧
申请(专利权)人:乐视控股北京有限公司乐视云计算有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1