【技术实现步骤摘要】
内容聚类方法及系统
[0001]本公开涉及聚类
,尤其涉及一种内容聚类方法及系统。
技术介绍
[0002]目前,随着移动互联网、物联网等新技术的不断发展,图片、音频、视频和文本等多媒体内容的信息量越来越大。为了从海量的多媒体内容中挖掘有意义的信息,一般会对海量的多媒体内容进行聚类,以基于聚类后的多媒体内容进行话题检测、自动文摘等自然语言处理。
[0003]然而,目前的内容聚类方法很难准确且快速的进行聚类,难以满足自然语言处理场景的实际聚类需求。因此,需要提出一种新的内容聚类方法,以解决目前聚类方法中的聚类准确性低且效率低的问题。
技术实现思路
[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种内容聚类方法及系统。
[0005]第一方面,本公开提供了一种内容聚类方法,该方法包括:获取待聚类的多媒体内容集,待聚类的多媒体内容集包括第一多媒体内容集和第二多媒体内容集;根据第一多媒体内容集中第一多媒体内容的多媒体特征生成第一聚类簇,多媒体特征包括语义特征、实体特征以 ...
【技术保护点】
【技术特征摘要】
1.一种内容聚类方法,其特征在于,包括:获取待聚类的多媒体内容集,所述待聚类的多媒体内容集包括第一多媒体内容集和第二多媒体内容集;根据所述第一多媒体内容集中第一多媒体内容的多媒体特征生成第一聚类簇,所述多媒体特征包括语义特征、实体特征以及词语特征中的至少两种;以所述第一聚类簇中的簇中心为聚类中心,对所述第二多媒体内容集中第二多媒体内容进行聚类,得到目标聚类簇。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一多媒体内容集中第一多媒体内容的多媒体特征生成第一聚类簇,包括:基于所述第一多媒体内容的多媒体特征,计算每两个所述第一多媒体内容之间的第一聚类相似度;根据所述第一聚类相似度,对所述第一多媒体内容集中的所述第一多媒体内容进行聚类,得到所述第一聚类簇。3.根据权利要求2所述的方法,其特征在于,所述多媒体特征包括语义特征、实体特征以及词语特征;其中,所述基于所述第一多媒体内容的多媒体特征,计算每两个所述第一多媒体内容之间的第一聚类相似度,包括:基于所述第一多媒体内容的词语特征,计算每两个所述第一多媒体内容之间的第一相似度;基于所述第一多媒体内容的实体特征,计算每两个所述第一多媒体内容之间的第二相似度;基于所述第一多媒体内容的语义特征,计算每两个所述第一多媒体内容之间的第三相似度;针对每两个第一多媒体内容,对所述两个第一多媒体内容的所述第一相似度、所述第二相似度和所述第三相似度进行加权平均计算,得到所述第一聚类相似度。4.根据权利要求2所述的方法,其特征在于,所述根据所述第一聚类相似度,对所述第一多媒体内容集中的所述第一多媒体内容进行聚类,得到所述第一聚类簇,包括:将所述第一聚类相似度大于或等于相似度阈值的两个所述第一多媒体内容聚类到同一簇。5.根据权利要求1所述的方法,其特征在于,所述以所述第一聚类簇中的簇中心为聚类中心,对所述第二多媒体内容集中第二多媒体内容进行聚类,得到目标聚类簇,包括:基于所述第一聚类簇中各个簇中心的多媒体特征和所述第二多媒体内容的多媒体特征,计算所述第二多媒体内容与所述各个簇中心的第二聚类相似度;响应于所述第二多媒体内容与簇中心中的第一簇中心的第二聚类相似度最大,且大于预设阈值,则将所述第二多媒体内容添加至所述第一簇中心所在的第一聚类簇。6.根据权利要求5所述的方法,其特征在于,所述将所述第二多媒体内容添加至所述第一簇中心所在的第一聚类簇,包括:判断所述第一簇中心所在的第一聚类簇在预设时间内是否存在内容更新;如果是,则将所述第二多媒体内容添加至所述第一簇中心所在的第一聚类簇中。
7.根据权利要求6所述的方法,其特征在于,在所述将所述第...
【专利技术属性】
技术研发人员:王宇琪,张佳旭,郭建彬,蒋永余,方省,曹家,罗引,王磊,
申请(专利权)人:北京中科闻歌科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。