一种用于生成内容项的标签的方法和装置制造方法及图纸

技术编号:12417465 阅读:82 留言:0更新日期:2015-12-02 12:09
本发明专利技术的目的是提供一种用于生成内容项的标签的方法和装置。根据本发明专利技术的方法包括以下步骤:获取一标杆标签信息,其中,所述标杆标签信息对应一组标杆内容项;获取分别与所述标杆标签信息近似的一个或多个候选内容项;对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息。

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种用于生成内容项的标签的方法和装置
技术介绍
现有的社交网络的内容主要采用用户生成内容(User Generated Content,UGC)的方式而产生,然而如何对这些UGC内容生成准确的、符合用户习惯的标签则成为一个难题。当前对UGC内容生成标签主要有三种方式:一种是采用UGC方式再次生成UGC内容的标签,即通过用户标注的方式来生成标签;第二种是通过关键词提取的方式来生成标签;第三种是采用机器学习的方式来生成标签。然而以上三种方式都存在各自的缺点:采用UGC方式来生成标签的方式,所生成的标签的覆盖率一般较低;采用关键词提取的方式所生成的标签一般比较生硬,不符合用户的使用习惯;采用机器学习的方式需要大量策略人员监督学习并纠正机器学习策略,成本较高,并且所生成的标签仍然可能不够准确。
技术实现思路
本专利技术的目的是提供一种用于生成内容项的标签的方法和装置。根据本专利技术的一个方面,提供了一种用于生成内容项的标签的方法,其中,所述方法包括以下步骤:-获取一标杆标签信息,其中,所述标杆标签信息对应一组标杆内容项;-获取分别与所述标杆标签信息近似的一个或多个候选内容项;-对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息。根据本专利技术的一个方面,还提供了一种用于生成内容项的标签的标签生成装置,其中,所述标签生成装置包括:用于获取一标杆标签信息的装置,其中,所述标杆标签信息对应一组标杆内容项的装置;用于获取分别与所述标杆标签信息近似的一个或多个候选内容项的装置;用于对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息的装置。与现有技术相比,本专利技术具有以下优点:通过获取标杆标签来为与各个标杆标签近似的内容项生成标签,提高了所生成的标签的覆盖率,并且,通过采用用户标注的标签作为标杆标签,能够极大的增加标签信息的准确性;此外,根据本专利技术的方案,无需如机器学习的方式那样,需要大量人员花费时间来进行纠正机器学习策略等工作,成本较低。【附图说明】通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示意出了根据本专利技术的一种用于生成内容项的标签的方法流程图;图2示意出了根据本专利技术的一种用于生成内容项的标签的标签生成装置的结构示意图。附图中相同或相似的附图标记代表相同或相似的部件。【具体实施方式】下面结合附图对本专利技术作进一步详细描述。图1示意出了根据本专利技术的一种用于生成内容项的标签的方法流程图。根据本专利技术的方法包括步骤S1、步骤S2和步骤S3。其中,根据本专利技术的方法通过包含于计算机设备中的标签生成装置来实现。所述计算机设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述计算机设备包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、PDA、游戏机、或IPTV等。其中,所述用户设备及网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。需要说明的是,所述用户设备、网络设备以及网络仅为举例,其他现有的或今后可能出现的用户设备、网络设备以及网络如可适用于本专利技术,也应包含在本专利技术保护范围以内,并以引用方式包含于此。参照图1,在步骤SI中,标签生成装置获取一标杆标签信息。其中,所述标杆标签信息对应一组标杆内容项。优选地,标签生成装置从被用户标注的一个或多个标签信息中获取一标杆标签信息。具体地,标签生成装置获取一标杆标签信息的方式包括但不限于以下任一种:I)直接获取前次已生成的标杆标签;2)对获取的各个标签信息进行归一化处理,并将处理后的标签信息作为标杆标签;该归一化处理包括将词义相近的标签信息进行统一的处理,例如,对于词义相近的标签信息“笑话”、“幽默”和“搞笑”,将其统一为“笑话”,并将“笑话”作为标杆标签。3)对获取的标签信息执行优化选择,来获取标杆标签信息;所述步骤SI包括步骤SlOl (图未示)和步骤S102 (图未示)。在步骤SlOl中,标签生成装置获取与所述一个或多个初始内容项对应的一个或多个初始标签信息。 其中,所述初始标签信息包括各种方式生成的标签信息。优选地,所述初始标签信息包括由用户标注生成的标签信息。在步骤S102中,标签生成装置对所述一个或多个初始标签信息执行优化选择,以从所述一个或多个初始标签信息中选择部分或全部作为所述标杆标签信息。具体地,标签生成装置基于第一选择条件,由所述一个或多个初始标签信息中选择满足所述第一选择条件的至少一个初始标签信息;接着,标签生成装置基于所选择的所述至少一个初始标签信息来确定所述标杆标签信息。其中,所述第一选择条件基于各个标签信息的以下至少任一项来确定:I)标签信息对应的内容项的内容用户信息;该内容用户信息包括各种与标记过该内容项的用户相关的信息,例如,对同一内容项标记标签的用户数量或用户等级等。2)标签信息的属性信息;例如,标签信息的文字数、词性、或者,标签信息是否包含敏感词等。3)使用所述标签信息的标签用户信息;该标签用户信息包括各种与使用该标签信息的用户相关的信息,例如,使用该标签对内容项进行标记的用户的数量、各个用户在各自所属网站的用户等级等。例如,标签生成装置包含于一论坛网站的服务器中,标签生成装置对应的第一选择条件包括:对同一内容项,标记标签的用户数量大于阀值Π ;标签信息的字数大于阀值f2;使用该标签对内容项进行标记的用户的级别高于“新人”等级。标签生成装置将该论坛中的所有帖子作为初始内容项,并获取其各自对应的初始标签信息,接着基于该第一选择条件,由所述一个或多个初始标签信息中选择满足所述第一选择条件的初始标签信息,作为标杆标签信息。接着,继续参照图1,在步骤S2中,标签生成装置获取分别与所述标杆标签信息近似的一个或多个候选内容项。具体地,标签生成装置获取分别与所述标杆标签信息近似的一个或多个候选内容项的方式包括但不限于以下任一种:I)基于预定关键词确定;例如,将包含与标杆标签信息对应的预定关键词的内容项作为与标杆标签信息近似的候选内容项。2)基于内容项之间的内容距离信息来确定;其中,所述内容距离信息包括各种可用于指示内容项的文本内容的近似程度的信息。例如,基于邻近算法(k-NearestNeighbor,KNN)得到的内容项之间的KNN距离信息。具体地,标签生成装置在所有内容项中,获取各个内容项与所述标杆内容项的内容距离信息;接着,标签生成装置根据各个内容项与标杆内容项的内容距离信息,选择与所述标杆内容项的内容距离信息满足第二选择条件的内容项作为候选内容项。其中,所述第二选择条件用于选择与标杆内容项内本文档来自技高网...

【技术保护点】
一种用于生成内容项的标签的方法,其中,所述方法包括以下步骤:‑获取一标杆标签信息,其中,所述标杆标签信息对应一组标杆内容项;‑获取分别与所述标杆标签信息近似的一个或多个候选内容项;‑对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:郝运峰
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1