应用标注标签方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:19341877 阅读:25 留言:0更新日期:2018-11-07 13:47
本发明专利技术提供一种应用标注标签方法、装置、存储介质及计算机设备。该方法包括:将待标注标签应用的描述信息进行分词,获得分词集合;根据所述分词集合生成所述描述信息的实数向量;将所述实数向量输入预生成的标签生成模型中,得到标签预测向量;其中,所述标签生成模型用于表征所述实数向量与所述标签预测向量之间的关联关系;获取所述标签预测向量中预测值大于阈值的元素,将该元素对应的分词作为所述待标注标签应用的标签。该应用标注标签方法实现对新入库的应用进行自动化标注标签。

Labeling methods, devices, storage media and computer equipment

The invention provides an application labelling label method, device, storage medium and computer equipment. The method includes: participle the description information to be tagged and obtain the set of participle; generate the real vector of the description information according to the set of participle; input the real vector into the pre-generated tag generation model to obtain the tag prediction vector; and the tag generation model is used to represent the tag. The relationship between the real number vector and the label prediction vector is described; the element whose prediction value is greater than the threshold value in the label prediction vector is acquired, and the participle corresponding to the element is used as the label for the label to be labeled. The tagging method is applied to automatically label the application of new storage.

【技术实现步骤摘要】
应用标注标签方法、装置、存储介质及计算机设备
本专利技术涉及互联网
,具体而言,本专利技术涉及一种应用标注标签方法、装置、存储介质及计算机设备。
技术介绍
在应用商店的运营过程中,对于一个新入库的应用,需要给应用打上标签,然后把新入库应用放到相应的标签类目下面,从而方便用户在通过分类信息找到该应用。传统给新入库的应用打标签的方法:通过人工对新入库进行打标签,这样的方式一方面需要耗费大量的人力成本,另一方面人工评测受主观性影响,应用标签的质量无法确保。
技术实现思路
本专利技术的目的旨在提供一种应用标注标签方法、装置、存储介质及计算机设备,以实现对新入库的应用进行自动化标注标签。本专利技术提供以下方案:一种应用标注标签方法,包括以下步骤:将待标注标签应用的描述信息进行分词,获得分词集合;根据所述分词集合生成所述描述信息的实数向量;将所述实数向量输入预生成的标签生成模型中,得到标签预测向量;其中,所述标签生成模型用于表征所述实数向量与所述标签预测向量之间的关联关系;获取所述标签预测向量中预测值大于阈值的元素,将该元素对应的分词作为所述待标注标签应用的标签。在其中一个实施例中,所述根据所述分词集合生成所述描述信息的实数向量,包括:获取所述分词集合中每个分词的价值;根据所述每个分词的价值获取预设数量的分词;根据所述预设数量的分词生成特征向量;根据所述特征向量生成所述描述信息的实数向量。在其中一个实施例中,所述根据所述每个分词的价值获取预设数量的分词,包括:按照分词价值从大到小的顺序对所述分词集合中的分词进行排序;获取排序在前的预设数量的分词。在其中一个实施例中,所述根据所述特征向量生成所述描述信息的实数向量,包括:获取所述特征向量中每个元素的字符串的哈希值;根据所述哈希值生成所述应用描述信息的实数向量。在其中一个实施例中,所述分词的价值通过以下方式获得:将样本应用的描述信息进行分词;统计每个分词出现的次数,根据分词出现的次数得到该分词的价值。在其中一个实施例中,所述标签生成模型通过以下步骤生成:获取样本应用和其标签向量;将样本应用的描述信息进行分词,获得样本分词集合;根据所述样本分词集合生成样本应用描述信息的实数向量;将样本应用描述信息的实数向量和对应的标签向量,输入深度神经网络中进行训练,生成所述标签生成模型。在其中一个实施例中,所述将样本应用描述信息的实数向量和对应的标签向量,输入深度神经网络中进行训练,生成所述标签生成模型,包括:将所述样本应用描述信息的实数向量和对应的标签向量输入预先构建的损失函数中;通过预设算法求解所述损失函数最小时对应的所述深度神经网络的模型参数,根据所述模型参数生成所述标签生成模型。在其中一个实施例中,所述预设算法为梯度下降法。一种应用标注标签装置,包括:分词模块,用于将待标注标签应用的描述信息进行分词,获得分词集合;生成模块,用于根据所述分词集合生成所述描述信息的实数向量;获取模块,用于将所述实数向量输入预生成的标签生成模型中,得到标签预测向量;其中,所述标签生成模型用于表征所述实数向量与所述标签预测向量之间的关联关系;标注标签模块,用于获取所述标签预测向量中预测值大于阈值的元素,将该元素对应的分词作为所述待标注标签应用的标签。一种存储介质,其上存储有计算机程序;所述计算机程序被处理器执行时,实现上述任一实施例所述的应用标注标签方法。一种计算机设备,其包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述任一实施例所述的应用标注标签方法。相比现有技术,本专利技术的方案具有以下优点:本专利技术提供的一种应用标注标签方法,根据待标注标签的应用的描述信息得到该应用的描述信息对应的分词集合,通过分词集合得到该应用的实数向量,进一步将该实数向量输入到标签生成模型中,获取每个分词对应的预测值。当分词的预测值大于预先设定的阈值时,将该预测值对应的分词作为该应用的标签。通过机器学习的方法对新入库的待标注标签的应用打标签,可以大大节省人力物力成本,并且对新入库的应用给出正确的标签判断。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术提供的一种标签生成模型生成方法的一实施例中流程图;图2为本专利技术提供的深度神经网络(DNN)模型的结构图;图3为本专利技术提供的一种应用标注标签方法的一实施例中的流程图;图4为步骤S20的一实施例中的流程图;图5为本专利技术提供的一种应用标注标签装置的一实施例中的结构示意图;图6为本专利技术提供的计算机设备结构一实施例中的示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。本
技术人员可以理解,这里所使用的服务器其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本专利技术的实施例中,远端网络设备、终端设备与服务器之间可通过任何通信方式实现通信,包括但不限于,基于3GPP(3rdGenerationPartnershipProject,第三代合作伙伴计划)、LTE(LongTermEvolution,长期演进)、WIMAX(WorldwideInteroperabilityforMicrowaveAccess,全球微波互联接入)的移动通信、基于TCP/IP(TransmissionControlProtocol/InternetProtocol,传输控制协议/因特网互联协议)、UDP(UserDatagramProtocol,用户数据报协议)的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。本专利技术实施例提供的方案可以应用在应用商店或者其他需要对应用进行打标签的场景中,实现对还未标注标签的应用打上相应匹配的标签。本方案主要使用在运营应用商店的服务器中,通过对新入库的应用的描述信息进行切词分析,给新入库的应用自动化生成匹配的标签。另外,本专利技术提供的方案对应用场景以及应用的设备不做限定。本专利技术实施例通过标签生成模型实现自动化生成应用的标签,因此本专利技术实施例本文档来自技高网
...

【技术保护点】
1.一种应用标注标签方法,其特征在于,包括以下步骤:将待标注标签应用的描述信息进行分词,获得分词集合;根据所述分词集合生成所述描述信息的实数向量;将所述实数向量输入预生成的标签生成模型中,得到标签预测向量;其中,所述标签生成模型用于表征所述实数向量与所述标签预测向量之间的关联关系;获取所述标签预测向量中预测值大于阈值的元素,将该元素对应的分词作为所述待标注标签应用的标签。

【技术特征摘要】
1.一种应用标注标签方法,其特征在于,包括以下步骤:将待标注标签应用的描述信息进行分词,获得分词集合;根据所述分词集合生成所述描述信息的实数向量;将所述实数向量输入预生成的标签生成模型中,得到标签预测向量;其中,所述标签生成模型用于表征所述实数向量与所述标签预测向量之间的关联关系;获取所述标签预测向量中预测值大于阈值的元素,将该元素对应的分词作为所述待标注标签应用的标签。2.根据权利要求1所述的方法,其特征在于,所述根据所述分词集合生成所述描述信息的实数向量,包括:获取所述分词集合中每个分词的价值;根据所述每个分词的价值获取预设数量的分词;根据所述预设数量的分词生成特征向量;根据所述特征向量生成所述描述信息的实数向量。3.根据权利要求2所述的方法,其特征在于,所述根据所述每个分词的价值获取预设数量的分词,包括:按照分词价值从大到小的顺序对所述分词集合中的分词进行排序;获取排序在前的预设数量的分词。4.根据权利要求2所述的方法,其特征在于,所述根据所述特征向量生成所述描述信息的实数向量,包括:获取所述特征向量中每个元素的字符串的哈希值;根据所述哈希值生成所述应用描述信息的实数向量。5.根据权利要求2所述的方法,其特征在于,所述分词的价值通过以下方式获得:将样本应用的描述信息进行分词;统计每个分词出现的次数,根据分词出现的次数得到该分词的价值。6.根据权利要求1所述的方法,其特征在于,所述标签生成模型通过以下步骤生成:获取样本应用和其标签向量;将样本应用的描述信息进行分词,获得样本分词集合;根据所述样本分词集合生成样本...

【专利技术属性】
技术研发人员:潘岸腾
申请(专利权)人:广州优视网络科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1