一种识别多标签对象的方法及装置制造方法及图纸

技术编号:26763910 阅读:19 留言:0更新日期:2020-12-18 23:31
本申请的实施例提供了一种识别多标签对象的方法及装置。该识别多标签对象的方法包括:获取对象发布的至少两条内容数据;基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换,生成各所述内容数据对应的词向量;对各所述词向量进行聚类,得到所述词向量对应的簇群,以及所述对象对应的簇群数量;基于所述对象对应的簇群数量,确定所述对象是否为多标签对象,其中,所述多标签对象的标签数量与所述簇群数量对应。本申请实施例的技术方案基于对象发布的内容数据中进行分词和聚类,提高了对象分类的可靠性,同时也保证了对象标签的一致统一性,进而提高了识别多标签对象的可靠性和精确性。

【技术实现步骤摘要】
一种识别多标签对象的方法及装置
本申请涉及计算机及通信
,具体而言,涉及一种识别多标签对象的方法及装置。
技术介绍
在很多设定标签的系统中,例如在医疗行业中,医生往往会根据自己的情况自主来设定标签,这种可能造成用户标签的杜撰,造成标签的不准确,也可能由于各种类型的词语,造成标签参差不齐的情况。进而导致无法统一的根据标签,来对用户进行统一、精确的管理,而造成用户对象管理混乱的问题。
技术实现思路
本申请的实施例提供了一种识别多标签对象的方法及装置,进而至少在一定程度上可以保证对象标签的一致统一性,进而提高了识别多标签对象的可靠性和精确性。本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。根据本申请实施例的一个方面,提供了一种识别多标签对象的方法,包括:获取对象发布的至少两条内容数据;基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换,生成各所述内容数据对应的词向量;对各所述词向量进行聚类,得到所述词向量对应的簇群,以及所述对象对应的簇群数量;基于所述对象对应的簇群数量,确定所述对象是否为多标签对象,其中,所述多标签对象的标签数量与所述簇群数量对应。根据本申请实施例的一个方面,提供了一种识别多标签对象的装置,包括:获取单元,用于获取对象发布的至少两条内容数据;生成单元,用于基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换,生成各所述内容数据对应的词向量;聚类单元,用于对各所述词向量进行聚类,得到所述词向量对应的簇群,以及所述对象对应的簇群数量;确定单元,用于基于所述对象对应的簇群数量,确定所述对象是否为多标签对象,其中,所述多标签对象的标签数量与所述簇群数量对应。在本申请的一些实施例中,基于前述方案,所述获取单元包括:页面获取单元,用于分别获取所述对象发布的各条内容数据的网络页面,并获取所述网络页面的热度;数据筛选单元,用于基于设定的热度阈值,筛选所述内容数据,得到筛选之后的内容数据。在本申请的一些实施例中,基于前述方案,所述识别多标签对象的装置还包括:领域确定单元,用于基于所述内容数据,确定所述内容数据对应的领域;数据确定单元,用于基于所述领域获取所述领域对应的目标数据;词典确定单元,用于对所述目标数据进行训练,得到所述领域对应的数据样本词典。在本申请的一些实施例中,基于前述方案,所述内容数据包括内容标题;所述生成单元包括:词汇生成单元,用于基于分词工具对所述内容标题进行分词,得到内容词汇;向量转换单元,用于基于所述内容数据的领域对应的数据样本词典,将所述内容词汇转换为对应的语义向量;向量生成单元,用于根据各所述内容词汇对应的语义向量之间的和,生成所述内容标题对应的词向量。在本申请的一些实施例中,基于前述方案,所述向量转换单元配置为:基于所述内容数据的领域对应的数据样本词典,生成所述内容词汇对应的独热编码;基于设定的输入权重矩阵对所述独热编码进行线性处理,生成所述独热编码对应的线性向量;根据所述线性向量的平均值,生成隐层向量;基于所述隐层向量与设定的输出权重矩阵之间的乘积得到的概率,确定所述内容词汇对应的语义向量。在本申请的一些实施例中,基于前述方案,所述聚类单元包括:距离确定单元,用于基于设定的聚类质心点,确定所述词向量与各所述聚类质心点之间的距离;质心确定单元,用于基于所述词向量与各所述聚类质心点之间的距离,确定所述词向量对应的目标质心点;簇群确定单元,用于将所述词向量纳入所述目标质心点对应的簇群。在本申请的一些实施例中,基于前述方案,所述识别多标签对象的装置还用于:基于所述簇群中各词向量的平均坐标,确定所述簇群的更新质心点;基于所述更新质心点,计算所述各词向量与所述更新质心点之间的更新距离;通过所述更新距离更新所述词向量对应的簇群。在本申请的一些实施例中,基于前述方案,所述确定单元用于:若所述簇群数量大于或者等于设定的最小阈值,且小于或者等于设定的最大阈值,则判定所述对象为多标签对象。在本申请的一些实施例中,基于前述方案,所述对象为医生;所述识别多标签对象的装置还包括:科室确定单元,用于对所述医生发布的内容数据中的内容标题进行分类,生成所述医生对应的科室标签;疾病确定单元,用于基于系统中的综合病症患者的病例信息,确定所述综合病症患者对应的疾病标签;标签匹配单元,用于将所述疾病标签与所述科室标签进行匹配,确定与所述疾病标签对应的目标科室标签;医生推送单元,用于向所述综合病症患者推送所述目标科室标签对应的医生。根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的识别多标签对象的方法。根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的识别多标签对象的方法。根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的识别多标签对象的方法。在本申请的一些实施例所提供的技术方案中,通过获取对象发布的至少两条内容数据,并基于内容数据的领域对应的数据样本词典对内容数据进行转换,生成内容数据对应的词向量,以对词向量进行聚类,确定各个词向量对应的簇群,通过根据所有内容数据对应的簇群确定对象对应的簇群数量,以基于对象对应的簇群数量和标签数量之间的对应关系,判定对象是否为多标签对象,通过直接基于对象发布的内容数据中进行分词和聚类,提高了对象分类的可靠性,同时也保证了对象标签的一致统一性,进而提高了识别多标签对象的可靠性和精确性。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;图2示意性示出了根据本申请的一个实施例的识别多标签对象的方法的流程图;图3示意性示出了根据本申请的一个实施例的一种发表内容数据的系统截图;图4示意性示出了根据本申请的一个实施例的一种内容数据预处理的示意图;图5示意性示出了根据本申请的一个实施例的一种生成语义向量的示意图;图6示意性示出了根据本申请的一个实施例的聚类得到词向量对应的簇群的流程图;图7示意性示出了根据本申请的一个实施例的医疗推送的流程图;<本文档来自技高网...

【技术保护点】
1.一种识别多标签对象的方法,其特征在于,包括:/n获取对象发布的至少两条内容数据;/n基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换,生成各所述内容数据对应的词向量;/n对各所述词向量进行聚类,得到所述词向量对应的簇群,以及所述对象对应的簇群数量;/n基于所述对象对应的簇群数量,确定所述对象是否为多标签对象,其中,所述多标签对象的标签数量与所述簇群数量对应。/n

【技术特征摘要】
1.一种识别多标签对象的方法,其特征在于,包括:
获取对象发布的至少两条内容数据;
基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换,生成各所述内容数据对应的词向量;
对各所述词向量进行聚类,得到所述词向量对应的簇群,以及所述对象对应的簇群数量;
基于所述对象对应的簇群数量,确定所述对象是否为多标签对象,其中,所述多标签对象的标签数量与所述簇群数量对应。


2.根据权利要求1所述的方法,其特征在于,获取对象发布的至少两条内容数据,包括:
分别获取所述对象发布的各条内容数据的网络页面,并获取所述网络页面的热度;
基于设定的热度阈值,筛选所述内容数据,得到筛选之后的内容数据。


3.根据权利要求1所述的方法,其特征在于,基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换,生成各所述内容数据对应的词向量之前,还包括:
基于所述内容数据,确定所述内容数据对应的领域;
基于所述领域获取所述领域对应的目标数据;
对所述目标数据进行训练,得到所述领域对应的数据样本词典。


4.根据权利要求1所述的方法,其特征在于,所述内容数据包括内容标题;
基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换,生成各所述内容数据对应的词向量,包括:
基于分词工具对所述内容标题进行分词,得到内容词汇;
基于所述内容数据的领域对应的数据样本词典,将所述内容词汇转换为对应的语义向量;
根据各所述内容词汇对应的语义向量之间的和,生成所述内容标题对应的词向量。


5.根据权利要求4所述的方法,其特征在于,基于所述内容数据的领域对应的数据样本词典,将所述内容词汇转换为对应的语义向量,包括:
基于所述内容数据的领域对应的数据样本词典,生成所述内容词汇对应的独热编码;
基于设定的输入权重矩阵对所述独热编码进行线性处理,生成所述独热编码对应的线性向量;
根据所述线性向量的平均值,生成隐层向量;
基于所述隐层向量与设定的输出权重矩阵之间的...

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1