一种识别多标签对象的方法及装置制造方法及图纸

技术编号：26763910 阅读：31 留言：0更新日期：2020-12-18 23:31

本申请的实施例提供了一种识别多标签对象的方法及装置。该识别多标签对象的方法包括：获取对象发布的至少两条内容数据；基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换，生成各所述内容数据对应的词向量；对各所述词向量进行聚类，得到所述词向量对应的簇群，以及所述对象对应的簇群数量；基于所述对象对应的簇群数量，确定所述对象是否为多标签对象，其中，所述多标签对象的标签数量与所述簇群数量对应。本申请实施例的技术方案基于对象发布的内容数据中进行分词和聚类，提高了对象分类的可靠性，同时也保证了对象标签的一致统一性，进而提高了识别多标签对象的可靠性和精确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种识别多标签对象的方法及装置
本申请涉及计算机及通信
，具体而言，涉及一种识别多标签对象的方法及装置。
技术介绍
在很多设定标签的系统中，例如在医疗行业中，医生往往会根据自己的情况自主来设定标签，这种可能造成用户标签的杜撰，造成标签的不准确，也可能由于各种类型的词语，造成标签参差不齐的情况。进而导致无法统一的根据标签，来对用户进行统一、精确的管理，而造成用户对象管理混乱的问题。
技术实现思路
本申请的实施例提供了一种识别多标签对象的方法及装置，进而至少在一定程度上可以保证对象标签的一致统一性，进而提高了识别多标签对象的可靠性和精确性。本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。根据本申请实施例的一个方面，提供了一种识别多标签对象的方法，包括：获取对象发布的至少两条内容数据；基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换，生成各所述内容数据对应的词向量；对各所述词向量进行聚类，得到所述词向量对应的簇群，以及所述对象对应的簇群数量...

【技术保护点】
1.一种识别多标签对象的方法，其特征在于，包括：/n获取对象发布的至少两条内容数据；/n基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换，生成各所述内容数据对应的词向量；/n对各所述词向量进行聚类，得到所述词向量对应的簇群，以及所述对象对应的簇群数量；/n基于所述对象对应的簇群数量，确定所述对象是否为多标签对象，其中，所述多标签对象的标签数量与所述簇群数量对应。/n

【技术特征摘要】
1.一种识别多标签对象的方法，其特征在于，包括：
获取对象发布的至少两条内容数据；
基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换，生成各所述内容数据对应的词向量；
对各所述词向量进行聚类，得到所述词向量对应的簇群，以及所述对象对应的簇群数量；
基于所述对象对应的簇群数量，确定所述对象是否为多标签对象，其中，所述多标签对象的标签数量与所述簇群数量对应。

2.根据权利要求1所述的方法，其特征在于，获取对象发布的至少两条内容数据，包括：
分别获取所述对象发布的各条内容数据的网络页面，并获取所述网络页面的热度；
基于设定的热度阈值，筛选所述内容数据，得到筛选之后的内容数据。

3.根据权利要求1所述的方法，其特征在于，基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换，生成各所述内容数据对应的词向量之前，还包括：
基于所述内容数据，确定所述内容数据对应的领域；
基于所述领域获取所述领域对应的目标数据；
对所述目标数据进行训练，得到所述领域对应的数据样本词典。

4.根据权利要求1所述的方法，其特征在于，所述内容数据包括内容标题；
基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换，生成各所述内容数据对应的词向量，包括：
基于分词工具对所述内容标题进行分词，得到内容词汇；
基于所述内容数据的领域对应的数据样本词典，将所述内容词汇转换为对应的语义向量；
根据各所述内容词汇对应的语义向量之间的和，生成所述内容标题对应的词向量。

5.根据权利要求4所述的方法，其特征在于，基于所述内容数据的领域对应的数据样本词典，将所述内容词汇转换为对应的语义向量，包括：
基于所述内容数据的领域对应的数据样本词典，生成所述内容词汇对应的独热编码；
基于设定的输入权重矩阵对所述独热编码进行线性处理，生成所述独热编码对应的线性向量；
根据所述线性向量的平均值，生成隐层向量；
基于所述隐层向量与设定的输出权重矩阵之间的...

【专利技术属性】
技术研发人员：康战辉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人