【技术实现步骤摘要】
文本类目的确定方法、装置、存储介质和计算机设备
本申请涉及计算机
,特别是涉及一种文本类目的确定方法、装置、计算机可读存储介质和计算机设备。
技术介绍
文本类目标注,是指将文本标注为一个类目体系中的一个或多个类目。文本类目标注在广告、推荐、搜索等大量业务场景中有着广泛的应用。确定文本所属的类目是文本类目标注中的重要环节。传统的文本类目的确定方式中,先由人工标注若干文本所属的类目,得到训练样本,再根据训练样本对神经网络等机器学习模型进行训练得到映射模型,进而将待处理文本输入至映射模型中,通过映射模型确定待处理文本的类目。然而,人工标注得到训练样本的过程,耗费了大量的人力。并且,映射模型是根据人工标注的训练样本训练得到,因此确定待处理文本所属的类目的质量对人工标注的质量具有严重的依赖性。
技术实现思路
基于此,有必要针对传统方式中耗费了大量的人力,且确定待处理文本所属的类目的质量对人工标注的质量具有严重的依赖性的技术问题,提供一种文本类目的确定方法、装置、计算机可读存储介质和计算机设备。一种文本类目的确定方法,包括:提取待处理文本的关键词,并确定各所述关键词的权重; ...
【技术保护点】
1.一种文本类目的确定方法,包括:提取待处理文本的关键词,并确定各所述关键词的权重;获取与各所述关键词分别对应的语义描述信息;根据各所述语义描述信息,确定各关键词分别与各候选类目的第一相关度;根据各所述关键词的权重及各所述第一相关度,确定所述待处理文本分别与各所述候选类目的第二相关度;根据各所述第二相关度,从各所述候选类目中确定所述待处理文本所属的类目。
【技术特征摘要】
1.一种文本类目的确定方法,包括:提取待处理文本的关键词,并确定各所述关键词的权重;获取与各所述关键词分别对应的语义描述信息;根据各所述语义描述信息,确定各关键词分别与各候选类目的第一相关度;根据各所述关键词的权重及各所述第一相关度,确定所述待处理文本分别与各所述候选类目的第二相关度;根据各所述第二相关度,从各所述候选类目中确定所述待处理文本所属的类目。2.根据权利要求1所述的方法,其特征在于,所述提取待处理文本的关键词,包括:对所述待处理文本进行分词处理,得到所述待处理文本的多个第一分词;从各所述第一分词中剔除属于目标过滤词库的第一分词,得到一个或多个第二分词;所述第二分词包括剔除后剩下的第一分词;根据各所述第二分词,得到所述待处理文本的关键词;其中,所述目标过滤词库包括与目标数据源相对应的过滤词库,所述目标数据源包括所述待处理文本所属的数据源。3.根据权利要求2所述的方法,其特征在于,构建所述目标过滤词库的方式,包括:对属于所述目标数据源的各文本进行分词处理,得到多个第三分词;分别确定各所述第三分词对应的第一比例;所述第三分词对应的第一比例包括:目标数据源中包含该第三分词的文本数占所述目标数据源文本总数的比例;根据所述第一比例超过第一比例阈值的第三分词,构建所述目标过滤词库。4.根据权利要求3所述的方法,其特征在于,确定所述第一比例阈值的方式,包括:根据当前比例阈值,从各所述第三分词中确定第四分词;所述第四分词包括所述第一比例等于或大于所述当前比例阈值的第三分词;确定与属于所述目标数据源的各文本分别对应的剩余词数;所述文本对应的剩余词数是从该文本的各所述第三分词中剔除所述第四分词后剩下的第三分词的数目;确定所述剩余词数等于或大于词数阈值的文本数占属于所述目标数据源的文本总数的第二比例;在所述第二比例未超过第二比例阈值时,将所述当前比例阈值确定为所述第一比例阈值;在所述第二比例超过所述第二比例阈值时,根据下调数值更新所述当前比例阈值,并返回所述根据当前比例阈值从各所述第三分词中确定第四分词的步骤。5.根据权利要求2所述的方法,其特征在于,所述根据各所述第二分词,得到所述待处理文本的关键词,包括:根据各所述第二分词进行排列组合,得到第五分词;各所述第五分词包含连续相邻的至少两个第二分词;从各所述第五分词中,确定第六分词;所述第六分词包括属于已有词条的第五分词;从各所述第六分词中,确定第七分词;所述第七分词不包含于各所述第六分词中除自身以外的第六分词中;根据所述第七分词,得到所述待处理文本的关键词。6.根据权利要求1所述的方法,其特征在于,所述获取与各所述关键词分别对应的各语义描述信息,包括:获取与各所述关键词分别对应的网络搜索信息;所述关键词对应的网络搜索信息是通过网络搜索服务对该关键词进行搜索得到;分别根据各所述关键词对应的网络搜索信息,得到与各所述关键词分别对应的各语义描述信息。7.根据权利要求6所述的方法,其特征在于,所述获取与各所述关键词分别对应的网络搜索信息,包括:分别在本地信息库中查找各所述关键词对应的候选关键词;所述本地信息库记录候选关键词与候选搜索信息之间的匹配关系,所述候选搜索信息是通过所述网络搜索服务对相应候选关键词进行搜索得到;在查找到与所述关键词对应的候选关键词时,根据查找到的候选关键词所匹配的候选搜索信息,得到该关键词对应的网络搜索信息;在未查找到与所述关键词对应的候选关键词时,调用所述网络搜索服务对该关键词进行搜索,得到与该关键词对应的网络搜索信息。8.根据权利要求1所述的方法,其特征在于,还包括:获取各所述候选类目的优先级系数;所述根据各所述第二相关度,从各所述候选类目中确定所述待...
【专利技术属性】
技术研发人员:张长旺,张纪红,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。