【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种短文本分类方法及装置、存储介质、计算设备。
技术介绍
1、文本分类是自然语言处理中应用最广泛的任务之一,如新闻标题分类、垃圾邮件分类、情感分类、商品分类等。尤其是在商品/工业品领域,文本分类具有非常实际的意义。
2、在文本分类任务的细分领域与实际应用场景中,短文本分类显得更为常见。短文本分类任务具有以下特点:待分类短文本长度较短(长度通常只有几个字符);类别数较多且类别可归纳出明显层次性,待分类短文本的语义粒度与标签文本的语义粒度有差异,即从现有类别标签中可抽象出大类,待分类的文本更可视作类别标签在语义层面的更小粒度表示;标注数据有限(限制了相关分类模型的训练效果)。
3、因此,短文本分类任务的问题主要存在于:1.短文本包含的信息量较少,导致特征空间非常稀疏,使得文本分类模型难以捕捉到足够的信息进行有效的分类,且短文本中的单词或短语往往具有多种可能的含义,由于缺乏足够的上下文,确定其准确含义变得困难。2.标签类别数较多,不同类别的短文本数量可能存在严重不平衡,这会影响相关分类模型的性
...【技术保护点】
1.一种短文本分类方法,其特征在于,包括:
2.根据权利要求1所述的短文本分类方法,其特征在于,所述体系化标签还包括从属于所述分类标签的样例标签。
3.根据权利要求2所述的短文本分类方法,其特征在于,所述体系化标签通过以下方式构建:
4.根据权利要求1所述的短文本分类方法,其特征在于,所述根据所述语义相似度获得与所述待分类短文本语义最接近的顶层标签候选集以及分类标签候选集包括:
5.根据权利要求4所述的短文本分类方法,其特征在于,所述分别根据所述顶层标签池中顶层标签与所述分类标签池中的分类标签的分布获得所述顶层标签候选集
...【技术特征摘要】
1.一种短文本分类方法,其特征在于,包括:
2.根据权利要求1所述的短文本分类方法,其特征在于,所述体系化标签还包括从属于所述分类标签的样例标签。
3.根据权利要求2所述的短文本分类方法,其特征在于,所述体系化标签通过以下方式构建:
4.根据权利要求1所述的短文本分类方法,其特征在于,所述根据所述语义相似度获得与所述待分类短文本语义最接近的顶层标签候选集以及分类标签候选集包括:
5.根据权利要求4所述的短文本分类方法,其特征在于,所述分别根据所述顶层标签池中顶层标签与所述分类标签池中的分类标签的分布获得所述顶层标签候选集以及所述分类标签候选集包括:
6.根据权利要求1所述的短文本分类方法,其特征在于,所述根据所述顶层标签候选集构建针对顶层标签的第一提示词包括...
【专利技术属性】
技术研发人员:夏天,王浩然,李帅帅,蔡华,徐清,杨小东,赵爽,史可欢,
申请(专利权)人:华院计算技术上海股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。