当前位置: 首页 > 专利查询>贾令全专利>正文

基于元搜索的文本分类方法、装置、电子设备制造方法及图纸

技术编号:33779526 阅读:25 留言:0更新日期:2022-06-12 14:33
本申请公开了一种基于元搜索的文本分类方法、装置、电子设备,属于数据处理技术领域,所述方法包括:从图像中提取待处理文本;将所述待处理文本输入预先训练的文本分类模型中;分别计算所述文本所属各层级中各节点的概率;针对每个所述分类层级,基于所述分类层级中各节点对应的概率值,确定所述分类层级的概率;选取概率大于第一预设阈值的分类层级,将所述分类层级中概率高于第二预设阈值的节点对应的标签,确定为所述文本的分类标签。通过本申请公开的基于元搜索的数据分类标注方法,能够高效、准确地对多级文本进行分类。准确地对多级文本进行分类。准确地对多级文本进行分类。

【技术实现步骤摘要】
基于元搜索的文本分类方法、装置、电子设备


[0001]本专利技术实施例涉及数据处理
,尤其涉及一种基于元搜索的文本分类方法、装置、电子设备。

技术介绍

[0002]在数据处理
,经常需要用到文本分类技术。文本分类是指计算机系统根据文本的内容与特征,将其自动归档到某个或某些类别。它的应用非常广泛,例如垃圾邮件过滤、新闻分类、微博或者评论情感分析、意图识别等。
[0003]与普通的文本分类问题不同,多级文本分类要考虑的类别总数比较多,而这众多的类别之间往往还存在着一定的依赖关系,因此,它可以构成一个复杂的层次化的类别体系。多层文本分类是对大规模文本信息进行组织、查询与检索的关键技术,如数字图书馆、专利管理、新闻出版业等领域。这种多级分类体系一般是首先分为几大类,每一大类下分许多小类,每一小类下再分小类。最后,每一个文本都可以分到某一个类目下。
[0004]目前流行的解决方法是不考虑类别之间层级关系,就将多级分类转换为普通的无层级的文本分类,该种方式所得分类结果准确率低。

技术实现思路

[0005]本申请实本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于元搜索的文本分类方法,其特征在于,所述方法包括:从图像中提取待处理文本;将所述待处理文本输入预先训练的文本分类模型中,其中,所述文本分类模型基于标注后的新闻语料数据训练生成,所述新闻语料数据通过新闻元搜索引擎搜索得到,所述文本分类模型包含依据行业分类树设置的分类层级,每个所述分类层级对应至少一个节点,每个节点对应一个分类标签;分别计算所述文本所属各层级中各节点的概率;针对每个所述分类层级,基于所述分类层级中各节点对应的概率值,确定所述分类层级的概率;选取概率大于第一预设阈值的分类层级,将所述分类层级中概率高于第二预设阈值的节点对应的标签,确定为所述文本的分类标签。2.根据权利要求1所述的方法,其特征在于,在将待处理文本输入预先训练的文本分类模型中的步骤之前,所述方法还包括:基于行业分类树构建文本分类模型;向新闻元搜索引擎发送各行业分类树节点对应的关键词,其中,每个关键词对应一个分类标签;获取新闻源搜索引擎采集的新闻语料数据;按照所述行业分类树中各节点的分布信息,对应存储各节点对应的关键词的新闻语料数据。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:对各新闻语料数据进行分类标签标注;将标注后的各新闻语料数据输入待训练的文本分类模型中;确定所述文本分类模型的收敛性;在所述收敛性满足预设条件的情况下,确定所述文本分类模型训练完成;在所述收敛性不满足预设条件的情况下,调整所述文本分类模型的模型系数,以缩小所述文本分类模型的收敛性。4.根据权利要求1所述的方法,其特征在于,所述针对每个所述分类层级,基于所述分类层级中各节点对应的概率值,确定所述分类层级的概率的步骤,包括:针对每个所述分类层级,确定所述文本所属所述分类层级中各节点的概率;将所述各概率中低于第三预设阈值的概率剔除;对剔除后的概率进行加权求和,得到所述分类层级的概率。5.根据权利要求1所述的方法,其特征在于,分别计算所述文本所属各层级中各节点的概率的步骤,包括:根据所述文本的来源和内容,确定所述文本在第一分类层级所属的节点;根据所述第一分类层级所属的节点,确定所述文本在第二分类层级中所属的各节点,并确定各节点对应的概率;依次类推,直至获取到所文本在末级分类层级中所属的节点,以及各节点对应的概率为止。6.根据权利要求1所述的方法,其特征在于,所述从图像中提取待处理文本的步骤,包括:
将图像输入特征提取网络的前两个第一卷积层依次进行卷积处理,获得所述特征提取网络的第二个卷积层输出...

【专利技术属性】
技术研发人员:贾令全韩茹郭志琪
申请(专利权)人:贾令全
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1