【技术实现步骤摘要】
文本分类方法、装置、电子设备和计算机可读存储介质
[0001]本申请涉及文本分类
,特别涉及一种文本分类方法、装置、电子设备和计算机可读存储介质。
技术介绍
[0002]聚类是按照某种特定的规则,将数据集划分成不同的簇(组)的过程,通过聚类可以使得相同簇中的数据相似性尽可能大,不同簇之间相似性尽可能小。聚类的结果可以用于进行相应领域的数据分析和数据挖掘。聚类可被应用于多种
例如在商务领域,聚类可以帮助市场分析人员从客户基本资料库中发现不同的客户群;在生物学领域,通过聚类可以用于推导植物和动物的分类,对基因进行分类,获得对种群固有结构的认识;在地理信息领域,通过聚类可以在地球观测数据库中相似区域的确定;随着聚类应用领域的扩展,聚类也被用于对文本进行分类,因此,需要提高文本分类结果的准确性。
技术实现思路
[0003]本申请提供一种文本分类方法、装置、电子设备和计算机可读存储介质,可以提高文本分类结果的准确性。
[0004]第一方面,本申请提供了一种文本分类方法,该文本分类方法包括:针对文本 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:针对文本数据集合中的多个文本数据,按照预先设置的多个类别数中的每个类别数进行聚类,得到每个文本数据在不同的类别数下归属的类别;其中,所述每个文本数据在一个类别数下对应有一个归属的类别;基于所述每个文本数据在不同的类别数下归属的类别,将所述多个文本数据划分为多组文本数据,同一组文本数据分别在所述每个类别数下归属于同一类别;根据每组文本数据在不同的类别数下归属的类别,确定所述每组文本数据的类别划分结果。2.根据权利要求1所述的方法,其特征在于,在所述按照预先设置的多个类别数中的每个类别数进行聚类,得到每个文本数据在不同的类别数下归属的类别之前,所述方法还包括:设置所述多个类别数的类别基值;根据所述类别基值以预定步长进行预定数量次递增和/或预定数量次递减,得到多个不同的类别数;将所述类别基值和所述多个不同的类别数,作为所述预先设置的多个类别数。3.根据权利要求2所述的方法,其特征在于,所述类别基值,是根据业务场景中文本数据集合的预定基础类别数量确定的经验数值;或者,所述类别基值是对文本数据集合进行随机无放回的数据抽取后,对抽取的文本数据进行人工分类得到的类别数量。4.根据权利要求1所述的方法,其特征在于,所述针对文本数据集合中的多个文本数据,按照预先设置的多个类别数中的每个类别数进行聚类,得到每个文本数据在不同的类别数下归属的类别,包括:对所述文本数据集合中的每条文本数据进行特征映射;根据特征映射得到的每条文本数据的特征向量,得到文本特征向量集合;按照所述每个类别数,对所述文本特征向量集合中的每个文本特征向量进行分类,得到所述每个文本特征向量在不同类别数下归属的类别;将每个文本特征向量在不同类别数下归属的类别,作为所述每个文本数据在不同类别数下归属的类别。5.根据权利要求1所述的方法,其特征在于,所述基于所述每个文本数据在不同的类别数下归属的类别,将所述多个文本数据划分为多组文本数据,包括:从所述文本数据集合中获取第一文本数据作为当前文本数据,将所述当前文本数据分别在每个类别数下归属的类别作为当前各个类别,所述第一文本数据为所述文本数据集合中的任一文本数据;在所述当前各个类别包括的多个文本数据中,获取所述各个类别共同包含的文本数据作为第一组文本数据;从所述文本数据集合中获取第二文本数据作为新的当前文本数据,所述第二文本数据为...
【专利技术属性】
技术研发人员:李长林,夏粉,肖冰,曹磊,罗奇帅,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。