【技术实现步骤摘要】
基于聚类模型的语料分类方法、装置、设备及存储介质
[0001]本专利技术涉及人工智能
,尤其涉及一种基于聚类模型的语料分类方法、装置、设备及存储介质。
技术介绍
[0002]聚类方法是无监督学习的一种方式,被实际应用于很多方面,如客户群分类,动植物分类。聚类是根据数据特征,将相似的数据归为一个簇,不同的归到相异的簇。聚类算法也是nlp领域中经常使用的对文本分类的处理方法。该方法可以在非监督的情况下,有效的给文本分类。对文本表述的信息类别以及每类的中心含义,有个比较清晰的认知。
[0003]然而,专利技术人意识到,当前聚类算法是直接根据语料对应的向量进行聚类运算,难以按照开发端的分类期望(例如:按照用户对某一产品的兴趣对语料进行分类)对语料进行聚类,导致当前的聚类算法难以输出开发端所需的分类结果。
技术实现思路
[0004]本专利技术的目的是提供一种基于聚类模型的语料分类方法、装置、设备及存储介质,用于解决现有技术存在的难以按照开发端的分类期望对语料进行聚类,导致难以得到开发端所需的分类结果的问题 ...
【技术保护点】
【技术特征摘要】
1.一种基于聚类模型的语料分类方法,其特征在于,包括:获取至少一个语料信息,其中,所述语料信息具有至少一个命名实体信息;对所述语料信息进行命名实体识别,得到相应所述命名实体信息的一个命名实体字词;对所述语料信息进行文本向量化处理得到一个语料向量;调整所述语料向量中所述命名实体字词对应的一个命名实体向量;或调整所述语料向量中除所述命名实体向量外的其他字词向量,得到所述语料向量的一个句向量;将所述句向量录入预置的聚类模型中,通过所述聚类模型对已录入的句向量进行聚类运算,以对所述已录入的句向量对应的语料信息进行分类。2.根据权利要求1所述的语料分类方法,其特征在于,所述获取至少一个语料信息之前,所述方法还包括:接收一个待分类信息,并判断所述待分类信息的信息类型;若所述信息类型为语音信息,则将所述待分类信息转为信息类型为文本信息的一个转换信息,并将所述转换信息作为语料信息保存到预置的语料库中;若所述信息类型为文本信息,则将所述待分类信息作为一个语料信息保存在所述语料库中。3.根据权利要求1所述的语料分类方法,其特征在于,所述获取至少一个语料信息,包括:接收用户端发送的一个用户信息,其中,所述用户信息是指所述语料信息发送者的身份信息;从预置的语料库中,获取与所述用户信息对应的至少一个语料信息,其中,所述语料库用于保存关联有用户信息的语料信息。4.根据权利要求1所述的语料分类方法,其特征在于,所述对所述语料信息进行命名实体识别,得到相应所述命名实体信息的一个命名实体字词,包括:获得相应于所述语料信息的语料文本,对所述语料文本进行分词得到至少一个语料字词;将所述语料字词与预置的命名实体字典进行比对,并将属于所述命名实体字典的语料字词设为所述命名实体字词,其中,所述命名实体字典中具有至少一个命名实体。5.根据权利要求1所述的语料分类方法,其特征在于,所述调整所述语料向量中所述命名实体字词对应的一个命名实体向量,或调整所述语料向量中除所述命名实体向量外的其他字词向量,得到所述语料向量的一个句向量,包括:对所述语料向量进行词频逆文档计算,得到反映语料字词在所述语料信息中重要程度的词频逆文档值,以所述词频逆文档值作为所述语料字词对应字词向量的权重,调整所述语料向量得到语义向量;通过预置的提升系数修改所述语义向量中所述命名实体字词对应的字词向量得到实体向量,使所述语义向量转为所述句向量;或将所述命名实体字词对应的字词向量设为实体向量,并通过预置的降低系数修改所述语义向量中除所述实体向量外的其他字词向量,使所述语义向量转为所述句向量。
6.根据权利要求1所述的语料分类方法,其特征在...
【专利技术属性】
技术研发人员:邹倩霞,
申请(专利权)人:深圳壹账通科技服务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。