【技术实现步骤摘要】
一种基于向量空间的文本分类方法和装置
本申请涉及电力信息系统
,尤其涉及一种基于向量空间的文本分类方法和装置。
技术介绍
在电力信息系统中,用户可以通过电力客户服务呼叫热线、电力网上营业厅和电力信息呼叫中心等渠道提出业务诉求或者意见建议。用户提出业务诉求或者意见建议时,电力信息系统会产生相应的文本,即工单文本,电力客服部门需要对大量的工单文本进行分类,然后派发给相关电力部门进行处理,以便对用户的业务诉求或者意见建议及时处理。例如,用户的业务诉求包括:欠费停电、违约金、停电、欠费复电、设备故障与隐患、用电设备运维、电费通知、电压质量和电费计量等,电力客服部门根据用户的业务诉求产生的工单文本进行分类,然后将分类后的工单文本派发至电力相关部门,由电力相关部门统一处理。现有的对工单文本的分类方法主要是依赖人工分类。电力客服部门的客服人员根据工单文本的关键词进行分类,即根据工单文本上的关键词,将工单文本划分到相应的类别中。但是,专利技术人在本申请的研究过程中发现,现有的对工单文本分类的方法中,由于主要依赖人工实现工单文本的分类,因此,会出现工单文本分类不准确和分类效率 ...
【技术保护点】
1.一种基于向量空间的文本分类方法,其特征在于,包括:获取已知类别的训练数据,通过对所述训练数据进行预处理,获取第一特征向量集,所述第一特征向量集中包含所述训练数据的第一特征向量;获取待分类文本,通过对所述待分类文本进行预处理,获取第二特征向量集,所述第二特征向量集中包含所述待分类文本的第二特征向量;计算所述第一特征向量分别与所述第二特征向量的向量距离;根据所述向量距离确定所述第二特征向量与所述第一特征向量的相似概率,并通过所述相似概率以及所述训练数据的类别,获取所述待分类文本的分类结果。
【技术特征摘要】
1.一种基于向量空间的文本分类方法,其特征在于,包括:获取已知类别的训练数据,通过对所述训练数据进行预处理,获取第一特征向量集,所述第一特征向量集中包含所述训练数据的第一特征向量;获取待分类文本,通过对所述待分类文本进行预处理,获取第二特征向量集,所述第二特征向量集中包含所述待分类文本的第二特征向量;计算所述第一特征向量分别与所述第二特征向量的向量距离;根据所述向量距离确定所述第二特征向量与所述第一特征向量的相似概率,并通过所述相似概率以及所述训练数据的类别,获取所述待分类文本的分类结果。2.根据权利要求1所述的基于向量空间的文本分类方法,其特征在于,对所述训练数据进行预处理的方法包括:对所述已知类别的训练数据进行分词;对分词之后的训练数据进行短语识别;计算短语识别之后的训练数据的特征向量。3.根据权利要求1所述的基于向量空间的文本分类方法,其特征在于,对所述待分类文本进行预处理的方法包括:对所述待分类文本进行分词;对分词之后的待分类文本进行短语识别;计算短语识别之后的待分类文本的特征向量。4.根据权利要求1所述的基于向量空间的文本分类方法,其特征在于,所述第一特征向量分别与所述第二特征向量的向量距离为余弦向量距离。5.根据权利要求4所述的基于向量空间的文本分类方法,其特征在于,通过以下公式计算所述余弦向量距离:其中,sim(X,Y)表示余弦向量距离,表示第一特征向量集中的特征向量,表示第二特征向量集中的特征向量,||x||表示x的二范数,||y||表示y的二范数。6.一种基于向量空间的文本分类装置,其特征在于,包括:第一特征向量集获取模块,用于获取已知类别的训练数据,通过对所述训练数据进行预处理,获取第一特征向量集,所...
【专利技术属性】
技术研发人员:孙北宁,马志坚,娄宇,张羿,段红刚,黄世锋,周智勋,
申请(专利权)人:云南电网有限责任公司,云南云电同方科技有限公司,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。