文本分类方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:21605659 阅读:25 留言:0更新日期:2019-07-13 18:16
本发明专利技术公开了一种文本分类方法。该文本分类方法包括:接收待分类报警文本,并对所述待分类报警文本进行分词处理,得到第一分词集;检测预设模板池中是否存在模板文本;若预设模板池中存在模板文本,则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;计算第一文本特征向量与第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类。本发明专利技术还公开了一种文本分类装置、设备及计算机可读存储介质。本发明专利技术能解决现有针对运维场景的报警文本分类准确性较差的问题。

Text categorization methods, devices, devices and computer-readable storage media

【技术实现步骤摘要】
文本分类方法、装置、设备及计算机可读存储介质
本专利技术涉及金融科技(Fintech)
,尤其涉及一种文本分类方法、装置、设备及计算机可读存储介质。
技术介绍
随着金融科技(Fintech),尤其是互联网科技金融的不断发展,企业业务数据中心的规模也日益庞大,在金融科技的日常运维中经常会出现许多报警信息。运维人员需定期对报警文本进行统计分析,以分析报警产生的根本原因,从而确定对应的解决方案。由于金融领域的报警信息的复杂性和庞大性,因此,需通过计算机系统对报警文本进行智能分类挖掘。然而,由于运维场景的报警文本中存在大量专业术语,大多都未被收入到字典中,如果采用现有的文本挖掘方法对运维场景的报警文本进行文本挖掘,会出现报警文本分类准确性较差的问题。因此,亟需一种可提高运维场景中报警文本分类准确性的方法。
技术实现思路
本专利技术的主要目的在于提供一种文本分类方法、装置、设备及计算机可读存储介质,旨在解决现有针对运维场景的报警文本分类准确性较差的问题。为实现上述目的,本专利技术提供一种文本分类方法,所述文本分类方法包括:接收待分类报警文本,并对所述待分类报警文本进行分词处理,得到第一分词集;检测预设模板池中是否存在模板文本;若预设模板池中存在模板文本,则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类。可选地,所述基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量的步骤包括:对所述模板文本进行分词处理,得到第二分词集;基于所述第一分词集和所述第二分词集计算各预设特征词的第一属性值,并分别计算所述待分类报警文本中各预设特征词的第二属性值和所述模板文本中各预设特征词的第三属性值;根据所述第一属性值和所述第二属性值计算所述待分类报警文本中各预设特征词的第一特征值,并对所述第一特征值进行拼接,得到第一文本特征向量;根据所述第一属性值和所述第三属性值计算所述模板文本中各预设特征词的第二特征值,并对所述第二特征值进行拼接,得到第二文本特征向量。可选地,所述第一属性值的计算公式为:所述第二属性值的计算公式为:所述第三属性值的计算公式为:所述第一特征值的计算公式为:Vs1=Fs1·Fs2;所述第二特征值的计算公式为:Vs2=Fs1·Fs3;其中,Fs1为预设特征词s的第一属性值,ns为所述待分类报警文本和所述模板文本的文本总数,df(t,s)为所述待分类报警文本和所述模板文本中包含预设特征词s的文本数量,α为一预设值,Fs2为所述待分类报警文本中预设特征词s的第二属性值,ts1为预设特征词s在当前待分类报警文本中出现的次数,ttotal1为当前待分类报警文本中的分词总数,Fs3为所述模板文本中预设特征词s的第三属性值,ts2为预设特征词s在当前模板文本中出现的次数,ttotal2为当前模板文本中的分词总数,Vs1为所述待分类报警文本中预设特征词s的第一特征值,Vs2为所述模板文本中预设特征词s的第二特征值。可选地,所述计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类的步骤包括:计算所述第一文本特征向量与各所述第二文本特征向量之间的欧氏距离,并根据计算结果判断是否存在大于预设阈值的欧式距离;若存在大于预设阈值的欧式距离,则将所述待分类报警文本与所述大于预设阈值的欧式距离对应的模板文本分为同一类;若不存在大于预设阈值的欧式距离,则将所述待分类报警文本另分为一个新类,并将所述待分类报警文本保存至所述预设模板池中,作为一新模板文本。可选地,所述对所述待分类报警文本进行分词处理,得到第一分词集的步骤之前,还包括:对所述待分类报警文本进行词汇替换处理;其中,所述对所述待分类报警文本进行词汇替换处理的步骤包括:检测所述待分类报警文本中是否存在预设目标词汇;若所述待分类报警文本中存在预设目标词汇,则将所述待分类报警文本中所存在的预设目标词汇替换成对应的词汇标签;所述对所述待分类报警文本进行分词处理,得到第一分词集的步骤包括:对经词汇替换处理的待分类报警文本进行分词处理,得到第一分词集。可选地,所述检测预设模板池中是否存在模板文本的步骤之后,还包括:若预设模板池中不存在模板文本,则基于所述第一分词集和第二预设规则对所述待分类报警文本进行特征提取,得到第三文本特征向量;对所述第三文本特征向量进行聚类,并根据聚类结果对所述待分类报警文本进行分类;根据分类结果从每一分类中随机选取一待分类报警文本,作为模板文本,并保存至所述预设模板池中。可选地,所述基于所述第一分词集和第二预设规则对所述待分类报警文本进行特征提取,得到第三文本特征向量的步骤包括:基于所述第一分词集计算各预设特征词的第四属性值和第五属性值;根据所述第四属性值和所述第五属性值计算所述待分类报警文本中各预设特征词的第三特征值,并对所述第三特征值进行拼接,得到第三文本特征向量。此外,为实现上述目的,本专利技术还提供一种文本分类装置,所述文本分类装置包括:分词处理模块,用于接收待分类报警文本,并对所述待分类报警文本进行分词处理,得到第一分词集;模板检测模块,用于检测预设模板池中是否存在模板文本;第一提取模块,用于若预设模板池中存在模板文本,则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;文本分类模块,用于计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类。此外,为实现上述目的,本专利技术还提供一种文本分类设备,所述文本分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分类程序,所述文本分类程序被所述处理器执行时实现如上所述的文本分类方法的步骤。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本分类程序,所述文本分类程序被处理器执行时实现如上所述的文本分类方法的步骤。本专利技术提供一种文本分类方法、装置、设备及计算机可读存储介质,通过接收待分类报警文本,并对待分类报警文本进行分词处理,得到第一分词集,并检测预设模板池中是否存在模板文本;若预设模板池中存在模板文本,则基于第一分词集和第一预设规则对待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;计算第一文本特征向量与第二文本特征向量之间的相似度,并根据计算结果对待分类报警文本进行分类。通过上述方式,本专利技术基于分词处理后的待分类报警文本和预设模板池中的模板文本分别提取得到第一文本特征向量和第二文本特征向量,并通过计算两者之间的相似度,可精确地对待分类报警信息进行分类,即可提高运维场景中报警文本分类的准确性。同时,本专利技术通过智能且准确地对运维场景中的报警文本进行分类,还可以提高运维工作人员的工作效率。附图说明图1为本专利技术实施例方案涉及的硬件运行环境的设备结构示意图;图本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,所述文本分类方法包括:接收待分类报警文本,并对所述待分类报警文本进行分词处理,得到第一分词集;检测预设模板池中是否存在模板文本;若预设模板池中存在模板文本,则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类。

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述文本分类方法包括:接收待分类报警文本,并对所述待分类报警文本进行分词处理,得到第一分词集;检测预设模板池中是否存在模板文本;若预设模板池中存在模板文本,则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类。2.如权利要求1所述的文本分类方法,其特征在于,所述基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量的步骤包括:对所述模板文本进行分词处理,得到第二分词集;基于所述第一分词集和所述第二分词集计算各预设特征词的第一属性值,并分别计算所述待分类报警文本中各预设特征词的第二属性值和所述模板文本中各预设特征词的第三属性值;根据所述第一属性值和所述第二属性值计算所述待分类报警文本中各预设特征词的第一特征值,并对所述第一特征值进行拼接,得到第一文本特征向量;根据所述第一属性值和所述第三属性值计算所述模板文本中各预设特征词的第二特征值,并对所述第二特征值进行拼接,得到第二文本特征向量。3.如权利要求2所述的文本分类方法,其特征在于,所述第一属性值的计算公式为:所述第二属性值的计算公式为:所述第三属性值的计算公式为:所述第一特征值的计算公式为:Vs1=Fs1·Fs2;所述第二特征值的计算公式为:Vs2=Fs1·Fs3;其中,Fs1为预设特征词s的第一属性值,ns为所述待分类报警文本和所述模板文本的文本总数,df(t,s)为所述待分类报警文本和所述模板文本中包含预设特征词s的文本数量,α为一预设值,Fs2为所述待分类报警文本中预设特征词s的第二属性值,ts1为预设特征词s在当前待分类报警文本中出现的次数,ttotal1为当前待分类报警文本中的分词总数,Fs3为所述模板文本中预设特征词s的第三属性值,ts2为预设特征词s在当前模板文本中出现的次数,ttotal2为当前模板文本中的分词总数,Vs1为所述待分类报警文本中预设特征词s的第一特征值,Vs2为所述模板文本中预设特征词s的第二特征值。4.如权利要求1所述的文本分类方法,其特征在于,所述计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类的步骤包括:计算所述第一文本特征向量与各所述第二文本特征向量之间的欧氏距离,并根据计算结果判断是否存在大于预设阈值的欧式距离;若存在大于预设阈值的欧式距离,则将所述待分类报警文本与所述大于预设阈值的欧式距离对应的模...

【专利技术属性】
技术研发人员:张威杨永帮
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1