文本分类方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：21605659 阅读：25 留言：0更新日期：2019-07-13 18:16

本发明专利技术公开了一种文本分类方法。该文本分类方法包括：接收待分类报警文本，并对所述待分类报警文本进行分词处理，得到第一分词集；检测预设模板池中是否存在模板文本；若预设模板池中存在模板文本，则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取，得到第一文本特征向量，并对所述模板文本进行特征提取，得到第二文本特征向量；计算第一文本特征向量与第二文本特征向量之间的相似度，并根据计算结果对所述待分类报警文本进行分类。本发明专利技术还公开了一种文本分类装置、设备及计算机可读存储介质。本发明专利技术能解决现有针对运维场景的报警文本分类准确性较差的问题。

Text categorization methods, devices, devices and computer-readable storage media

全部详细技术资料下载

【技术实现步骤摘要】
文本分类方法、装置、设备及计算机可读存储介质
本专利技术涉及金融科技(Fintech)
，尤其涉及一种文本分类方法、装置、设备及计算机可读存储介质。
技术介绍
随着金融科技(Fintech)，尤其是互联网科技金融的不断发展，企业业务数据中心的规模也日益庞大，在金融科技的日常运维中经常会出现许多报警信息。运维人员需定期对报警文本进行统计分析，以分析报警产生的根本原因，从而确定对应的解决方案。由于金融领域的报警信息的复杂性和庞大性，因此，需通过计算机系统对报警文本进行智能分类挖掘。然而，由于运维场景的报警文本中存在大量专业术语，大多都未被收入到字典中，如果采用现有的文本挖掘方法对运维场景的报警文本进行文本挖掘，会出现报警文本分类准确性较差的问题。因此，亟需一种可提高运维场景中报警文本分类准确性的方法。
技术实现思路
本专利技术的主要目的在于提供一种文本分类方法、装置、设备及计算机可读存储介质，旨在解决现有针对运维场景的报警文本分类准确性较差的问题。为实现上述目的，本专利技术提供一种文本分类方法，所述文本分类方法包括：接收待分类报警文本，并对所述待分类报警文本进行分词处理，得到第一分词集；检测预设模板池中是否存在模板文本；若预设模板池中存在模板文本，则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取，得到第一文本特征向量，并对所述模板文本进行特征提取，得到第二文本特征向量；计算所述第一文本特征向量与所述第二文本特征向量之间的相似度，并根据计算结果对所述待分类报警文本进行分类。可选地，所述基于所述第一分词集和第一预设规则对所述待分类报警文本进行特...

【技术保护点】
1.一种文本分类方法，其特征在于，所述文本分类方法包括：接收待分类报警文本，并对所述待分类报警文本进行分词处理，得到第一分词集；检测预设模板池中是否存在模板文本；若预设模板池中存在模板文本，则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取，得到第一文本特征向量，并对所述模板文本进行特征提取，得到第二文本特征向量；计算所述第一文本特征向量与所述第二文本特征向量之间的相似度，并根据计算结果对所述待分类报警文本进行分类。

【技术特征摘要】
1.一种文本分类方法，其特征在于，所述文本分类方法包括：接收待分类报警文本，并对所述待分类报警文本进行分词处理，得到第一分词集；检测预设模板池中是否存在模板文本；若预设模板池中存在模板文本，则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取，得到第一文本特征向量，并对所述模板文本进行特征提取，得到第二文本特征向量；计算所述第一文本特征向量与所述第二文本特征向量之间的相似度，并根据计算结果对所述待分类报警文本进行分类。2.如权利要求1所述的文本分类方法，其特征在于，所述基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取，得到第一文本特征向量，并对所述模板文本进行特征提取，得到第二文本特征向量的步骤包括：对所述模板文本进行分词处理，得到第二分词集；基于所述第一分词集和所述第二分词集计算各预设特征词的第一属性值，并分别计算所述待分类报警文本中各预设特征词的第二属性值和所述模板文本中各预设特征词的第三属性值；根据所述第一属性值和所述第二属性值计算所述待分类报警文本中各预设特征词的第一特征值，并对所述第一特征值进行拼接，得到第一文本特征向量；根据所述第一属性值和所述第三属性值计算所述模板文本中各预设特征词的第二特征值，并对所述第二特征值进行拼接，得到第二文本特征向量。3.如权利要求2所述的文本分类方法，其特征在于，所述第一属性值的计算公式为：所述第二属性值的计算公式为：所述第三属性值的计算公式为：所述第一特征值的计算公式为：Vs1＝Fs1·Fs2；所述第二特征值的计算公式为：Vs2＝Fs1·Fs3；其中，Fs1为预设特征词s的第一属性值，ns为所述待分类报警文本和所述模板文本的文本总数，df(t,s)为所述待分类报警文本和所述模板文本中包含预设特征词s的文本数量，α为一预设值，Fs2为所述待分类报警文本中预设特征词s的第二属性值，ts1为预设特征词s在当前待分类报警文本中出现的次数，ttotal1为当前待分类报警文本中的分词总数，Fs3为所述模板文本中预设特征词s的第三属性值，ts2为预设特征词s在当前模板文本中出现的次数，ttotal2为当前模板文本中的分词总数，Vs1为所述待分类报警文本中预设特征词s的第一特征值，Vs2为所述模板文本中预设特征词s的第二特征值。4.如权利要求1所述的文本分类方法，其特征在于，所述计算所述第一文本特征向量与所述第二文本特征向量之间的相似度，并根据计算结果对所述待分类报警文本进行分类的步骤包括：计算所述第一文本特征向量与各所述第二文本特征向量之间的欧氏距离，并根据计算结果判断是否存在大于预设阈值的欧式距离；若存在大于预设阈值的欧式距离，则将所述待分类报警文本与所述大于预设阈值的欧式距离对应的模...

【专利技术属性】
技术研发人员：张威，杨永帮，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人