文本信息的行业分类方法、系统、计算机设备和存储介质技术方案

技术编号:19009200 阅读:21 留言:0更新日期:2018-09-22 09:04
本申请涉及一种文本信息的行业分类方法、系统、计算机设备和存储介质。所述方法包括:获取待分类文本信息的特征词,根据特征词以及预先建立的行业特征词库,得到待分类文本信息对应的初始行业标签,根据特征词以及预先建立的词向量模型,得到待分类文本信息的特征向量,根据特征向量以及预先设置的分类模型,分别得到待分类文本信息对应于初始行业标签中各行业标签的行业标签概率,根据行业标签概率,从初始行业标签中确定出待分类文本信息对应的行业分类。采用本方法能够使文本信息的行业分类更加准确。

Industry classification method, system, computer equipment and storage medium for text information

The application relates to an industry classification method, system, computer equipment and storage medium for text information. The method includes: obtaining the feature words of the text information to be classified, obtaining the initial industry label corresponding to the text information to be classified according to the feature words and the pre-established industry feature lexicon, and obtaining the feature vector of the text information to be classified according to the feature words and the pre-established word vector model. According to the industry label probability, the industry classification corresponding to the text information is determined from the initial industry label. This method can make the classification of text information more accurate.

【技术实现步骤摘要】
文本信息的行业分类方法、系统、计算机设备和存储介质
本申请涉及文本挖掘
,特别是涉及一种文本信息的行业分类方法、系统、计算机设备和存储介质。
技术介绍
随着互联网的发展,传统的营销行业也愈发焕发生机,营销渠道逐渐从线下转到线上,广告文案也随之呈现爆炸性的增长。广告文案实质上是属于短文本范畴的文本信息,其文本内容较少,具有特征稀疏、缺少上下文信息、信息量少等缺点,同时广告文案为了吸引用户一般呈现的内容含义均是比较表面的。若能利用文本信息对广告文案进行行业分类,不同行业企业便可有的放矢地参考同行文案创意来提升自身广告效果。针对短文本分类,目前常见的文本分类方法有以下方法:(1)人工经验标注方法:人工依靠经验对广告文案进行分类;(2)基于模型的自动分类方法,一般是先对文本进行特征处理再通过相应的算法,如基于朴素贝叶斯(Bayes)、支持向量机(SVM,SupportVectorMachine)、人工神经网络(ANN,artificialneuralnetwork)、k最邻近(kNN,k-NearestNeighbor)等进行判别。对于人工分类,虽能保证准确率但拓展性差,很难达到实用的标准。对于模型虽能自动化实现分类,但如SVM、ANN等算法一般均为黑箱,人为没办法从特征角度理解其机理,同时对于不同模型在不同业务背景下效果区别较大。从而导致文本信息进行行业分类时准确性较低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够解决文本信息进行行业分类时准确性较低的文本信息的行业分类方法、系统、计算机设备和存储介质。一种文本信息的行业分类方法,所述方法包括:获取待分类文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签;根据所述特征词以及预先建立的词向量模型,得到所述待分类文本信息的特征向量;根据所述特征向量以及预先设置的分类模型,分别得到所述待分类文本信息对应于所述初始行业标签中各行业标签的行业标签概率;根据所述行业标签概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。上述文本信息的行业分类方法,通过获取待分类文本信息的特征词,根据预设的行业特征词库,筛选出初始行业标签,然后以初始行业标签中每个行业标签为待分类文本信息的行业分类,通过词向量模型计算出每个待分类文本信息的特征向量,然后根据预先设置的分类模型,计算出初始行业标签中各行业标签的行业标签概率,从初始行业标签中确定出待分类文本信息对应的行业分类。本专利技术实施例中,通过初步筛选出可能的行业标签,然后通过分类模型确定出行业标签,使文本信息的行业分类更加准确。在其中一个实施例中,还包括:获取已知行业标签的已知文本信息;对同一行业标签对应的所有的已知文本信息进行分词处理,得到同一行业标签对应的候选特征词汇集合;将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点,得到每个词汇的TextRank值;根据词汇的TextRank值,建立行业特征词库。在其中一个实施例中,还包括:验证所述待分类文本信息是否与其行业分类对应;若否,则根据所述待分类文本信息的实际行业分类,更新所述行业特征词库。在其中一个实施例中,所述分类模型包括:根据所述文本库中已知行业分类的已知文本信息训练得到的逻辑回归模型,还包括:将所述特征向量输入所述逻辑回归模型中,分别得到所述待分类文本信息对应于所述初始行业标签中每个行业标签的行业标签概率。在其中一个实施例中,还包括:若所述初始行业标签中行业标签唯一,则确定唯一的所述行业标签为所述待分类文本信息对应的行业分类。在其中一个实施例中,还包括:将所述待分类文本信息及其对应的行业分类存入预先设置的文本库。在其中一个实施例中,还包括:确定所述行业标签概率最大的行业标签,由此得到所述待分类文本信息的行业分类。在其中一个实施例中,还包括:根据预先建立的行业特征词汇库,对所述特征词与行业特征词汇库进行全匹配和/或正则匹配;得到行业特征词汇库中各行业标签与所述待分类文本信息的特征词的匹配频次;取匹配频次最高的多个行业标签作为所述待分类文本信息的初始行业标签。在其中一个实施例中,还包括:根据预设语料库训练预设维度的词向量模型,将所述待分类文本信息的特征词依次输入所述词向量模型,得到每个所述特征词对应的词向量;根据每个所述特征词对应的词向量,得到所述待分类文本信息的特征向量。一种文本信息的行业分类系统,所述系统包括:初始标签获取模块,用于获取待分类文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签;特征向量获取模块,用于根据所述特征词以及预先建立的词向量模型,得到所述待分类文本信息的特征向量;概率获取模块,用于根据所述特征向量以及预先设置的分类模型,分别得到所述待分类文本信息对应于所述初始行业标签中各行业标签的行业标签概率。分类模块,用于根据所述行业标签概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。上述文本信息的行业分类系统,通过初始标签获取模块获取待分类文本信息的特征词,根据预设的行业特征词库,筛选出初始行业标签,然后特征向量获取模块以初始行业标签中每个行业标签为待分类文本信息的行业分类,通过词向量模型计算出每个待分类文本信息的特征向量,然后概率获取模块根据预先设置的分类模型,计算出初始行业标签中各行业标签的行业标签概率,分类模块从初始行业标签中确定出所述待分类文本信息对应的行业分类。本专利技术实施例中,通过初步筛选出可能的行业标签,然后通过分类模型确定出行业标签,使文本信息的行业分类更加准确。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到文本信息对应的初始行业标签;根据所述特征词以及预先建立的词向量模型,得到所述待分类文本信息对应于初始行业标签中各行业标签的特征向量;根据所述特征向量以及预先设置的分类模型,分别得到所述待分类文本信息对应于所述初始行业标签中各行业标签的行业标签概率;根据所述行业标签概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。上述计算机设备,处理器执行所述计算机程序时使文本信息的行业分类更加准确。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到文本信息对应的初始行业标签;根据所述特征词以及预先建立的词向量模型,得到所述待分类文本信息对应于初始行业标签中各行业标签的特征向量;根据所述特征向量以及预先设置的分类模型,分别得到所述待分类文本信息对应于所述初始行业标签中各行业标签的行业标签概率;根据所述行业标签概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。上述计算机可读存储介质,计算机程序被处理器执行时使文本信息的行业分类更加准确。附图说明图1为一个实施例中文本信息的行业分类方法的应用环境图;图2为一个实施例中文本信息的行业分类方法的流程示意图;图3为一实施例中利用初始行业标签进行文本信息的行业分类方法的流程示意图;图本文档来自技高网...
文本信息的行业分类方法、系统、计算机设备和存储介质

【技术保护点】
1.一种文本信息的行业分类方法,其特征在于,所述方法包括:获取待分类文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签;根据所述特征词以及预先建立的词向量模型,得到所述待分类文本信息的特征向量;根据所述特征向量以及预先设置的分类模型,分别得到所述待分类文本信息对应于所述初始行业标签中各行业标签的行业标签概率;根据所述行业标签概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。

【技术特征摘要】
1.一种文本信息的行业分类方法,其特征在于,所述方法包括:获取待分类文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签;根据所述特征词以及预先建立的词向量模型,得到所述待分类文本信息的特征向量;根据所述特征向量以及预先设置的分类模型,分别得到所述待分类文本信息对应于所述初始行业标签中各行业标签的行业标签概率;根据所述行业标签概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。2.根据权利要求1所述的文本信息的行业分类方法,其特征在于,还包括:获取已知行业标签的已知文本信息;对同一行业标签对应的已知文本信息进行分词处理,得到同一行业标签对应的候选特征词汇集合;将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点,得到每个词汇的TextRank值;根据词汇的TextRank值,建立行业特征词库。3.根据权利要求2所述的文本信息的行业分类方法,其特征在于,在从初始行业标签中确定出所述待分类文本信息对应的行业分类之后,还包括:验证所述待分类文本信息是否与其行业分类对应;若否,则根据所述待分类文本信息及其对应的实际行业分类,更新所述行业特征词库。4.根据权利要求2或3所述的文本信息的行业分类方法,其特征在于,所述分类模型包括:根据已知行业分类的已知文本信息训练得到的逻辑回归模型;所述根据所述特征向量以及预先设置的分类模型,分别得到所述待分类文本信息对应于所述初始行业标签中每个行业标签的行业标签概率的步骤,包括:将所述特征向量输入所述逻辑回归模型中,分别得到所述待分类文本信息对应于所述初始行业标签中每个行业标签的行业标签概率。5.根据权利要求2或3所述的文本信息的行业分类方法,其特征在于,还包括:若所述初始行业标签中行业标签唯一,则确定唯一的所述行业标签为所述待分类文本信息对应的行业分类。6.根据权利要求5所述的文本信息的行业分类方法,其特征在于,从初始行业标签中确定出所述待分类文本信息对应的行业分类之后,还包括:将所述待分类文本信息及其对应的行业分类存入预先设置的文本库,其中,所述文本库用于存储所述已知文本信息。7.根...

【专利技术属性】
技术研发人员:翁永金李百川冯珏曦李锦胜陈第蔡锐涛
申请(专利权)人:有米科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1