The application relates to an industry classification method, system, computer equipment and storage medium for text information. The method includes: obtaining the feature words of the text information to be classified, obtaining the initial industry label corresponding to the text information to be classified according to the feature words and the pre-established industry feature lexicon, and obtaining the feature vector of the text information to be classified according to the feature words and the pre-established word vector model. According to the industry label probability, the industry classification corresponding to the text information is determined from the initial industry label. This method can make the classification of text information more accurate.
【技术实现步骤摘要】
文本信息的行业分类方法、系统、计算机设备和存储介质
本申请涉及文本挖掘
,特别是涉及一种文本信息的行业分类方法、系统、计算机设备和存储介质。
技术介绍
随着互联网的发展,传统的营销行业也愈发焕发生机,营销渠道逐渐从线下转到线上,广告文案也随之呈现爆炸性的增长。广告文案实质上是属于短文本范畴的文本信息,其文本内容较少,具有特征稀疏、缺少上下文信息、信息量少等缺点,同时广告文案为了吸引用户一般呈现的内容含义均是比较表面的。若能利用文本信息对广告文案进行行业分类,不同行业企业便可有的放矢地参考同行文案创意来提升自身广告效果。针对短文本分类,目前常见的文本分类方法有以下方法:(1)人工经验标注方法:人工依靠经验对广告文案进行分类;(2)基于模型的自动分类方法,一般是先对文本进行特征处理再通过相应的算法,如基于朴素贝叶斯(Bayes)、支持向量机(SVM,SupportVectorMachine)、人工神经网络(ANN,artificialneuralnetwork)、k最邻近(kNN,k-NearestNeighbor)等进行判别。对于人工分类,虽能保证准确率但拓展性差,很难达到实用的标准。对于模型虽能自动化实现分类,但如SVM、ANN等算法一般均为黑箱,人为没办法从特征角度理解其机理,同时对于不同模型在不同业务背景下效果区别较大。从而导致文本信息进行行业分类时准确性较低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够解决文本信息进行行业分类时准确性较低的文本信息的行业分类方法、系统、计算机设备和存储介质。一种文本信息的行业分类方法,所述方法包括: ...
【技术保护点】
1.一种文本信息的行业分类方法,其特征在于,所述方法包括:获取待分类文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签;根据所述特征词以及预先建立的词向量模型,得到所述待分类文本信息的特征向量;根据所述特征向量以及预先设置的分类模型,分别得到所述待分类文本信息对应于所述初始行业标签中各行业标签的行业标签概率;根据所述行业标签概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。
【技术特征摘要】
1.一种文本信息的行业分类方法,其特征在于,所述方法包括:获取待分类文本信息的特征词,根据所述特征词以及预先建立的行业特征词库,得到所述待分类文本信息对应的初始行业标签;根据所述特征词以及预先建立的词向量模型,得到所述待分类文本信息的特征向量;根据所述特征向量以及预先设置的分类模型,分别得到所述待分类文本信息对应于所述初始行业标签中各行业标签的行业标签概率;根据所述行业标签概率,从初始行业标签中确定出所述待分类文本信息对应的行业分类。2.根据权利要求1所述的文本信息的行业分类方法,其特征在于,还包括:获取已知行业标签的已知文本信息;对同一行业标签对应的已知文本信息进行分词处理,得到同一行业标签对应的候选特征词汇集合;将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点,得到每个词汇的TextRank值;根据词汇的TextRank值,建立行业特征词库。3.根据权利要求2所述的文本信息的行业分类方法,其特征在于,在从初始行业标签中确定出所述待分类文本信息对应的行业分类之后,还包括:验证所述待分类文本信息是否与其行业分类对应;若否,则根据所述待分类文本信息及其对应的实际行业分类,更新所述行业特征词库。4.根据权利要求2或3所述的文本信息的行业分类方法,其特征在于,所述分类模型包括:根据已知行业分类的已知文本信息训练得到的逻辑回归模型;所述根据所述特征向量以及预先设置的分类模型,分别得到所述待分类文本信息对应于所述初始行业标签中每个行业标签的行业标签概率的步骤,包括:将所述特征向量输入所述逻辑回归模型中,分别得到所述待分类文本信息对应于所述初始行业标签中每个行业标签的行业标签概率。5.根据权利要求2或3所述的文本信息的行业分类方法,其特征在于,还包括:若所述初始行业标签中行业标签唯一,则确定唯一的所述行业标签为所述待分类文本信息对应的行业分类。6.根据权利要求5所述的文本信息的行业分类方法,其特征在于,从初始行业标签中确定出所述待分类文本信息对应的行业分类之后,还包括:将所述待分类文本信息及其对应的行业分类存入预先设置的文本库,其中,所述文本库用于存储所述已知文本信息。7.根...
【专利技术属性】
技术研发人员:翁永金,李百川,冯珏曦,李锦胜,陈第,蔡锐涛,
申请(专利权)人:有米科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。