【技术实现步骤摘要】
行业资讯正负面模型构建方法和系统、识别方法和系统
[0001]本专利技术涉及数据处理领域,具体涉及到一种行业资讯正负面模型构建方法和系统、行业资讯正负面识别方法和系统、以及电子设备、存储介质。
技术介绍
[0002]企业行业级别正负面有别于政务正负面,企业行业正负面更倾向于关注客户的经营信息、企业品牌等有利于企业实力与形象建立的有关资讯。通过对企业客户定向监测的数据进行行业正负面判断,可准确获取企业需要了解的倾向资讯,更快速地获取市场对企业经营情况的判断,精准市场公关,利于企业在市场竞争中找到机遇与规避危害。
[0003]行业正负面判断整体业界技术经历三个阶段的衍化,包括传统机器学习模型分类、序列生成模型建模以及迁移学习的建模阶段。
[0004]传统机器学习模型代表处理资讯正负面时,即将文章特征向量化,然后根据特征变换和参数拟合来学习数据特点。一般特征向量化是使用SVD来对单词
‑
文档矩阵进行分解。SVD可以看作是从单词
‑
文档矩阵中发现不相关的索引变量(因子),将原来的数 ...
【技术保护点】
【技术特征摘要】
1.一种行业资讯正负面模型构建方法,其特征在于,包括:获取行业资讯集,所述行业资讯集中包括多条行业资讯数据;分别对每一条行业资讯数据进行分词,得到每一条行业资讯数据对应的资讯分词数据;分别对每一条资讯分词数据进行停用词去除处理,得到每一条资讯分词数据对应的资讯去停用词数据;分别对每一条资讯去停用词数据进行行业分类模型的数据预测和筛选,得到资讯分类筛选数据;分别对每一条资讯分类筛选数据进行行业知识库的句式过滤,得到资讯句式过滤数据;根据资讯句式过滤数据进行模型知识蒸馏,得到行业资讯的训练数据集和测试数据集;根据训练数据集进行bert建模和训练,得到行业资讯正负面初始模型;根据测试数据集对行业资讯正负面初始模型进行优化得到行业资讯正负面最终模型。2.根据权利要求1所述的行业资讯正负面模型构建方法,其特征在于,分别对每一条资讯去停用词数据进行行业分类模型的数据预测和筛选,得到资讯分类筛选数据的步骤中,包括:获取行业分类模型,所述行业分类模型是基于fasttext和NaiveBaye的混合模型组成的pipeline模型;分别将每一条资讯去停用词数据输入至行业分类模型,得到每一条资讯去停用词数据对应的分类概率值;去除分类概率值小于第一预设概率值的资讯去停用词数据,得到资讯分类筛选数据。3.根据权利要求2所述的行业资讯正负面模型构建方法,其特征在于,分类概率值的计算公式如下所示:Classifier(i)={C
fi
*Fasttext(precision(C
i
))+C
ni
*NaiveBayes(precision(C
i
))}/{Fasttext(precision(C
i
))+NaiveBayes(precision(C
i
))}其中,其中,Classifier(i)为第i个分类的分类概率值;C
fi
为fasttext模型第i个分类的判断结果;fasttext(precision(C
i
))为fasttext模型第i个分类的模型精度;C
ni
为NaiveBayes模型第i个分类的判断结果;NaiveBayes(precision(C
i
))为NaiveBayes模型第i个分类的模型精度。4.根据权利要求1所述的行业资讯正负面模型构建方法,其特征在于,分别对每一条资讯分类筛选数据进行行业知识库的句式过滤,得到资讯句式过滤数据的步骤中,包括:对行业领域历史文章进行词性标注,得到历史文章中每一个词的词性类别;根据历史文章和历史文章中每...
【专利技术属性】
技术研发人员:龚浩,彭璿韬,李青龙,
申请(专利权)人:北京智慧星光信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。