The invention discloses a risk classification method for enterprise news data, which comprises the following steps: acquiring the related attributes of the enterprise according to the company name of the enterprise, combining the two groups of related attributes as keywords for searching, acquiring the news materials related to the enterprise, and extracting the sentences containing the related attributes from the news materials; Sentences containing the relevant attributes are input into the CNN sentence classification model to obtain the sentence classification of each sentence, which is classified into positive or negative categories; each sentence is classified into weighted processing, and the news classified into positive or negative categories is classified as the news classification of the current news when the sentence classification value after the weighted processing is large. According to the main body of the enterprise, sentences are extracted and forecasted by sentence classification, so as to realize the classification prediction of news materials for the main body.
【技术实现步骤摘要】
一种企业新闻数据风险分类方法
本专利技术属于数据处理
,具体涉及一种企业新闻数据风险分类方法。
技术介绍
目前,最新技术有大量的文本分类模型和情感分析模型,其算法都相对较为成熟。现有的文本分类模型和情感分析模型为相互独立的算法。其中文本分类模型采用的主流算法有Bi-LSTM算法和CNN、FastText算法,都可以是基于字符、基于词的针对整篇新闻作为训练语料数据,由于其针对全文作为训练语料,那么对于特定的一篇新闻文章只有一个分类,但是当新闻中出现多个公司主体时,在事实上对于不同的公司主体来说可能具有不同的分类。例如,某篇新闻内容描述了公司A的负面信息和公司B的正面信息,如果针对全文进行分类,始终只能得出一个类别,该分类可能针对公司A的类别是对的,但是在公司A和公司B的类别不一样的情况下(公司A为负面类别,公司B为正面类别),现有分类思路始终无法满足在同一篇新闻中针对不同主体打标分类。而情感分析较多采用Bi-LSTM算法,情感分析通常只输出整篇文章情感倾向,包括正面概率,负面概率;没有更加具体的情感类别区分。因此,完全依赖一个模型预测,其准确度高度依赖于新闻语料数据的准备,鉴于新闻样式繁多,同样的新闻出自不同的撰写人可能风格完全不同,因此具有局限性。
技术实现思路
为了解决现有技术存在的上述问题,本专利技术目的在于提供一种可针对某一特定主体进行分类的企业新闻数据风险分类方法。本专利技术所采用的技术方案为:一种企业新闻数据风险分类方法,包括如下步骤:根据确定企业的公司名称获取该确定企业的相关属性,将所述相关属性两两组合并以此为关键词进行搜索,获取与该确定企业 ...
【技术保护点】
1.一种企业新闻数据风险分类方法,其特征在于,包括如下步骤:根据确定企业的公司名称获取所述确定企业的相关属性,将所述相关属性两两组合并以此为关键词进行搜索,获取与所述确定企业相关的新闻材料,并从所述新闻材料中提取出含有所述相关属性的句子;将含有所述相关属性的句子输入CNN句子分类模型中,得到每个句子的句子分类,所述句子分类为正面类别或负面类别;将每个所述句子分类分别进行加权处理,取加权处理后的句子分类值大者作为当前新闻的新闻分类,所述新闻分类为正面类别或负面类别。
【技术特征摘要】
1.一种企业新闻数据风险分类方法,其特征在于,包括如下步骤:根据确定企业的公司名称获取所述确定企业的相关属性,将所述相关属性两两组合并以此为关键词进行搜索,获取与所述确定企业相关的新闻材料,并从所述新闻材料中提取出含有所述相关属性的句子;将含有所述相关属性的句子输入CNN句子分类模型中,得到每个句子的句子分类,所述句子分类为正面类别或负面类别;将每个所述句子分类分别进行加权处理,取加权处理后的句子分类值大者作为当前新闻的新闻分类,所述新闻分类为正面类别或负面类别。2.根据权利要求1所述的企业新闻数据风险分类方法,其特征在于,所述相关属性包括但不限于法人名、高管名、公司简称、股票简称、公司历史名和产品名。3.根据权利要求1所述的企业新闻数据风险分类方法,其特征在于,所述CNN句子分类模型是采用CNN算法训练而成的企业新闻分类模型。4.根据...
【专利技术属性】
技术研发人员:陈玮,刘德彬,孙世通,吴万杰,严开,
申请(专利权)人:重庆誉存大数据科技有限公司,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。