一种企业新闻数据风险分类方法技术

技术编号:20622556 阅读:25 留言:0更新日期:2019-03-20 14:25
本发明专利技术公开了一种企业新闻数据风险分类方法,包括如下步骤:根据确定企业的公司名称获取该确定企业的相关属性,将所述相关属性两两组合并以此为关键词进行搜索,获取与该确定企业相关的新闻材料,并从所述新闻材料中提取出含有所述相关属性的句子;将含有所述相关属性的句子输入CNN句子分类模型中,得到每个句子的句子分类,所述句子分类为正面类别或负面类别;将每个所述句子分类分别进行加权处理,取加权处理后的句子分类值大者作为当前新闻的新闻分类,所述新闻分类为正面类别或负面类别;本发明专利技术根据企业主体进行句子提取,通过对句子分类进行预测,进而实现针对于该主体的新闻材料的类别预测。

A Risk Classification Method for Enterprise News Data

The invention discloses a risk classification method for enterprise news data, which comprises the following steps: acquiring the related attributes of the enterprise according to the company name of the enterprise, combining the two groups of related attributes as keywords for searching, acquiring the news materials related to the enterprise, and extracting the sentences containing the related attributes from the news materials; Sentences containing the relevant attributes are input into the CNN sentence classification model to obtain the sentence classification of each sentence, which is classified into positive or negative categories; each sentence is classified into weighted processing, and the news classified into positive or negative categories is classified as the news classification of the current news when the sentence classification value after the weighted processing is large. According to the main body of the enterprise, sentences are extracted and forecasted by sentence classification, so as to realize the classification prediction of news materials for the main body.

【技术实现步骤摘要】
一种企业新闻数据风险分类方法
本专利技术属于数据处理
,具体涉及一种企业新闻数据风险分类方法。
技术介绍
目前,最新技术有大量的文本分类模型和情感分析模型,其算法都相对较为成熟。现有的文本分类模型和情感分析模型为相互独立的算法。其中文本分类模型采用的主流算法有Bi-LSTM算法和CNN、FastText算法,都可以是基于字符、基于词的针对整篇新闻作为训练语料数据,由于其针对全文作为训练语料,那么对于特定的一篇新闻文章只有一个分类,但是当新闻中出现多个公司主体时,在事实上对于不同的公司主体来说可能具有不同的分类。例如,某篇新闻内容描述了公司A的负面信息和公司B的正面信息,如果针对全文进行分类,始终只能得出一个类别,该分类可能针对公司A的类别是对的,但是在公司A和公司B的类别不一样的情况下(公司A为负面类别,公司B为正面类别),现有分类思路始终无法满足在同一篇新闻中针对不同主体打标分类。而情感分析较多采用Bi-LSTM算法,情感分析通常只输出整篇文章情感倾向,包括正面概率,负面概率;没有更加具体的情感类别区分。因此,完全依赖一个模型预测,其准确度高度依赖于新闻语料数据的准备,鉴于新闻样式繁多,同样的新闻出自不同的撰写人可能风格完全不同,因此具有局限性。
技术实现思路
为了解决现有技术存在的上述问题,本专利技术目的在于提供一种可针对某一特定主体进行分类的企业新闻数据风险分类方法。本专利技术所采用的技术方案为:一种企业新闻数据风险分类方法,包括如下步骤:根据确定企业的公司名称获取该确定企业的相关属性,将所述相关属性两两组合并以此为关键词进行搜索,获取与该确定企业相关的新闻材料,并从所述新闻材料中提取出含有所述相关属性的句子;将含有所述相关属性的句子输入CNN句子分类模型中,得到每个句子的句子分类,所述句子分类为正面类别或负面类别;将每个所述句子分类分别进行加权处理,取加权处理后的句子分类值大者作为当前新闻的新闻分类,所述新闻分类为正面类别或负面类别。进一步,所述相关属性包括但不限于法人名、高管名、公司简称、股票简称、公司历史名和产品名。更进一步,所述CNN句子分类模型是采用CNN算法训练而成的企业新闻分类模型。更进一步,所述CNN句子分类模型采用如下方法训练而成:准备训练语料数据;将训练语料数据中的句子输入CNN句子分类训练模型中,训练得到CNN句子分类模型。更进一步,所述准备训练语料数据包括如下步骤:使用网络爬虫在新闻数据来源中抓取企业类新闻材料,并将该企业类新闻材料以文本的形式存储在数据库中;根据企业关注的新闻焦点,总结统计所需新闻类别;针对不同的新闻类别自定义一系列的强规则;根据所述自定义的强规则,在数据库中筛选出与该强规则相匹配的新闻材料作为备用语料数据;采用人工对强规则筛出来的备用语料数据进行核对,筛选出第一训练语料数据;采用人工从各大网站获取不同新闻类别的数据,作为第二训练语料数据;将第一语料数据和第二语料数据融合,得到训练语料数据。本专利技术的有益效果为:本专利技术根据企业主体进行句子提取,通过对句子分类进行预测,进而实现针对于该主体的新闻材料的类别预测。由于每个句子均包含确定企业的相关属性,因此预测结果必然是针对于该确定企业的。若同一篇新闻材料中涉及多个企业主体,采用本专利技术方法,可根据不同主体提取出不同的句子,得到针对于不同企业主体的新闻分类,其分类更加准确。附图说明图1为本专利技术流程图。图2为准备训练语料数据流程图。具体实施方式下面结合附图及具体实施例对本专利技术作进一步阐述。以下实施例仅用于更加清楚地说明本专利技术的产品,因此只是作为示例,而不能以此来限制本专利技术的保护范围。实施例:本专利技术实施例提供的一种企业新闻数据风险分类方法,如图1所示,包括如下步骤:S101、根据确定企业的公司名称获取该确定企业的相关属性,将所述相关属性两两组合并以此为关键词进行搜索,获取与该确定企业相关的新闻材料,并从所述新闻材料中提取出含有所述相关属性的句子。确定企业为需要进行新闻数据风险分析的企业,根据该确定企业的公司名称获取该确定企业的相关属性,相关属性包括但不限于法人名、高管名、公司简称、股票简称、公司历史名和产品名。两两组合的意思为两个相关属性是and的关系。以两两组合的相关属性为关键词进行新闻材料的搜索,其准确性更高,可防止因不同公司相同属性值的出现而搜索到与该确定企业不相关的新闻材料,影响后续计算。例如,重庆誉存大数据科技有限公司和北京誉存大数据科技有限公司的公司简称均有可能为誉存大数据,如果仅以单个的相关属性进行搜索,则无法准确定位搜索结果中的新闻材料是关于重庆誉存大数据科技有限公司还是北京誉存大数据科技有限公司。将确定企业的相关属性两两组合,并以此为关键词在互联网上进行搜索,获取与该确定企业相关的新闻材料,并从该新闻材料中提取出含有该确定企业相关属性(关键词)的句子。S102、将含有所述相关属性的句子输入CNN句子分类模型中,得到每个句子的句子分类,所述句子分类为正面类别或负面类别。CNN句子分类模型是采用CNN算法训练而成的企业新闻分类模型,该模型可采用现有文本分类模型训练方法训练而成。通过CNN句子分类模型对每个句子类别进行预测,得到每个句子的分类,该分类为正面类别或负面类别。由于每个句子含有确定企业的相关属性,因此,该句子分类的预测是针对该确定企业进行的预测。S103、将每个所述句子分类分别进行加权处理,取加权处理后的句子分类值大者作为当前新闻的新闻分类,所述新闻分类为正面类别或负面类别。本实施例中,将新闻标题权重赋予3,其余均权重赋予1,因为新闻标题往往更多的代表作者的情感倾向。将新闻材料中每个句子类别分别加权处理后相加,取值大者作为该新闻材料的新闻分类。即将正面类别的句子和负面类别的句子分别加权处理后相加,若正面类别的值大,则该新闻分类为正面类别,若负面类别的值大,则该新闻分类为负面类别。本专利技术根据企业主体进行句子提取,通过对句子分类进行预测,进而实现针对于该主体的新闻材料的类别预测。由于每个句子均包含确定企业的相关属性,因此预测结果必然是针对于该确定企业的。若同一篇新闻材料中涉及多个企业主体,采用本专利技术方法,可根据不同主体提取出不同的句子,得到针对于不同企业主体的新闻分类,其分类更加准确。本专利技术仅针对企业类新闻(如新闻的财经板块、公司板块等)进行预测,通过结合CNN句子分类模型对新闻数据风险类别进行预测,可更加准确地预测新闻中企业主体的风险信息,准确性更高。训练CNN句子分类模型离不开训练语料,参见图2:本专利技术中,训练语料数据准备方法包括如下步骤:S201、使用网络爬虫在新闻数据来源中抓取尽可能多的企业类新闻材料,并将该企业类新闻材料以文本的形式存储在数据库中。新闻数据来源包括全国各大门户网站的公司新闻和财经新闻板块以及与财经、企业等相关的各个中小型网站。S202、根据企业关注的新闻焦点,总结统计所需新闻类别。新闻类别包括但不限于“偷税漏税”、“政策监管”、“失信风险”、“违法犯罪”、“事故信息”、“股权变动”、“产品问题”、“合作共赢”、“业务变动”、“抄袭侵权”、“法务纠纷”、“违反规定”、“工资拖欠”、“产品升级”、“高管离职”、“投资融资”、“运营风险”、“畏罪潜逃”、“贪污贿赂”、“欺诈骗局本文档来自技高网...

【技术保护点】
1.一种企业新闻数据风险分类方法,其特征在于,包括如下步骤:根据确定企业的公司名称获取所述确定企业的相关属性,将所述相关属性两两组合并以此为关键词进行搜索,获取与所述确定企业相关的新闻材料,并从所述新闻材料中提取出含有所述相关属性的句子;将含有所述相关属性的句子输入CNN句子分类模型中,得到每个句子的句子分类,所述句子分类为正面类别或负面类别;将每个所述句子分类分别进行加权处理,取加权处理后的句子分类值大者作为当前新闻的新闻分类,所述新闻分类为正面类别或负面类别。

【技术特征摘要】
1.一种企业新闻数据风险分类方法,其特征在于,包括如下步骤:根据确定企业的公司名称获取所述确定企业的相关属性,将所述相关属性两两组合并以此为关键词进行搜索,获取与所述确定企业相关的新闻材料,并从所述新闻材料中提取出含有所述相关属性的句子;将含有所述相关属性的句子输入CNN句子分类模型中,得到每个句子的句子分类,所述句子分类为正面类别或负面类别;将每个所述句子分类分别进行加权处理,取加权处理后的句子分类值大者作为当前新闻的新闻分类,所述新闻分类为正面类别或负面类别。2.根据权利要求1所述的企业新闻数据风险分类方法,其特征在于,所述相关属性包括但不限于法人名、高管名、公司简称、股票简称、公司历史名和产品名。3.根据权利要求1所述的企业新闻数据风险分类方法,其特征在于,所述CNN句子分类模型是采用CNN算法训练而成的企业新闻分类模型。4.根据...

【专利技术属性】
技术研发人员:陈玮刘德彬孙世通吴万杰严开
申请(专利权)人:重庆誉存大数据科技有限公司
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1