结合深度学习和逻辑规则的企业新闻数据风险分类方法技术

技术编号：20590045 阅读：22 留言：0更新日期：2019-03-16 07:31

本发明专利技术公开了一种结合深度学习和逻辑规则的企业新闻数据风险分类方法，包括如下步骤：从新闻材料中提取出含有确定企业相关属性的句子；将含有相关属性的句子输入CNN句子分类模型中，得到每个句子的句子分类；将每个句子分类分别进行加权处理，得到当前新闻的新闻分类；将新闻材料以篇为单位输入Bi‑LSTM文章情感分类模型中，得到每篇新闻的情感倾向值；结合每篇新闻的新闻分类和情感倾向值，得到每篇新闻的新闻风险类别；本发明专利技术通过结合CNN句子分类模型与Bi‑LSTM文章情感分类模型对新闻数据风险类别进行预测，可更加准确地预测新闻中企业主体的风险信息，准确性更高。

全部详细技术资料下载

【技术实现步骤摘要】
结合深度学习和逻辑规则的企业新闻数据风险分类方法
本专利技术属于数据处理
，具体涉及一种结合深度学习和逻辑规则的企业新闻数据风险分类方法。
技术介绍
目前，最新技术有大量的文本分类模型和情感分析模型，其算法都相对较为成熟。现有的文本分类模型和情感分析模型为相互独立的算法。其中文本分类模型采用的主流算法有Bi-LSTM算法和CNN、FastText算法，都可以是基于字符、基于词的针对整篇新闻作为训练语料数据，由于其针对全文作为训练语料，那么对于特定的一篇新闻文章只有一个分类，但是当新闻中出现多个公司主体时，在事实上对于不同的公司主体来说可能具有不同的分类。例如，某篇新闻内容描述了公司A的负面信息和公司B的正面信息，如果针对全文进行分类，始终只能得出一个类别，该分类可能针对公司A的类别是对的，但是在公司A和公司B的类别不一样的情况下(公司A为负面类别，公司B为正面类别)，现有分类思路始终无法满足在同一篇新闻中针对不同主体打标分类。而情感分析较多采用Bi-LSTM算法，情感分析通常只输出整篇文章情感倾向，包括正面概率，负面概率；没有更加具体的情感类别区分。因此，完全依赖一个模型预测，其准确度高度依赖于新闻语料数据的准备，鉴于新闻样式繁多，同样的新闻出自不同的撰写人可能风格完全不同，因此具有局限性。
技术实现思路
为了解决现有技术存在的上述问题，本专利技术目的在于提供一种可针对某一特定主体进行分类的结合深度学习和逻辑规则的企业新闻数据风险分类方法。本专利技术所采用的技术方案为：一种结合深度学习和逻辑规则的企业新闻数据风险分类方法，包括如下步骤：根据确定企业的公司...

【技术保护点】
1.结合深度学习和逻辑规则的企业新闻数据风险分类方法，其特征在于，包括如下步骤：根据确定企业的公司名称获取所述确定企业的相关属性，将所述相关属性两两组合并以此为关键词进行搜索，获取与所述确定企业相关的新闻材料，并从所述新闻材料中提取出含有所述相关属性的句子；将含有所述相关属性的句子输入CNN句子分类模型中，得到每个句子的句子分类，所述句子分类为正面类别或负面类别；将每个所述句子分类分别进行加权处理，取加权处理后的句子分类值大者作为当前新闻的新闻分类，所述新闻分类为正面类别或负面类别；将所述新闻材料以篇为单位输入Bi‑LSTM文章情感分类模型中，得到每篇新闻的情感倾向值，所述情感倾向值为正面概率和负面概率；当情感倾向值的正面概率为0.6～1.0且新闻分类为正面类别时，则所述新闻风险类别为正面类别，其余情况对应的新闻风险类别状态为相关提及；当情感倾向值的负面概率为0.6～1.0且新闻分类为负面类别时，则所述新闻风险类别为负面类别，其余情况对应的新闻风险类别状态为相关提及。

【技术特征摘要】
1.结合深度学习和逻辑规则的企业新闻数据风险分类方法，其特征在于，包括如下步骤：根据确定企业的公司名称获取所述确定企业的相关属性，将所述相关属性两两组合并以此为关键词进行搜索，获取与所述确定企业相关的新闻材料，并从所述新闻材料中提取出含有所述相关属性的句子；将含有所述相关属性的句子输入CNN句子分类模型中，得到每个句子的句子分类，所述句子分类为正面类别或负面类别；将每个所述句子分类分别进行加权处理，取加权处理后的句子分类值大者作为当前新闻的新闻分类，所述新闻分类为正面类别或负面类别；将所述新闻材料以篇为单位输入Bi-LSTM文章情感分类模型中，得到每篇新闻的情感倾向值，所述情感倾向值为正面概率和负面概率；当情感倾向值的正面概率为0.6～1.0且新闻分类为正面类别时，则所述新闻风险类别为正面类别，其余情况对应的新闻风险类别状态为相关提及；当情感倾向值的负面概率为0.6～1.0且新闻分类为负面类别时，则所述新闻风险类别为负面类别，其余情况对应的新闻风险类别状态为相关提及。2.根据权利要求1所述的结合深度学习和逻辑规则的企业新闻数据风险分类方法，其特征在于，所述相关属性包括但不限于法人名、高管名、公司简称、股票简称、公司历史名和产品名。3.根据权利要求1所述的结合深度学习和逻辑规则的企业新闻数据风险分类方法，其特征在于，所述CNN句子分类模型是采用CNN算法训练而成的企业新闻分类模型。4.根据权利要...

【专利技术属性】
技术研发人员：陈玮，刘德彬，孙世通，吴万杰，严开，
申请(专利权)人：重庆誉存大数据科技有限公司，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人