当前位置: 首页 > 专利查询>北京中科闻歌科技股份有限公司北京中科闻歌智安科技有限公司专利>正文

一种企业虚假宣传风险识别方法、设备和存储介质技术

技术编号：30347720 阅读：52 留言：0更新日期：2021-10-16 16:39

本发明专利技术公开了一种企业虚假宣传风险识别方法、设备和存储介质。该方法包括：在目标企业对应的多个企业舆情文本中，提取疑似风险文本；在每个疑似风险文本中提取对应种类的风险特征，形成每个疑似风险文本对应的风险特征向量；将多个疑似风险文本分别对应的风险特征向量顺次输入预先训练的风险识别模型，使风险识别模型对每个疑似风险文本进行识别，并将识别为存在虚假宣传风险的疑似风险文本确定为风险文本；根据确定出的所有风险文本的信息，确定目标企业对应的虚假宣传风险强度值；如果虚假宣传风险强度值大于预设的风险阈值，则确定目标企业存在虚假宣传风险。本发明专利技术可以避免人工匹配规则的局限性，提升了虚假宣传风险识别的准确性。的准确性。的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种企业虚假宣传风险识别方法、设备和存储介质

[0001]本专利技术涉及计算机
，尤其涉及一种企业虚假宣传风险识别方法、设备和存储介质。

技术介绍

[0002]随着经济和社会的发展，各类融资平台的数量呈现爆发式增长，互联网与金融的融合催生了一系列新的融资模式，如P2P众筹等。与此同时，相应的监管措施还未健全，导致了融资市场混乱和违法违规现象频发，不仅限制了该行业的健康发展，还为经济建设带来了巨大的风险和隐患。比如非法集资就给社会带来了极大的危害。由于互联网不分地域、快速传播、涉众面广等特性，给防范和处置非法集资工作带来了巨大的挑战。涉嫌非法集资的企业在集资前期一般会通过互联网发表虚假言论来标榜企业实力，诱导民众投资企业发布的产品。因此，识别企业虚假宣传对及早判别非法集资风险具有重大的意义，可以有效防范、打击和处置非法集资等违法行为。
[0003]目前，主要通过基于人工规则匹配的方式来识别企业是否存在虚假宣传风险。该识别方式具体包括：通过匹配企业关键词的方式，从海量互联网数据中，获取企业相关的文本数据；在获取的文本数据中，查询是否存在虚假宣传风险关键词；如果文本数据中包含虚假宣传风险关键词，则判定该企业存在虚假宣传风险，反之，则判定该企业不存在虚假宣传风险。但是，由于人工设置匹配规则的局限性导致识别准确率较低，无法满足实际应用，而且人工设置的匹配规则也无法满足动态变化的金融环境，适应性较差。

技术实现思路

[0004]本专利技术实施例的主要目的在于提供一种企业虚假宣传风险识别方法、设备和存...

【技术保护点】

【技术特征摘要】
1.一种企业虚假宣传风险识别方法，其特征在于，包括：从互联网中，获取目标企业对应的多个企业舆情文本；在所述目标企业对应的多个企业舆情文本中，提取包括预设的风险关键词的企业舆情文本作为疑似风险文本；按照预设的风险特征的种类，在每个所述疑似风险文本中提取对应种类的风险特征，形成每个所述疑似风险文本对应的风险特征向量；将多个所述疑似风险文本分别对应的风险特征向量顺次输入预先训练的风险识别模型，使所述风险识别模型对每个所述疑似风险文本的虚假宣传风险进行识别，并将识别为存在虚假宣传风险的疑似风险文本确定为风险文本；根据确定出的所有风险文本的信息，确定所述目标企业对应的虚假宣传风险强度值；如果所述虚假宣传风险强度值大于预设的风险阈值，则确定所述目标企业存在虚假宣传风险。2.根据权利要求1所述的方法，其特征在于，在所述提取包括预设的风险关键词的企业舆情文本之前，还包括：从互联网中抽取多个企业虚假宣传文本和多个金融领域文本；分别对每个所述企业虚假宣传文本和每个所述金融领域文本进行预处理；利用预设的文档主题生成LDA模型，在预处理后的所述多个企业虚假宣传文本中，提取多个虚假宣传主题关键词，并将所述多个虚假宣传主题关键词设置为初始风险关键词；利用预设的Word2Vec模型，在预处理后的每个所述金融领域文本中提取上下文信息，并根据所述上下文信息生成多个词汇语义向量；针对每个所述词汇语义向量，如果存在至少一个所述初始风险关键词的语义向量与所述词汇语义向量的向量相似度大于预设的向量相似度阈值，则将所述词汇语义向量对应的词汇设置为扩展风险关键词；将设置的每个所述初始风险关键词以及设置的每个所述扩展风险关键词设置为风险关键词。3.根据权利要求1或者2所述的方法，其特征在于，在所述目标企业对应的多个企业舆情文本中，提取包括预设的风险关键词的企业舆情文本作为疑似风险文本，包括：针对每个所述企业舆情文本，对所述企业舆情文本进行分句处理，得到所述企业舆情文本对应的多个分句；将每个所述分句与预设的多个风险关键词分别进行相似度计算；如果所述企业舆情文本中至少存在一个所述分句与所述多个风险关键词中的其中一个风险关键词的相似度大于预设的关键词相似度阈值，则将所述企业舆情文本确定为疑似风险文本。4.根据权利要求1所述的方法，其特征在于，在所述将多个所述疑似风险文本分别对应的风险特征向量顺次输入预先训练的风险识别模型之前，还包括：步骤1，获取多个样本；其中，根据所述多个样本划分训练数据集、验证数据集和测试数据集；步骤2，利用预设的向量空间模型，分别在每个所述样本中提取预设种类的风险特征，形成每个所述样本对应的风险特征向量；
步骤3，利用所述训练数据集中的每个所述样本对应的风险特征向量，训练所述风险识别模型中的参数；步骤4，利用所述验证数据集中的每个所述样本对应的风险特征向量，验证所述风险识别模型是否收敛，...

【专利技术属性】
技术研发人员：贺敏，张东雷，杜慧，柳力多，董琳，彭鑫，王秀文，罗引，王磊，赵菲菲，曹家，张西娜，郭富民，
申请(专利权)人：北京中科闻歌科技股份有限公司北京中科闻歌智安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人