一种企业虚假宣传风险识别方法、设备和存储介质技术

技术编号:30347720 阅读:52 留言:0更新日期:2021-10-16 16:39
本发明专利技术公开了一种企业虚假宣传风险识别方法、设备和存储介质。该方法包括:在目标企业对应的多个企业舆情文本中,提取疑似风险文本;在每个疑似风险文本中提取对应种类的风险特征,形成每个疑似风险文本对应的风险特征向量;将多个疑似风险文本分别对应的风险特征向量顺次输入预先训练的风险识别模型,使风险识别模型对每个疑似风险文本进行识别,并将识别为存在虚假宣传风险的疑似风险文本确定为风险文本;根据确定出的所有风险文本的信息,确定目标企业对应的虚假宣传风险强度值;如果虚假宣传风险强度值大于预设的风险阈值,则确定目标企业存在虚假宣传风险。本发明专利技术可以避免人工匹配规则的局限性,提升了虚假宣传风险识别的准确性。的准确性。的准确性。

【技术实现步骤摘要】
一种企业虚假宣传风险识别方法、设备和存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种企业虚假宣传风险识别方法、设备和存储介质。

技术介绍

[0002]随着经济和社会的发展,各类融资平台的数量呈现爆发式增长,互联网与金融的融合催生了一系列新的融资模式,如P2P众筹等。与此同时,相应的监管措施还未健全,导致了融资市场混乱和违法违规现象频发,不仅限制了该行业的健康发展,还为经济建设带来了巨大的风险和隐患。比如非法集资就给社会带来了极大的危害。由于互联网不分地域、快速传播、涉众面广等特性,给防范和处置非法集资工作带来了巨大的挑战。涉嫌非法集资的企业在集资前期一般会通过互联网发表虚假言论来标榜企业实力,诱导民众投资企业发布的产品。因此,识别企业虚假宣传对及早判别非法集资风险具有重大的意义,可以有效防范、打击和处置非法集资等违法行为。
[0003]目前,主要通过基于人工规则匹配的方式来识别企业是否存在虚假宣传风险。该识别方式具体包括:通过匹配企业关键词的方式,从海量互联网数据中,获取企业相关的文本数据;在获取的文本数据中,查询是否存在虚假宣传风险关键词;如果文本数据中包含虚假宣传风险关键词,则判定该企业存在虚假宣传风险,反之,则判定该企业不存在虚假宣传风险。但是,由于人工设置匹配规则的局限性导致识别准确率较低,无法满足实际应用,而且人工设置的匹配规则也无法满足动态变化的金融环境,适应性较差。

技术实现思路

[0004]本专利技术实施例的主要目的在于提供一种企业虚假宣传风险识别方法、设备和存储介质,以解决基于人工规则匹配的方式来识别企业是否存在虚假宣传风险,会由于人工设置匹配规则的局限性导致识别准确率较低的问题。
[0005]针对上述技术问题,本专利技术实施例是通过以下技术方案来解决的:
[0006]本专利技术实施例提供了一种企业虚假宣传风险识别方法,包括:从互联网中,获取目标企业对应的多个企业舆情文本;在所述目标企业对应的多个企业舆情文本中,提取包括预设的风险关键词的企业舆情文本作为疑似风险文本;按照预设的风险特征的种类,在每个所述疑似风险文本中提取对应种类的风险特征,形成每个所述疑似风险文本对应的风险特征向量;将多个所述疑似风险文本分别对应的风险特征向量顺次输入预先训练的风险识别模型,使所述风险识别模型对每个所述疑似风险文本的虚假宣传风险进行识别,并将识别为存在虚假宣传风险的疑似风险文本确定为风险文本;根据确定出的所有风险文本的信息,确定所述目标企业对应的虚假宣传风险强度值;如果所述虚假宣传风险强度值大于预设的风险阈值,则确定所述目标企业存在虚假宣传风险。
[0007]其中,在所述提取包括预设的风险关键词的企业舆情文本之前,还包括:从互联网中抽取多个企业虚假宣传文本和多个金融领域文本;分别对每个所述企业虚假宣传文本和
每个所述金融领域文本进行预处理;利用预设的文档主题生成LDA模型,在预处理后的所述多个企业虚假宣传文本中,提取多个虚假宣传主题关键词,并将所述多个虚假宣传主题关键词设置为初始风险关键词;利用预设的Word2Vec模型,在预处理后的每个所述金融领域文本中提取上下文信息,并根据所述上下文信息生成多个词汇语义向量;针对每个所述词汇语义向量,如果存在至少一个所述初始风险关键词的语义向量与所述词汇语义向量的向量相似度大于预设的向量相似度阈值,则将所述词汇语义向量对应的词汇设置为扩展风险关键词;将设置的每个所述初始风险关键词以及设置的每个所述扩展风险关键词设置为风险关键词。
[0008]其中,在所述目标企业对应的多个企业舆情文本中,提取包括预设的风险关键词的企业舆情文本作为疑似风险文本,包括:针对每个所述企业舆情文本,对所述企业舆情文本进行分句处理,得到所述企业舆情文本对应的多个分句;将每个所述分句与预设的多个风险关键词分别进行相似度计算;如果所述企业舆情文本中至少存在一个所述分句与所述多个风险关键词中的其中一个风险关键词的相似度大于预设的关键词相似度阈值,则将所述企业舆情文本确定为疑似风险文本。
[0009]其中,在所述将多个所述疑似风险文本分别对应的风险特征向量顺次输入预先训练的风险识别模型之前,还包括:步骤1,获取多个样本;其中,根据所述多个样本划分训练数据集、验证数据集和测试数据集;步骤2,利用预设的向量空间模型,分别在每个所述样本中提取预设种类的风险特征,形成每个所述样本对应的风险特征向量;步骤3,利用所述训练数据集中的每个所述样本对应的风险特征向量,训练所述风险识别模型中的参数;步骤4,利用所述验证数据集中的每个所述样本对应的风险特征向量,验证所述风险识别模型是否收敛,如果所述风险识别模型收敛,则执行步骤5,反之,则跳转到步骤3;步骤5,利用所述测试数据集中的每个所述样本对应的风险特征向量,确定所述风险识别模型的识别效果指标;如果所述识别效果指标大于预设的效果阈值,则结束对所述风险识别模型的训练,反之,则跳转到步骤3。
[0010]其中,在所述分别在每个所述样本中提取预设种类的风险特征之前,还包括:获取所述训练数据集中的多个样本;利用预设的特征评估函数,分别计算在所述训练数据集的多个样本中出现的每个词汇作为风险特征的评估值;按照评估值从大到小的顺序,顺次获取前N个词汇,N≥1;根据所述前N个词语以及预设的向量空间模型,构造风险特征的种类。
[0011]其中,所述风险识别模型为支持向量机SVM模型。
[0012]其中,所述根据确定出的所有风险文本的信息,确定所述目标企业对应的虚假宣传风险强度值,包括:根据确定出的所有风险文本的信息,确定风险文本的数量,风险文本的数量和企业舆情文本的数量的比值,风险文本的来源站点个数,风险文本的来源账号个数,风险文本的来源站点的可信度,和/或,风险文本的来源账号的可信度;对所述风险文本的数量,所述风险文本的来源站点个数,所述风险文本的来源账号个数,所述风险文本的来源站点的可信度,和/或,所述风险文本的来源账号的可信度执行归一化处理;确定所述风险文本的数量和所述企业舆情文本的数量的比值,归一化后的所述风险文本的数量,所述风险文本的来源站点个数,所述风险文本的来源账号个数,所述风险文本的来源站点的可信度,和/或,所述风险文本的来源账号的可信度的加权平均值,将所述加权平均值作为所述目标企业对应的虚假宣传风险强度值。
[0013]其中,对所述风险文本的数量,所述风险文本的来源站点个数,所述风险文本的来源账号个数,所述风险文本的来源站点的可信度,和/或,所述风险文本的来源账号的可信度执行归一化处理,包括:利用预设的对数Min-Max归一化方法,对所述风险文本的数量和/或所述风险文本的来源账号的可信度执行归一化处理;利用预设的Min-Max归一化方法,对所述风险文本的来源站点个数,所述风险文本的来源账号个数和/或所述风险文本的来源站点的可信度执行归一化处理。
[0014]本专利技术实施例还提供了一种企业虚假宣传风险识别设备,所述企业虚假宣传风险识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业虚假宣传风险识别方法,其特征在于,包括:从互联网中,获取目标企业对应的多个企业舆情文本;在所述目标企业对应的多个企业舆情文本中,提取包括预设的风险关键词的企业舆情文本作为疑似风险文本;按照预设的风险特征的种类,在每个所述疑似风险文本中提取对应种类的风险特征,形成每个所述疑似风险文本对应的风险特征向量;将多个所述疑似风险文本分别对应的风险特征向量顺次输入预先训练的风险识别模型,使所述风险识别模型对每个所述疑似风险文本的虚假宣传风险进行识别,并将识别为存在虚假宣传风险的疑似风险文本确定为风险文本;根据确定出的所有风险文本的信息,确定所述目标企业对应的虚假宣传风险强度值;如果所述虚假宣传风险强度值大于预设的风险阈值,则确定所述目标企业存在虚假宣传风险。2.根据权利要求1所述的方法,其特征在于,在所述提取包括预设的风险关键词的企业舆情文本之前,还包括:从互联网中抽取多个企业虚假宣传文本和多个金融领域文本;分别对每个所述企业虚假宣传文本和每个所述金融领域文本进行预处理;利用预设的文档主题生成LDA模型,在预处理后的所述多个企业虚假宣传文本中,提取多个虚假宣传主题关键词,并将所述多个虚假宣传主题关键词设置为初始风险关键词;利用预设的Word2Vec模型,在预处理后的每个所述金融领域文本中提取上下文信息,并根据所述上下文信息生成多个词汇语义向量;针对每个所述词汇语义向量,如果存在至少一个所述初始风险关键词的语义向量与所述词汇语义向量的向量相似度大于预设的向量相似度阈值,则将所述词汇语义向量对应的词汇设置为扩展风险关键词;将设置的每个所述初始风险关键词以及设置的每个所述扩展风险关键词设置为风险关键词。3.根据权利要求1或者2所述的方法,其特征在于,在所述目标企业对应的多个企业舆情文本中,提取包括预设的风险关键词的企业舆情文本作为疑似风险文本,包括:针对每个所述企业舆情文本,对所述企业舆情文本进行分句处理,得到所述企业舆情文本对应的多个分句;将每个所述分句与预设的多个风险关键词分别进行相似度计算;如果所述企业舆情文本中至少存在一个所述分句与所述多个风险关键词中的其中一个风险关键词的相似度大于预设的关键词相似度阈值,则将所述企业舆情文本确定为疑似风险文本。4.根据权利要求1所述的方法,其特征在于,在所述将多个所述疑似风险文本分别对应的风险特征向量顺次输入预先训练的风险识别模型之前,还包括:步骤1,获取多个样本;其中,根据所述多个样本划分训练数据集、验证数据集和测试数据集;步骤2,利用预设的向量空间模型,分别在每个所述样本中提取预设种类的风险特征,形成每个所述样本对应的风险特征向量;
步骤3,利用所述训练数据集中的每个所述样本对应的风险特征向量,训练所述风险识别模型中的参数;步骤4,利用所述验证数据集中的每个所述样本对应的风险特征向量,验证所述风险识别模型是否收敛,...

【专利技术属性】
技术研发人员:贺敏张东雷杜慧柳力多董琳彭鑫王秀文罗引王磊赵菲菲曹家张西娜郭富民
申请(专利权)人:北京中科闻歌科技股份有限公司北京中科闻歌智安科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1