System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及大数据技术和自然语言处理研究领域,具体涉及一种基于大数据的风险预警方法。
技术介绍
1、随着社会和科学技术的发展,人与人之间的沟通更加便捷,信息交互越来越频繁,然而,这也使得社会各种各样的矛盾冲突更加凸显化。社会管理人员通过人工感知数据,很难得到准确的矛盾事件风险等级,随着数据量的增多,普通的大数据分析技术需要消耗大量的时间。
2、本专利技术提供了一种基于大数据的风险预警方法,利用前言的自然语言处理技术,对区域进行具体的风险预警,目的是减少防控工作中耗费的人力物力,减轻工作人员的负担。
技术实现思路
1、为了克服现有技术的不足,本专利技术通过对城市进行网格化表示,采集网格矛盾诉求事件数据,根据矛盾诉求事件提取关键词,通过基于矛盾诉求事件文本训练语言模型得到模型对本行业的语义抽取能力更加智能;根据bert语言模型得到矛盾诉求事件的词向量表示,根据每个矛盾诉求词向量得到更精确的矛盾事件聚类结果,对bert模型进行微调即可得到不同事件的更加精准的分类模型。技术方案如下:
2、一种基于大数据的风险预警方法,包括如下步骤:
3、步骤1,将城市区域划分为一个个具有活动人员相对固定、人物间存在信息交流、面积小于阈值的区域网格,记为a1,a2,…,an,这些网格作为风险预警的主体;采集网格内发生的所有矛盾诉求事件数据,将所有采集的矛盾诉求事件数据进行分词,去除停用词后得到矛盾诉求事件的语料库,根据语料库训练bert模型,得到词嵌入层的参数,即语料库
4、优选的,所述词向量矩阵是对一个事件文本,抽取其关键词,选择前5个关键词。
5、优选的,抽取词向量的具体方法为:利用jieba进行关键词抽取,选择关键词tf-idf值大于阈值的前5个关键词,将关键词输入到上述词向量矩阵中,得到每个关键词的词向量表示,对关键词的tf-idf值进行softmax操作,并将各关键词对应的softmax值乘以关键词向量并求和得到该矛盾诉求事件文本的词向量表示。
6、步骤2,对于每个网格的事件数据进行single_pass聚类。
7、优选的,数据聚类具体方法为:随机选择一个事件的词向量作为第一个聚类中心;进行数据点分配:对于每个新的事件数据,将词向量标准化后计算其与已存在的聚类中心之间的距离,即计算数据点相似度,当相似度超过预定的阈值,将数据分配到该聚类中心,并更新该聚类中心;如果1个数据点与所有现有的聚类中心的距离都超过预定的阈值,那么将该数据点作为一个新的聚类中心;重复上述过程直至所有数据完成聚类。
8、优选的,计算两个数据点的相似度的具体公式如下:
9、similarity(c,v)=c*v
10、其中,similarity(c,v)表示标准化矛盾词向量c和v的相似度,c*v是向量的点乘运算。
11、优选的,更新聚类中心时将该聚类中的词向量取均值作为聚类中心。
12、步骤3,对于某聚类的所有矛盾诉求事件,将其矛盾诉求文本拼接在一起后进行jieba分词抽取得到该聚类的关键词。
13、步骤4,根据预训练好的bert模型,将矛盾诉求词向量输入到该模型中提取特征,得到最终该矛盾诉求的分类特征向量,记作[cls],根据[cls]向量和其对应的事件的标签,训练得到四个不同的分类模型。
14、优选的,选择以下四种风险类型:极端事件、负面舆论事件、聚集性事件、过激行为事件。
15、步骤5,划分风险等级:高风险事件、中风险事件、低风险事件、无风险事件四个等级;对于矛盾诉求事件,统计上述不同特征出现的次数,对每个特征,计算该特征的风险值,具体计算公式如下:
16、score各特征风险=min(95,2x3-20x2+70x)*e-0.01t
17、其中,x表示每个特征的事件数量,t表示事件距今天数;
18、将每个特征风险加权平均后得到某网格某关键词的风险值,具体公式如下:
19、score总风险=a*scorea+b*scoreb+c*scorec+d*scored
20、其中a+b+c+d=1,具体数值可根据实际情况自行设置;
21、将总风险值在85分以上为高度风险,60~85为中度风险,50~60分以下为低风险,50分以下为无风险,对各级风险进行预警。
22、与现有技术相比,本专利技术的有益效果为:通过对区域不同矛盾的风险等级预测,帮助工作人员提前预知可能发生的矛盾,进行预警,防止矛盾进一步恶化,提高工作效率,节约人力物力;通过bert预训练模型对本行业语料库的预训练,提高了矛盾诉求事件的词向量表示的精确度。通过bert模型的微调使得大大减少了矛盾诉求事件分类模型的训练成本。
本文档来自技高网...【技术保护点】
1.一种基于大数据的风险预警方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于大数据的风险预警方法,其特征在于,所述词向量矩阵是对一个事件文本,抽取其关键词,选择前5个关键词。
3.根据权利要求2所述的一种基于大数据的风险预警方法,其特征在于,抽取词向量的具体方法为:利用jieba进行关键词抽取,选择关键词tf-idf值大于阈值的前5个关键词,将关键词输入到上述词向量矩阵中,得到每个关键词的词向量表示,对关键词的tf-idf值进行softmax操作,并将各关键词对应的softmax值乘以关键词向量并求和得到该矛盾诉求事件文本的词向量表示。
4.根据权利要求3所述的一种基于大数据的风险预警方法,其特征在于,事件数据聚类具体方法为:随机选择一个事件的词向量作为第一个聚类中心;进行数据点分配:对于每个新的事件数据,将词向量标准化后计算其与已存在的聚类中心之间的距离,即计算数据点相似度,当相似度超过预定的阈值,将数据分配到该聚类中心,并更新该聚类中心;如果1个数据点与所有现有的聚类中心的距离都超过预定的阈值,那么将该数据点作为一个新的聚
5.根据权利要求4所述的一种基于大数据的风险预警方法,其特征在于,计算两个数据点的相似度的具体公式如下:
6.根据权利要求4所述的一种基于大数据的风险预警方法,其特征在于,更新聚类中心时,将该聚类中的词向量取均值作为聚类中心。
7.根据权利要求1-6所述的任一一种基于大数据的风险预警方法,其特征在于,选择以下四种风险类型:极端事件、负面舆论事件、聚集性事件、过激行为事件。
...【技术特征摘要】
1.一种基于大数据的风险预警方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于大数据的风险预警方法,其特征在于,所述词向量矩阵是对一个事件文本,抽取其关键词,选择前5个关键词。
3.根据权利要求2所述的一种基于大数据的风险预警方法,其特征在于,抽取词向量的具体方法为:利用jieba进行关键词抽取,选择关键词tf-idf值大于阈值的前5个关键词,将关键词输入到上述词向量矩阵中,得到每个关键词的词向量表示,对关键词的tf-idf值进行softmax操作,并将各关键词对应的softmax值乘以关键词向量并求和得到该矛盾诉求事件文本的词向量表示。
4.根据权利要求3所述的一种基于大数据的风险预警方法,其特征在于,事件数据聚类具体方法为:随机选择一个事件的词向量作为第一个聚...
【专利技术属性】
技术研发人员:沈昊,周金明,
申请(专利权)人:南京视察者智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。