System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大数据的智慧监督管理方法及系统技术方案_技高网

一种基于大数据的智慧监督管理方法及系统技术方案

技术编号:40028735 阅读:4 留言:0更新日期:2024-01-16 17:54
本发明专利技术涉及分布式文件系统技术领域,具体涉及一种基于大数据的智慧监督管理方法及系统,包括:通过针对文本信息的自适应降维的方法,对采集的文本信息进行分段处理,通过得到的目标字符串获取文本信息之间的文本相似性,将文本相似性高的文本信息构建为文本矩阵,分解文本矩阵后通过对稀疏矩阵中每一列对应的稀疏向量进行特征值提取,根据特征值的大小进而对文本信息进行降维处理获得新文本矩阵。本发明专利技术避免了案情信息和法规信息中的冗余信息对案情信息和法规信息的匹配过程造成的干扰,导致匹配结果不准确的缺点,提高了案情信息和法规信息匹配结果的准确性,进而实现对案情信息数据更加准确的智慧监督管理。

【技术实现步骤摘要】

本专利技术涉及分布式文件系统,具体涉及一种基于大数据的智慧监督管理方法及系统


技术介绍

1、通过基于大数据的智慧监督管理方法及系统,可以有效地提高工作效率,降低错误率,更好地实现精细化、个性化的服务。在众多的监督管理领域中,如何准确快速地将案情信息与对应的法律法规进行匹配,一直是一个重要而复杂的问题。

2、传统的人工检索方式,由于涉及的信息量大、需要人力资源多、效率低等问题,无法满足当前的需求。

3、在大数据法律监督管理系统中,需要对获取的案情信息数据进行智能研判,通常通过对比案情信息与各个法规信息进行匹配,获取案情信息对应法规条例的智能研判结果,传统的匹配过程是对案情信息与法规信息分别构建文本矩阵,获取两个文本矩阵的相似性,然而由于案情信息以及法规信息存在重复冗余信息,多个名词会在很多法规中频繁出现,但是对应名词后续对应着不同的法规条例,导致出现匹配错误的问题,因此需要减少案情信息和法规信息中的冗余信息,避免对匹配过程造成的影响。


技术实现思路

1、本专利技术提供一种基于大数据的智慧监督管理方法及系统,以解决现有的问题。

2、本专利技术的一种基于大数据的智慧监督管理方法及系统采用如下技术方案:

3、本专利技术一个实施例提供了一种基于大数据的智慧监督管理方法,该方法包括以下步骤:

4、获取案情信息数据以及法律法规数据,将案情信息数据中的任意一件案情记为一个案情文本信息,将法律法规数据中的任意一个法条记为一个法律文本信息,将案情文本信息和法律文本信息统称为文本信息,任意文本信息中包含若干个字符;

5、获取字符以及字符组合的频率值,根据字符组合以及对应字符的频率值获得字符组合的局部范围程度,根据局部范围程度的大小获得目标字符串;对任意目标字符串进行转换获得字符向量,根据字符向量之间余弦相似度的大小获得目标字符串的匹配字符串,结合字符向量的余弦相似度以及匹配字符串在文本信息中出现的次数,获得文本信息之间的文本相似度,根据文本相似度的大小获得文本矩阵,所述字符组合为文本信息中任意相邻的两个字符形成的字符串;

6、对文本矩阵进行分解获得字典矩阵和稀疏矩阵,将稀疏矩阵的稀疏向量进行重置获得新稀疏矩阵,结合字典矩阵和新稀疏矩阵进行重构获得重构矩阵,根据稀疏矩阵和重构矩阵中文本相似性的差异以及目标字符串的余弦匹配度获得稀疏向量的特征值,利用特征值对稀疏向量进行调整获得最终稀疏矩阵,结合字典矩阵和最终稀疏矩阵进行重构获得新文本矩阵,所述稀疏向量为稀疏矩阵的列向量;

7、获取案情信息数据以及法律法规数据中的新文本矩阵并进行存储。

8、进一步的,所述获取字符以及字符组合的频率值,根据字符组合以及对应字符的频率值获得字符组合的局部范围程度,根据局部范围程度的大小获得目标字符串,包括的具体方法为:

9、首先,获取任意文本信息中任意一个字符在文本信息中出现的次数,获取文本信息中所包含字符的数量,将记为对应字符的频率值;将文本信息中任意相邻的两个字符形成的字符串记为一个字符组合,获取字符组合在文本信息中出现次数a2,将字符组合中第1个字符和第2个字符在文本信息中分别出现的次数相加得到b2,将记为字符组合的频率值;

10、然后,获取任意文本信息中任意字符组合的局部范围程度,具体计算方法为:

11、

12、其中,表示字符组合的局部范围程度;表示字符组合的第1个字符的频率值,表示字符组合的第2个字符的频率值,表示字符组合的频率值;表示以自然常数为底数的指数函数;

13、最后,对于文本信息内任意数量的连续字符,当所有字符组合的局部范围程度均大于预设的局部范围程度阈值时,将所述连续字符形成的字符串记为目标字符串,任意文本信息中包含若干个目标字符串。

14、进一步的,所述对任意目标字符串进行转换获得字符向量,根据字符向量之间余弦相似度的大小获得目标字符串的匹配字符串,包括的具体方法为:

15、利用word2vec模型对任意目标字符串进行处理,获得目标字符串对应的向量记为字符向量;对于任意两个文本信息,将任意一个文本信息记为第一文本信息,将第一文本信息中的任意一个目标字符串记为第一字符串,将另一个文本信息记为第二文本信息,将第二文本信息中的任意目标字符串记为第二字符串,获取第一字符串的字符向量与所有第二字符串的字符向量的余弦相似度的最大值,记为第一字符串的余弦匹配度;获得所有目标字符串的余弦匹配度;当余弦相似度最大时,将对应的第二字符串记为第一字符串的匹配字符串。

16、进一步的,所述结合字符向量的余弦相似度以及匹配字符串在文本信息中出现的次数,获得文本信息之间的文本相似度,包括的具体方法为:

17、首先,获取匹配字符串在第二文本信息中出现的次数,记为第一字符串在第二文本信息中对应匹配字符串的特殊匹配频次;

18、然后,对于第个文本信息与第个文本信息,获取两个文本信息之间的文本相似性,具体计算方法为:

19、

20、其中,表示第个文本信息与第个文本信息之间的文本相似性;表示第个文本信息与第个文本信息的匹配曲线距离;表示第个文本信息与第个文本信息的匹配相似性;表示以自然常数为底数的指数函数;表示第个文本信息的目标字符串的数量;表示第个文本信息的目标字符串的数量;表示第个文本信息中第个目标字符串的余弦匹配度,表示第个文本信息中第个目标字符串的余弦匹配度;表示第个文本信息中所有目标字符串,在第个文本信息中对应匹配字符串的最大特殊匹配频次;表示第个文本信息的第个目标字符串,在第个文本信息中对应匹配字符串的特殊匹配频次;表示第个文本信息中所有目标字符串,在第个文本信息中对应匹配字符串的最大特殊匹配频次;表示第个文本信息中的第个目标字符串,在第个文本信息中对应匹配字符串的特殊匹配频次。

21、进一步的,所述根据文本相似度的大小获得文本矩阵,包括的具体方法为:

22、当任意数量的文本信息中,任意两个文本信息之间的文本相似性均大于预设的文本相似性阈值,将所有文本信息形成的集合记为相似文本集合,获取相似文本集合中任意文本信息的所有目标字符串对应字符向量,将所有字符向量中的元素构成集合对应的向量记为文本信息的文本向量,构建二维矩阵,二维矩阵的行数为相似文本集合中文本信息的数量,二维矩阵的列数为所有文本向量中元素的最大数量,将任意文本信息的文本向量作为二维矩阵的行向量,当文本向量的列数与二维矩阵的列数不相同时,对文本向量进行补0操作,获得相似文本集合对应的二维矩阵记为文本矩阵。

23、进一步的,所述匹配曲线距离的具体获取方法为:

24、对于第个文本信息与第个文本信息,构建二维直角坐标系,将第个文本信息中目标字符串的序数作为二维直角坐标系的横坐标,将第个文本信息中目标字符串的序数作为二维直角坐标系的纵坐标,获取第个文本信息或第个文本信息中任意目标字符串的序数,将目标字符串的匹配字符串的序数记为,本文档来自技高网...

【技术保护点】

1.一种基于大数据的智慧监督管理方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述一种基于大数据的智慧监督管理方法,其特征在于,所述获取字符以及字符组合的频率值,根据字符组合以及对应字符的频率值获得字符组合的局部范围程度,根据局部范围程度的大小获得目标字符串,包括的具体方法为:

3.根据权利要求1所述一种基于大数据的智慧监督管理方法,其特征在于,所述对任意目标字符串进行转换获得字符向量,根据字符向量之间余弦相似度的大小获得目标字符串的匹配字符串,包括的具体方法为:

4.根据权利要求3所述一种基于大数据的智慧监督管理方法,其特征在于,所述结合字符向量的余弦相似度以及匹配字符串在文本信息中出现的次数,获得文本信息之间的文本相似度,包括的具体方法为:

5.根据权利要求1所述一种基于大数据的智慧监督管理方法,其特征在于,所述根据文本相似度的大小获得文本矩阵,包括的具体方法为:

6.根据权利要求4所述一种基于大数据的智慧监督管理方法,其特征在于,所述匹配曲线距离的具体获取方法为:

7.根据权利要求1所述一种基于大数据的智慧监督管理方法,其特征在于,所述对文本矩阵进行分解获得字典矩阵和稀疏矩阵,将稀疏矩阵的稀疏向量进行重置获得新稀疏矩阵,结合字典矩阵和新稀疏矩阵进行重构获得重构矩阵,包括的具体方法为:

8.根据权利要求1所述一种基于大数据的智慧监督管理方法,其特征在于,所述根据稀疏矩阵和重构矩阵中文本相似性的差异以及目标字符串的余弦匹配度获得稀疏向量的特征值,包括的具体方法为:

9.根据权利要求1所述一种基于大数据的智慧监督管理方法,其特征在于,所述利用特征值对稀疏向量进行调整获得最终稀疏矩阵,结合字典矩阵和最终稀疏矩阵进行重构获得新文本矩阵,包括的具体方法为:

10.一种基于大数据的智慧监督管理系统,所述系统为Hadoop分布式文件系统,系统包括存储服务器、处理器以及可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~9任意一项所述一种基于大数据的智慧监督管理方法的步骤,获得新文本矩阵并存储在存储服务器中。

...

【技术特征摘要】

1.一种基于大数据的智慧监督管理方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述一种基于大数据的智慧监督管理方法,其特征在于,所述获取字符以及字符组合的频率值,根据字符组合以及对应字符的频率值获得字符组合的局部范围程度,根据局部范围程度的大小获得目标字符串,包括的具体方法为:

3.根据权利要求1所述一种基于大数据的智慧监督管理方法,其特征在于,所述对任意目标字符串进行转换获得字符向量,根据字符向量之间余弦相似度的大小获得目标字符串的匹配字符串,包括的具体方法为:

4.根据权利要求3所述一种基于大数据的智慧监督管理方法,其特征在于,所述结合字符向量的余弦相似度以及匹配字符串在文本信息中出现的次数,获得文本信息之间的文本相似度,包括的具体方法为:

5.根据权利要求1所述一种基于大数据的智慧监督管理方法,其特征在于,所述根据文本相似度的大小获得文本矩阵,包括的具体方法为:

6.根据权利要求4所述一种基于大数据的智慧监督管理方法,其特征在于,所述匹配曲线距离的具体获...

【专利技术属性】
技术研发人员:刘洪健戴建新杨佳铭
申请(专利权)人:浙江建达科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1