一种基于自然语言处理技术的案件串并方法和系统技术方案

技术编号:29924045 阅读:26 留言:0更新日期:2021-09-04 18:39
一种基于自然语言处理技术的案件串并方法,包括:查询视频图像信息库数据,将视频图像信息库数据转换为标准结构的数据,并同步到Elasticsearch中;对视频监控资源和现场采集的线索资源进行结构化分析,获取线索资源中的人车信息,并将人车信息同步到Elasticsearch中;将获取的案件及线索信息存储到Elasticsearch中,并基于IK分词器进行分词;通过Elasticseach进行串并分析,根据设置的串并查询的关键词及权重,获取案件推荐的结果,将案件推荐的结果存储到数据库中,并作为推荐相似案件推荐给用户。本发明专利技术将结构化数据同步搜索引擎Elasticsearch中,可以快速根据搜索信息检索出结果。依托lk分词器,根据关键字以及权属信息进行数据的检索,匹配出系列性案件并进行串并处理,能及时有效的处理案件。能及时有效的处理案件。能及时有效的处理案件。

【技术实现步骤摘要】
一种基于自然语言处理技术的案件串并方法和系统


[0001]本专利技术涉及的是自然语言处理领域,特别涉及一种基于自然语言处理技术的案件串并方法和系统。

技术介绍

[0002]系列类案件是当前活动的一个突出特点,严重危害了社会治安秩序。为加强对系列案件的侦破工作,案件侦查部门通过在侦破中的不断探索、总结,形成了案件串并的工作方法。
[0003]实践证明,系列性案件的侦查,准确、及时地串并案件是成功侦破案件的基础,只有将系列性案件准备地串并起来,才能通过对个案与系列性案件之间的联系进行分析,从而把握其犯罪规律,达到破获全部系列案件的目的。亟需一种能将个案与系列性案件之间的联系进行分析的方法。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于自然语言处理技术的案件串并方法和系统。
[0005]为了解决上述技术问题,本申请实施例公开了如下技术方案:
[0006]一种基于自然语言处理技术的案件串并方法,包括:
[0007]S100.查询视频图像信息库数据,将视频图像信息库数据转换为标准结构的数据,并同步到Elasticsearch中;
[0008]S200.对视频监控资源和现场采集的线索资源进行结构化分析,获取线索资源中的人车信息,并先存储到视频图像库中,在与案件及线索统一同步到Elasticsearch中;
[0009]系统构建数据分析模型,对数据的取值有效性、规范性、正确性进行分析,分析出字段的串并可用性,并将可用性较高的的前N个字段作为串并分析选定字段进行分析。模型会定期执行分析,根据最新的数据进行自学习完成选定字段的优化,适配现场的数据。
[0010]S300.在将获取的案件及线索信息存储到Elasticsearch中时,要基于IK分词器进行细颗粒分词;
[0011]S400.通过Elasticseach进行串并分析,根据es模型中有价值的字段设置的串并查询的关键词及权重,获取案件推荐的结果,将案件推荐的结果存储到数据库中,并作为推荐相似案件推荐给用户。
[0012]由于在信息录入时,会存在格式化录入的描述,例如:“嫌疑人”、“根据排查”等,系统自动对出现次数较多的属性与案件数目比对,超过阈值的则判定为干扰项。干扰项会作为输入导入模型,从而优化模型的准确率,经过反复的数据训练,模型的与实际数据的匹配度得到优化自动适应现场数据从而提升案件串并的准确率。
[0013]进一步地,S100中,视频图像信息库数据转换为标准结构的数据满足GAT 1400标准。
[0014]进一步地,S200中,通过静态人脸比对技术,对比人脸库,获取比对相似度最高的人脸,根据对应人脸获取人员信息。
[0015]进一步地,S200中,通过车牌识别技术,分析出车车牌号,根据车牌获取车辆信息。
[0016]进一步地,S300中,根据IK分词器的分词表和停词表进行分词。
[0017]进一步地,S400中,当通过Elasticseach进行查询时,可以根据查询字段的重要性不同,给不同字段设置不同权重。
[0018]本专利技术还公开了一种基于自然语言处理技术的案件串并系统,包括:视频图像信息库数据查询模块、人车信息提取模块、lk分词器模块和Elasticseach 查询模块,其中:
[0019]视频图像信息库数据查询模块,用于查询视频图像信息库数据,将视频图像信息库数据转换为标准结构的数据,并同步到Elasticsearch中;
[0020]人车信息提取模块,用于对视频监控资源和现场采集的线索资源进行结构化分析,获取线索资源中的人车信息,并将人车信息同步到Elasticsearch中;
[0021]lk分词器模块,用于根据IK分词器的分词表和停词表进行分词;
[0022]Elasticseach查询模块,用于根据设置的串并查询的关键词及权重,获取案件推荐的结果,将案件推荐的结果存储到数据库中,并作为推荐相似案件推荐给用户。
[0023]本专利技术实施例提供的上述技术方案的有益效果至少包括:
[0024]本专利技术公开的一种基于自然语言处理技术的案件串并方法和系统,依托平台现有的结构化分析技术,将非结构数据转成结构化数据,并将结构化数据同步到目前最流行的搜索引擎Elasticsearch中,可以很快的根据搜索信息检索出结果。本专利技术依托开源技术IK分词器,根据关键字以及权属信息进行数据的检索,匹配出系列性案件进行串并处理,从而有效的及时的处理案件。本专利技术中的案件以及案件相关的信息同步到Elasticsearch中,如果案件如果需要同步到其他平台,可以直接Elastic家族的中的Logstash进行同步,降低系统与其他平台的耦合度。解决了现有技术对个案与系列性案件之间的联系进行分析困难的问题。
[0025]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
附图说明
[0026]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0027]图1为本专利技术实施例1中,一种基于自然语言处理技术的案件串并方法的流程图。
具体实施方式
[0028]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0029]为了解决现有技术中存在的问题,本专利技术实施例提供一种基于自然语言处理技术的案件串并方法和系统。
[0030]实施例1
[0031]本实施例公开了一种基于自然语言处理技术的案件串并方法,如图1,包括:
[0032]S100.查询视频图像信息库数据,将视频图像信息库数据转换为标准结构的数据,并同步到Elasticsearch中;具体的,本实施例中的视频图像信息库数据转换为标准结构的数据满足GAT 1400标准。
[0033]S200.对视频监控资源和现场采集的线索资源进行结构化分析,获取线索资源中的人车信息,并将人车信息同步到Elasticsearch中。
[0034]具体的,通过静态人脸比对技术,对比人脸库,获取比对相似度最高的人脸,根据对应人脸获取人员信息,如姓名,性别,身份证等。通过车牌识别技术,分析出车车牌号,根据车牌获取车辆信息,如车辆注册地址,车辆主人,车辆品牌等。
[0035]存储在Elasticsearch中的数据,根据查询的有价值的字段(数据完整完善度高的字段),只存储对应的字段的值(案件,线索,人员,车辆各取前列的字段),串并案查询时,也只查询对应字段关键字;在项目随后长时间运行后,视频图像库中数据增多,有价值的字段发生改变,此时基于新的有价值的字段重新构建 Elas本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理技术的案件串并方法,其特征在于,包括:S100.查询视频图像信息库数据,将视频图像信息库数据转换为标准结构的数据,并同步到Elasticsearch中;S200.对视频监控资源和现场采集的线索资源进行结构化分析,获取线索资源中的人车信息,并将人车信息同步到Elasticsearch中;S300.将获取的案件及线索信息存储到Elasticsearch中,并基于IK分词器进行分词;S400.通过Elasticseach进行串并分析,根据设置的串并查询的关键词及权重,获取案件推荐的结果,将案件推荐的结果存储到数据库中,并作为推荐相似案件推荐给用户。2.如权利要求1的一种基于自然语言处理技术的案件串并方法,其特征在于,S100中,视频图像信息库数据转换为标准结构的数据满足GAT 1400标准。3.如权利要求1的一种基于自然语言处理技术的案件串并方法,其特征在于,S200中,通过静态人脸比对技术,对比人脸库,获取比对相似度最高的人脸,根据对应人脸获取人员信息。4.如权利要求1的一种基于自然语言处理技术的案件串并方法,其特征在于,S200中,通过车牌识别技术,分析出车车牌...

【专利技术属性】
技术研发人员:伍悦何力江坤
申请(专利权)人:武汉烽火众智数字技术有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1