一种机场安全检查中自动识别风险源的方法及装置制造方法及图纸

技术编号:39751602 阅读:8 留言:0更新日期:2023-12-17 23:49
本申请公开了一种机场安全检查中自动识别风险源的方法及装置

【技术实现步骤摘要】
一种机场安全检查中自动识别风险源的方法及装置


[0001]本申请涉及文本数据处理
,尤其涉及一种机场安全检查中自动识别风险源的方法以及机场安全检查中自动识别风险源的装置


技术介绍

[0002]名词解释:
[0003]单词嵌入
[0004]目前已经存在的成功的单词嵌入算法包括:
word2vec、GloVe

Fasttext。
这些方法使用大型文本集合,并检查每个单词出现的上下文以确定其向量表示

[0005]word2vec
:使用
Skip

gram
模型训练神经网络以预测句子中单词周围的上下文单词

[0006]GloVe
:单词的相似性取决于它们与其他上下文单词出现的频率

该算法训练单词共现计数的简单线性模型

[0007]Fasttext

Facebook
的词向量模型,其训练速度比
word2vec
的训练速度更快,效果又不丢失

[0008]句子嵌入
[0009]除了单词嵌入,还有基于复杂的神经网络架构的句子嵌入算法,可以实现较长的文本进行词向量表示

并且有时在训练期间需要不断标记数据以帮助捕获语义信息和提高训练效果

[0010]一旦经过训练,模型就能够获取一个句子并为上下文中的每个单词生成一个向量,以及整个句子的向量

[0011]一些常见的句子嵌入技术包括
InferSent

Universal Sentence Encoder

ELMo

BERT。
[0012]文本嵌入
[0013]在传统的信息检索中,例如:基于大多使用
TF

IDF
等基于单词个数的搜索方法,只是计算单词出现而不考虑句子结构

而基于文本嵌入技术的搜索,将会考虑句子意思

比如“飞机故障”和“航空器抛锚了”这两个句子没有一个单词一样,但是其语义是完全接近的,使用文本嵌入将能够很好的搜索出来

[0014]文本嵌入在某些重要方面与传统的矢量表示不同:
[0015]文本嵌入的向量通常纬度比较低,
100

1000。
而传统的单次向量纬度可以到
5000+。
文本嵌入技术将文本编码为低维空间向量,同义词和短语在新的向量空间中表示形式会十分相似

[0016]Text embedding
通常适用于短文本

[0017]在机场安全管理活动中,
SMS
系统起着关键作用,用于记录

分析安全事件

在向
SMS
录入安全事件过程中,需要根据事件,关联相关的危险源

而危险源的种类繁多,并且描述并非简洁

因此在录入过程中,关联危险源时,需要在众多危险源查找,现有技术都是通
过人工进行录入以及识别,此种方式的缺点为耗时较多并且容易出错

[0018]因此,希望有一种技术方案来解决或至少减轻现有技术的上述不足


技术实现思路

[0019]本专利技术的目的在于提供一种通过轻量化文本生成模型进行文本生成的方法来至少解决上述的一个技术问题

[0020]本专利技术提供了下述方案:
[0021]根据本专利技术的一个方面,提供一种机场安全检查中自动识别风险源的方法,所述机场安全检查中自动识别风险源的方法包括:
[0022]获取待识别文字信息;
[0023]提取所述待识别文字信息的向量信息;
[0024]获取
Elasticsearch
数据库;
[0025]根据所述向量信息, 自所述
Elasticsearch
数据库中进行检索,从而识别风险源

[0026]可选地,所述机场安全检查中自动识别风险源的方法进一步包括:
[0027]生成所述
Elasticsearch
数据库

[0028]可选地,所述生成所述
Elasticsearch
数据库包括:
[0029]准备文本数据,所述文本数据包括多个二元组,每个二元组包括危险源信息以及安全隐患信息;
[0030]获取 Doc2Vec 模型;
[0031]根据所述文本数据对所述 Doc2Vec 模型进行训练,从而获取每个文本数据对应的预设向量信息;
[0032]将各个所述预设向量信息存储至所述
Elasticsearch
数据库,从而生成所述主
Elasticsearch
数据库

[0033]可选地,所述生成所述
Elasticsearch
数据库进一步包括:
[0034]对所述文本数据通过经过训练的文本生成模型进行扩充,从而获取文本扩充数据;
[0035]获取 Doc2Vec 模型;
[0036]根据所述文本扩充数据对所述 Doc2Vec 模型进行训练,从而获取每个文本扩充数据对应的预设扩充向量信息;
[0037]将各个所述预设扩充向量信息存储至所述
Elasticsearch
数据库,从而生成所述辅助
Elasticsearch
数据库

[0038]可选地,在所述提取所述待识别文字信息的向量信息之前,所述机场安全检查中基于向量检索技术的自动识别风险源的方法进一步包括:
[0039]对所述待识别文字信息进行扩充,从而获取扩充文本信息;
[0040]所述根据所述向量信息, 自所述
Elasticsearch
数据库中进行检索,从而识别风险源包括:
[0041]根据所述向量信息以及扩充文本信息,自所述主
Elasticsearch
数据库以及辅助
Elasticsearch
数据库中进行检索,从而识别风险源

[0042]可选地,所述对所述待识别文字信息进行扩充,从而获取扩充文本信息包括:
[0043]获取多个经过训练的文本生成模型,其中,各个文本生成模型的参数不同,其中至少一个经过训练的文本生成模型与用于扩充文本数据的经过训练的文本生成模型相同;
[0044]提取所述待识别文字信息的特征信息;
[0045]将所述特征信息分别输入至其中一个或多个所述经过训练的文本生成模型,从而获取经过训练的文本生成模型的扩充文本信息

[0046]可选地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种机场安全检查中自动识别风险源的方法,其特征在于,所述机场安全检查中自动识别风险源的方法包括:获取待识别文字信息;提取所述待识别文字信息的向量信息;获取
Elasticsearch
数据库;根据所述向量信息,自所述
Elasticsearch
数据库中进行检索,从而识别风险源
。2.
如权利要求1所述的机场安全检查中自动识别风险源的方法,其特征在于,所述机场安全检查中自动识别风险源的方法进一步包括:生成所述
Elasticsearch
数据库
。3.
如权利要求2所述的机场安全检查中自动识别风险源的方法,其特征在于,所述生成所述
Elasticsearch
数据库包括:准备文本数据,所述文本数据包括多个二元组,每个二元组包括危险源信息以及安全隐患信息;获取
Doc2Vec
模型;根据所述文本数据对所述
Doc2Vec
模型进行训练,从而获取每个文本数据对应的预设向量信息;将各个所述预设向量信息存储至所述
Elasticsearch
数据库,从而生成所述主
Elasticsearch
数据库
。4.
如权利要求3所述的机场安全检查中自动识别风险源的方法,其特征在于,所述生成所述
Elasticsearch
数据库进一步包括:对所述文本数据通过经过训练的文本生成模型进行扩充,从而获取文本扩充数据;获取
Doc2Vec
模型;根据所述文本扩充数据对所述
Doc2Vec
模型进行训练,从而获取每个文本扩充数据对应的预设扩充向量信息;将各个所述预设扩充向量信息存储至所述
Elasticsearch
数据库,从而生成所述辅助
Elasticsearch
数据库
。5.
如权利要求4所述的机场安全检查中自动识别风险源的方法,其特征在于,在所述提取所述待识别文字信息的向量信息之前,所述机场安全检查中基于向量检索技术的自动识别风险源的方法进一步包括:对所述待识别文字信息进行扩充,从而获取扩充文本信息;所述根据所述向量信息,自所述
Elasticsearch
数据库中进行检索,从而识别风险源包括:根据所述向量信息以及扩充文本信息,自所述主
Elasticsearch
数据库以及辅助
Elasticsearch
数据库中进行检索,从而识别风险源
。6.
如权利要求5所述的机场安全检查中自动识别风险源的方法,其特征在于,所述对所述待识别文字信息进行扩充,从而获取扩充文本信息包括:获取多个经过训练的文本生成模型,其中,各个文本生成模型的参数不同,其中至少一个经过训练的文本生成模型与用于扩充文本数据的经过训练的文本生成模型相同;提取所述待识别文字信息的特征信息;
将所述特征信息分别输入至其中一个或多个所述经过训练的文本生成模型,从而获取经过训练的文本生成模型的扩充文本信息
。7.
如权利要求6所述的机场安全检查中自动识别风险源的方法,其特征在于,所述根据所述向量信息以及扩充文本信息,自所述主
Elastics...

【专利技术属性】
技术研发人员:吴昊党政霍岩松王阳俞兆伟李腾飞
申请(专利权)人:新疆机场集团有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1