【技术实现步骤摘要】
一种机场安全检查中自动识别风险源的方法及装置
[0001]本申请涉及文本数据处理
,尤其涉及一种机场安全检查中自动识别风险源的方法以及机场安全检查中自动识别风险源的装置
。
技术介绍
[0002]名词解释:
[0003]单词嵌入
[0004]目前已经存在的成功的单词嵌入算法包括:
word2vec、GloVe
和
Fasttext。
这些方法使用大型文本集合,并检查每个单词出现的上下文以确定其向量表示
。
[0005]word2vec
:使用
Skip
‑
gram
模型训练神经网络以预测句子中单词周围的上下文单词
。
[0006]GloVe
:单词的相似性取决于它们与其他上下文单词出现的频率
。
该算法训练单词共现计数的简单线性模型
。
[0007]Fasttext
:
Facebook
的词向量模型,其训练速度比
word2vec
的训练速度更快,效果又不丢失
。
[0008]句子嵌入
[0009]除了单词嵌入,还有基于复杂的神经网络架构的句子嵌入算法,可以实现较长的文本进行词向量表示
。
并且有时在训练期间需要不断标记数据以帮助捕获语义信息和提高训练效果
。
[0010]一旦经过训练,模型就能够获取一个句子并为上下文中的每个单词生成一个向量,以及 ...
【技术保护点】
【技术特征摘要】
1.
一种机场安全检查中自动识别风险源的方法,其特征在于,所述机场安全检查中自动识别风险源的方法包括:获取待识别文字信息;提取所述待识别文字信息的向量信息;获取
Elasticsearch
数据库;根据所述向量信息,自所述
Elasticsearch
数据库中进行检索,从而识别风险源
。2.
如权利要求1所述的机场安全检查中自动识别风险源的方法,其特征在于,所述机场安全检查中自动识别风险源的方法进一步包括:生成所述
Elasticsearch
数据库
。3.
如权利要求2所述的机场安全检查中自动识别风险源的方法,其特征在于,所述生成所述
Elasticsearch
数据库包括:准备文本数据,所述文本数据包括多个二元组,每个二元组包括危险源信息以及安全隐患信息;获取
Doc2Vec
模型;根据所述文本数据对所述
Doc2Vec
模型进行训练,从而获取每个文本数据对应的预设向量信息;将各个所述预设向量信息存储至所述
Elasticsearch
数据库,从而生成所述主
Elasticsearch
数据库
。4.
如权利要求3所述的机场安全检查中自动识别风险源的方法,其特征在于,所述生成所述
Elasticsearch
数据库进一步包括:对所述文本数据通过经过训练的文本生成模型进行扩充,从而获取文本扩充数据;获取
Doc2Vec
模型;根据所述文本扩充数据对所述
Doc2Vec
模型进行训练,从而获取每个文本扩充数据对应的预设扩充向量信息;将各个所述预设扩充向量信息存储至所述
Elasticsearch
数据库,从而生成所述辅助
Elasticsearch
数据库
。5.
如权利要求4所述的机场安全检查中自动识别风险源的方法,其特征在于,在所述提取所述待识别文字信息的向量信息之前,所述机场安全检查中基于向量检索技术的自动识别风险源的方法进一步包括:对所述待识别文字信息进行扩充,从而获取扩充文本信息;所述根据所述向量信息,自所述
Elasticsearch
数据库中进行检索,从而识别风险源包括:根据所述向量信息以及扩充文本信息,自所述主
Elasticsearch
数据库以及辅助
Elasticsearch
数据库中进行检索,从而识别风险源
。6.
如权利要求5所述的机场安全检查中自动识别风险源的方法,其特征在于,所述对所述待识别文字信息进行扩充,从而获取扩充文本信息包括:获取多个经过训练的文本生成模型,其中,各个文本生成模型的参数不同,其中至少一个经过训练的文本生成模型与用于扩充文本数据的经过训练的文本生成模型相同;提取所述待识别文字信息的特征信息;
将所述特征信息分别输入至其中一个或多个所述经过训练的文本生成模型,从而获取经过训练的文本生成模型的扩充文本信息
。7.
如权利要求6所述的机场安全检查中自动识别风险源的方法,其特征在于,所述根据所述向量信息以及扩充文本信息,自所述主
Elastics...
【专利技术属性】
技术研发人员:吴昊,党政,霍岩松,王阳,俞兆伟,李腾飞,
申请(专利权)人:新疆机场集团有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。