基于BLS的NAVTEX报文语境智能决策支持方法技术

技术编号:38830263 阅读:10 留言:0更新日期:2023-09-17 09:50
本发明专利技术公开了基于BLS的NAVTEX报文语境智能决策支持方法,对NAVTEX报文数据应用数据清洗和词型还原以及引用停用词等操作,并提出了报文语境标签来给报文标注类别,具体表现为对航行警告中所包含的报文内容进行分析,总结了6类报文语境标签。通过本发明专利技术能够做到准确提炼原始报文数据中的有效信息,并为后续的报文语境分类任务以及航行决策支持提供有力支持,使训练出来的报文特征更加精简且具有代表性。本发明专利技术基于BLS并对其加以改进,提高了NAVTEX报文语境分类的准确率,并为航海人员提供智能化的航行决策支持服务,能够有效降低工作强度并提高工作效率,同时也进一步增强了船舶的安全航行性能、丰富了助航设备的功能。丰富了助航设备的功能。丰富了助航设备的功能。

【技术实现步骤摘要】
基于BLS的NAVTEX报文语境智能决策支持方法


[0001]本专利技术属于自然语言处理与人工智能领域,特别涉及一种基于BLS的NAVTEX报文语境智能决策支持方法。

技术介绍

[0002]海上运输过程中,大部分船舶均装有全球海上遇险和安全系统。而该系统中包含的NAVTEX系统,其播发的报文涉及到大量航行警告、气象警告、气象预报和其它有关航行安全的紧急信息等文本信息。因此,准确地掌握并利用NAVTEX报文对船舶航行决策支持至关重要。但目前NAVTEX报文尚未完全融入到船舶航行的辅助系统中去,在船舶驾驶管理、决策支持等实际场景中没有高效地发挥作用。这是由于船舶智能驾驶的相关技术当前仍然处于理论研究阶段,并未落实到实际应用中。同时航运业相对其他行业来说自身发展具有限制性,目前在技术以及管理等方面仍然相对落后,使得对航海人员依旧有较高程度的依赖性。在使用NAVTEX系统过程中,航海人员接收到NAVTEX报文后,须对其人工读取分析后,才能做出相应的航行决策。这不仅使航海人员的工作强度增加,而且影响其工作效率。此外,人工读取信息的准确率不如自动化程度高,进而会影响船舶航行的安全性。
[0003]针对上述问题,当前关于NAVTEX报文内容进行智能分类,并为航海人员提供语境决策支持服务等方面的研究仍有很大的发展空间。目前在处理NAVTEX报文的相关研究中,对于报文数据预处理方面仅进行了初步地去停用词,未进一步进行词型还原等处理过程,建立文本分类模型部分也只将传统机器学习模型进行应用,并且仅对报文内容分类并未进一步进行语境智能决策支持的研究。因此,需要一种方法对NAVTEX报文进行语境智能分类并提供给航海人员决策支持,提高工作效率和报文语境分类的准确率,同时也进一步增强了船舶的安全航行性能。

技术实现思路

[0004]为了解决现有技术存在的上述问题,本专利技术要提出一种基于BLS的NAVTEX报文语境智能决策支持方法,将BLS应用于航运领域,可以大幅提高NAVTEX报文语境分类的准确率,并为航海人员提供智能化的航行决策支持服务,能够有效降低工作强度并保障船舶的安全航行。
[0005]为了实现上述目的,本专利技术采用的技术手段如下:基于BLS的NAVTEX报文语境智能决策支持方法,包括以下步骤:
[0006]S1、对NAVTEX报文数据进行预处理
[0007]NAVTEX报文数据即船舶航行过程中接收到的相关海上安全信息数据,NAVTEX报文数据预处理包括数据清洗、词型还原、引入停用词以及类别标注四部分,操作过程如下:
[0008]S11、数据清洗
[0009]对原始报文进行数据清洗,剔除报文数据中的无效报文。并通过正则表达式的方法将报文中的非文本部分进行滤除,得到报文数据集D={D1,D2,...,D
i
,...,D
m
},其中D
i

示集合中的第i条报文,m为报文样本数。
[0010]S12、词型还原
[0011]提取所述第i条报文D
i
中单词的主干部分、去除词缀,将单词还原成原始形式。
[0012]S13、引入停用词
[0013]利用报文单词相互之间的空格对其进行拆分;通过引入停用词,去除报文中的一些虚词、短语以及标点符号来减少词库中不需要进行分析的内容,从而得到一组报文特征词集合D'={D'1,D'2,

,D'
i
,

,D'
m
},其中D'
i
表示第i条报文的特征词集合。
[0014]S14、类别标注
[0015]根据分析NAVTEX报文中描述内容后需要作出的相应行动进行分类标注的语境标签,设置为6个语境类别,分别是禁止进入、保持警惕、宽让、保持认真瞭望、核对计划航线、其他行为。其中,每个报文特征词集合至少对应一类标签,标签矩阵记为L={L1,L2,...,L
i
,...,L
m
},其中即L属于m
×
c维的向量空间,L
i
为6类报文语境标签中的c类标签,且1≤c≤6。
[0016]S2、对报文特征词进行加权处理
[0017]根据所述特征词集合D',采用向量化和权重修正的方法对D'进行加权处理,步骤如下:
[0018]S21、对报文的特征词集合进行向量化
[0019]将第i条报文的特征词集合D'
i
用报文特征向量X
i
表示,即X
i
={(x
i1
,w
i1
),(x
i2
,w
i2
),

,(x
ij
,w
ij
),

,(x
in
,w
in
)},将X
i
看成是二元特征组构成的n维特征向量。其中,x
ij
表示第i个报文特征向量的第j个特征项;w
ij
是特征项x
ij
所对应的权重,代表特征项在报文里的重要程度;n代表特征维度,任一维度均表示报文特征向量X
i
中的一个特征项,且n为特征词集合D'中所有特征词数目去除包含的重复特征词数目后所剩余特征词的总数。
[0020]S22、对报文特征项权重进行修正
[0021]当报文数据中的特征维度确定后,将报文特征向量X
i
简化为:
[0022]X

i
={w
i1
,w
i2
,

,w
ij
,

,w
in
}
[0023]表示第i条报文的特征项权重向量。对报文特征项权重进行修正包括以下步骤:
[0024]S221、求解报文特征项的词频
[0025]报文特征项的词频TF(x
ij
,X
i
)表示特征项x
ij
在报文特征向量X
i
中的频次,计算公式如下:
[0026][0027]其中,为特征项x
ij
在报文特征向量X
i
中出现的次数,为X
i
中所有特征项合计出现的次数。
[0028]S222、求解报文特征项的逆文档频率
[0029]报文特征项的逆文档频率IDF(x
ij
)表示特征项x
ij
在所有报文特征向量中出现的频率,其计算公式如下:
[0030][0031]其中,代表所有X
i
中出现特征x
ij
的报文特征向量数。
[0032]S223、求解报文特征项的权重
[0033]将S2213和S222步骤所求得的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于BLS的NAVTEX报文语境智能决策支持方法,其特征在于:包括以下步骤:S1、对NAVTEX报文数据进行预处理NAVTEX报文数据即船舶航行过程中接收到的相关海上安全信息数据,NAVTEX报文数据预处理包括数据清洗、词型还原、引入停用词以及类别标注四部分,操作过程如下:S11、数据清洗对原始报文进行数据清洗,剔除报文数据中的无效报文;并通过正则表达式的方法将报文中的非文本部分进行滤除,得到报文数据集D={D1,D2,...,D
i
,...,D
m
},其中D
i
表示集合中的第i条报文,m为报文样本数;S12、词型还原提取所述第i条报文D
i
中单词的主干部分、去除词缀,将单词还原成原始形式;S13、引入停用词利用报文单词相互之间的空格对其进行拆分;通过引入停用词,去除报文中的一些虚词、短语以及标点符号来减少词库中不需要进行分析的内容,从而得到一组报文特征词集合D

={D
′1,D
′2,...,D

i
,...,D

m
},其中D

i
表示第i条报文的特征词集合;S14、类别标注根据分析NAVTEX报文中描述内容后需要作出的相应行动进行分类标注的语境标签,设置为6个语境类别,分别是禁止进入、保持警惕、宽让、保持认真瞭望、核对计划航线、其他行为;其中,每个报文特征词集合至少对应一类标签,标签矩阵记为L={L1,L2,...,L
i
,...,L
m
},其中即L属于m
×
c维的向量空间,L
i
为6类报文语境标签中的c类标签,且1≤c≤6;S2、对报文特征词进行加权处理根据所述特征词集合D

,采用向量化和权重修正的方法对D

进行加权处理,步骤如下:S21、对报文的特征词集合进行向量化将第i条报文的特征词集合D

i
用报文特征向量X
i
表示,即X
i
={(x
i1
,w
i1
),(x
i2
,w
i2
),...,(x
ij
,w
ij
),...,(x
in
,w
in
)},将X
i
看成是二元特征组构成的n维特征向量;其中,x
ij
表示第i个报文特征向量的第j个特征项;w
ij
是特征项x
ij
所对应的权重,代表特征项在报文里的重要程度;n代表特征维度,任一维度均表示报文特征向量X
i
中的一个特征项,且n为特征词集合D

中所有特征词数目去除包含的重复特征词数目后所剩余特征词的总数;S22、对报文特征项权重进行修正当报文数据中的特征维度确定后,将报文特征向量X
i
简化为:X

i
={w
i1
,w
i2
,...,w
ij
,...,w
in
}表示第i条报文的特征项权重向量;对报文特征项权重进行修正包括以下步骤:S221、求解报文特征项的词频报文特征项的词频TF(x
ij
,X
i
)表示特征项x
ij
在报文特征向量X
i
中的频次,计算公式如下:
其中,为特征项x
ij
在报文特征向量X
i
中出现的次数,为X
i
中所有特征项合计出现的次数;S222、求解报文特征项的逆文档频率报文特征项的逆文档频率IDF(x
ij
)表示特征项x
ij
在所有报文特征向量中出现的频率,其计算公式如下:其中,代表所有X
i
中出现特征x
ij
的报文特征向量数;S223、求解报文特征项的权重将S2213和S222步骤所求得的结果相乘就得到特征项x
ij
在X
i
中的权重,计算公式如下:其中,归一化因子E的计算公式如下:S3、将报文语境标签排序并进行编码引入One

Hot编码,将类别变量转换为便于分类模型利用的形式,步骤如下:S31、对报文语境标签进行整数编码规定6类报文语境标签排序并进行整数编码,分别将整数0至5依次对应分配给如...

【专利技术属性】
技术研发人员:左毅李心宇蒋龙李铁山陈俊龙
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1