船舶知识搜索权重建立及配置方法技术

技术编号:38487346 阅读:10 留言:0更新日期:2023-08-15 17:02
本发明专利技术公开了船舶知识搜索权重建立及配置方法,属于船舶知识搜索技术领域,为了解决现有的权重方案过于依赖资料结构和种类的规范性,很难适用于船舶资料数据量大小不一、种类繁多、结构差异较大的特点,不便于权重方案的普遍应用;检索是无法对关键词进行重组和筛选,导致搜索质量差,且无法增大搜索范围的问题。对具体的知识本体结构和内涵范围进行详细界定与把关,确保能够为机器可读标准的研制与应用提供准确可信的定义和数据,提高了网页的搜索质量,另一方面也扩大了搜索范围,适用于类似船舶资料种类繁多、结构各异、数据量大的工程资料位置权重方案的确定。工程资料位置权重方案的确定。工程资料位置权重方案的确定。

【技术实现步骤摘要】
船舶知识搜索权重建立及配置方法


[0001]本专利技术涉及到船舶知识搜索
,特别涉及船舶知识搜索权重建立及配置方法。

技术介绍

[0002]相对加权法以文内相对频率和文外相对频率作为权值,将标引词与文献主题的相关程度作为加权统计的依据,提出文献题名、文摘、各章节小题名、首尾节和其余部分的权重,上述标引源位置权重大多是定性分析,根据经验得出,具有很强的主观性,缺乏理论支撑和统计基础。
[0003]但是在船舶智能控制的过程中,存在以下缺陷:
[0004]1、现有的权重方案过于依赖资料结构和种类的规范性,很难适用于船舶资料数据量大小不一、种类繁多、结构差异较大的特点,不便于权重方案的普遍应用;
[0005]2、其次,检索是无法对关键词进行重组和筛选,导致搜索质量差,且无法增大搜索范围。

技术实现思路

[0006]本专利技术的目的在于提供船舶知识搜索权重建立及配置方法,解决权重方案的主观性和结构的局限性,确定合理的权重方案,为船舶资料的自动标引、自动分类奠定基础,对具体的知识本体结构和内涵范围进行详细界定与把关,确保能够为机器可读标准的研制与应用提供准确可信的定义和数据,提高了网页的搜索质量,另一方面也扩大了搜索范围,适用于类似船舶资料种类繁多、结构各异、数据量大的工程资料位置权重方案的确定,以解决上述
技术介绍
中提出的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:
[0008]船舶知识搜索权重建立及配置方法,包括如下步骤:
[0009]S1:确定本体的领域和范围:构建知识本体之前,确定本体的适用领域,船舶行业标准知识本体的覆盖领域是整个船舶行业,适用于船舶行业标准文档的基本框架和内容;
[0010]S2:考虑重用现有的本体成果:从零开始构建知识本体,先调研是否已有相关的知识本体成果,后续可以基于这些知识本体进行改进和扩展;
[0011]S3:列举本体中的重要术语:为确保对术语的全面覆盖,需要列举出船舶领域知识的所有术语,并为其备注基本类别;
[0012]S4:类别和层次结构定义:通过构建类层次结构来实现类本体的构建,类层次结构的建立通常采用自顶向下方法,即先定义领域内通用的类,再通过对已有类的详细划分形成子类,子类下面继续衍生子类,从而形成一个树状的类层次结构;
[0013]S5:信息关系定义:靠类提供足够的知识本体信息,还需要通过定义类的属性来进一步加强描述,知识本体的属性描述了客观世界中个体与个体之间的关联关系,包括对象属性和数据属性;
[0014]S6:构建搜索系统框架:根据上述知识本体为基数,构建搜索系统内的搜索功能,主题信息搜索系统服务于特定的船舶应用领域,获取与主题相关的页面;
[0015]S7:权重方案设计:确定船舶工程技术资料的位置权重,对工程技术资料标引词占各标引源词汇的比例进行统计分析。
[0016]进一步地,针对S1中构建知识本体以船舶领域种子本体为基础,对船舶领域文本应用自然语言处理等技术获取到领域知识,并将获取的新知识添加到种子本体中,进而不断丰富和完善种子本体,基于本体的船舶领域知识获取,提出了船舶领域知识获取框架。
[0017]进一步地,针对S4中树状的类层次结构的船舶配件顶级类,下分技术条件、工艺规程、结构定义三大子类,每一级子类继续向下划分,结构定义包括规范性引用文件、分类原则、结构和连接尺寸。
[0018]进一步地,针对S4中船舶行业标准知识本体的属性包括描述类别之间关系的属性、描述实例固有性质的属性、与其他个体之间的关系和自定义属性,其中描述类别之间关系的属性为对象属性,描述实例固有性质的属性、与其他个体之间的关系和自定义属性为数据属性。
[0019]进一步地,针对S6中搜索系统包括对接收检索任务并执行的任务发出模块、对所述检索任务中提到的内容中关键词进行提取或重组的关键词提取模块、针对关键词进行检索的搜索模块、针对搜索内容进行提取的筛选模块以及用于显示检索内容的显示模块。
[0020]进一步地,搜索系统的搜索方法包括如下步骤:
[0021]S601:在搜索系统内输入需要检索的内容,任务发出模块将内容发出,并发出搜索指令;
[0022]S602:关键词提取模块对内容中的关键词进行提取,根据用特定的词语找到目标资料,当关键字不易确定时,则可以通过近义词、相关词等关键字缩小检索范围;
[0023]S603:搜索模块根据提出后的关键词进行目标搜索,当搜索后出现的大量的知识体,由筛选模块进行关键词筛选,将无用的知识链接或者文档进行剔除;
[0024]S604:将检索到的内容通过显示模块进行显示,使用者根据检索到的内容判断检测到的内容是否精确。
[0025]进一步地,关键词提取模块把文本的内容简化处理后,生成在向量空间中的向量运算,并利用在空间中的某种关系来表达语义上的相似程度,当某一文档被确定为空间向量模型时,通过计算向量的相似度来衡量文档之间的相似性;
[0026]所述算法设计结合遗传算法和基于文本内容的空间向量模型,利用遗传算法的全局查优特点保证搜索的整体性,以空间向量模型确定主题相关度,将遗传算法应用到主题信息搜索系统中进行查找链接,在查找过程中不断选择变异优化,对搜索过程进行启发式引导。
[0027]进一步地,筛选模块将搜索模块搜索到的种子集合的所有URL进行下载,并将每个URL的页面信息提取出来,包含锚链接和文本内容,提取出结果之后,对关键词构建向量空间模型,计算出页面的主题相关度,将主题相关度小于设定阈值的页面剔除;然后按照从大到小进行排序,产生集合N,根据设置好的交叉概率P1,取排在前N*P1的页面作为交叉结果。
[0028]进一步地,针对S6中权重方案设计包括采集待分析数据、分离标引源、自动分词、词频统计和数据统计分析。
[0029]与现有技术相比,本专利技术的有益效果是:
[0030]1、本专利技术提出的船舶知识搜索权重建立及配置方法,构建知识本体以船舶领域种子本体为基础,对船舶领域文本应用自然语言处理等技术获取到领域知识,并将获取的新知识添加到种子本体中,进而不断丰富和完善种子本体,基于本体的船舶领域知识获取,提出了船舶领域知识获取框架,确定船舶资料的位置权重,然后从文献的标引词着手,提出基于标引词在标引源中的比例反映文献各部分位置权重的方案,解决权重方案的主观性和结构的局限性,确定合理的权重方案,为船舶资料的自动标引、自动分类奠定基础,也为其他工程技术资料的位置权重方案提供参考。
[0031]2、本专利技术提出的船舶知识搜索权重建立及配置方法,船舶行业标准知识本体的属性包括描述类别之间关系的属性、描述实例固有性质的属性、与其他个体之间的关系和自定义属性,其中描述类别之间关系的属性为对象属性,描述实例固有性质的属性、与其他个体之间的关系和自定义属性为数据属性,初步构建出船舶行业标准知识本体,对具体的知识本体结构和内涵范围进行详细界定与把关,确保能够为机器可读标准的研制与应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.船舶知识搜索权重建立及配置方法,其特征在于:包括如下步骤:S1:确定本体的领域和范围:构建知识本体之前,确定本体的适用领域,船舶行业标准知识本体的覆盖领域是整个船舶行业,适用于船舶行业标准文档的基本框架和内容;S2:考虑重用现有的本体成果:从零开始构建知识本体,先调研是否已有相关的知识本体成果,后续基于这些知识本体进行改进和扩展;S3:列举本体中的重要术语:为确保对术语的全面覆盖,需要列举出船舶领域知识的所有术语,并为其备注基本类别;S4:类别和层次结构定义:通过构建类层次结构来实现类本体的构建,类层次结构的建立通常采用自顶向下方法,即先定义领域内通用的类,再通过对已有类的详细划分形成子类,子类下面继续衍生子类,形成一个树状的类层次结构;S5:信息关系定义:靠类提供足够的知识本体信息,还需要通过定义类的属性来进一步加强描述,知识本体的属性描述了客观世界中个体与个体之间的关联关系,包括对象属性和数据属性;S6:构建搜索系统框架:根据上述知识本体为基数,构建搜索系统内的搜索功能,主题信息搜索系统服务于特定的船舶应用领域,获取与主题相关的页面;S7:权重方案设计:确定船舶工程技术资料的位置权重,对工程技术资料标引词占各标引源词汇的比例进行统计分析。2.根据权利要求1所述的船舶知识搜索权重建立及配置方法,其特征在于:针对S1中构建知识本体以船舶领域种子本体为基础,对船舶领域文本应用自然语言处理获取到领域知识,并将获取的新知识添加到种子本体中。3.根据权利要求1所述的船舶知识搜索权重建立及配置方法,其特征在于:针对S4中树状的类层次结构的船舶配件顶级类,下分技术条件、工艺规程、结构定义三大子类,每一级子类继续向下划分,结构定义包括规范性引用文件、分类原则、结构和连接尺寸。4.根据权利要求1所述的船舶知识搜索权重建立及配置方法,其特征在于:针对S4中船舶行业标准知识本体的属性包括描述类别之间关系的属性、描述实例固有性质的属性、与其他个体之间的关系和自定义属性,其中描述类别之间关系的属性为对象属性,描述实例固有性质的属性、与其他个体之间的关系和自定义属性为数据属性。5.根据权利要求1所述的船舶知识搜索权重建立及配置方法,其特征在...

【专利技术属性】
技术研发人员:房奎凯吴传伟于学超李玉文杜浩杰季琳琳王旭
申请(专利权)人:上海外高桥造船有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1