一种基于知识图谱的非结构化数据检索方法及系统技术方案

技术编号:40876125 阅读:28 留言:0更新日期:2024-04-08 16:45
本发明专利技术涉及数据检索技术领域,并具体公开了一种基于知识图谱的非结构化数据检索方法及系统,其方法包括:对非结构化数据进行预处理和数据评估,并基于数据评估结果在所有分段数据中筛选出所有合格分段数据;基于数据预测模型对所有合格分段数据进行数据补全,获得目标检索范围内的预选择数据;基于预选择数据中的所有编码向量,对预选择数据进行实体识别,获得所有实体词,并确定出每对实体词之间的关系数据的二进制编码向量;基于所有实体词以及每对实体词之间的关系数据的二进制编码向量,搭建出非结构化数据知识图谱;基于用户输入的检索命令和非结构化数据知识图谱,获得非结构化数据检索结果;用以提高非结构化数据的检索精度和效率。

【技术实现步骤摘要】

本专利技术涉及数据检索,特别涉及一种基于知识图谱的非结构化数据检索方法及系统


技术介绍

1、目前,在非结构化数据的检索和应用中,针对非结构化数据资料的检索,传统方式主要是通过有限的条件进行,只能收集到大致的概况,难以获取深度而全面的数据信息,知识的发现比较浅显。而要想真正收集到需要的专业性数据信息,就要全面地阅读案卷内容,然后实施提炼,既浪费了读者大量的时间,更因为长时间占用非结构化数据馆的服务资源而降低了服务效率。而将非结构化数据与知识图谱结合可以大大提高非结构化数据的检索效率和检索准确度。知识图谱的构建一般包括命名实体识别、关系抽取、实体对齐、知识推理等部分。

2、但是,现有技术主要是侧重成果结构化后图谱构建,且基于非结构化数据构建知识图谱需要预先对文本数据进行结构化处理才可使用上述公开技术,而文本数据结构化工作往往较为复杂,处理不同类型文本时,状态大相径庭,需要大量人工参与,准确率较低,影响后续图谱构建成功率,进而还是会影响非结构化数据的检索效率和检索准确度。例如,专利申请号为cn201910982408 .6的中国专利,该专利申请的“本文档来自技高网...

【技术保护点】

1.一种基于知识图谱的非结构化数据检索方法,其特征在于,包括:

2.根据权利要求1所述的基于知识图谱的非结构化数据检索方法,其特征在于,S1:对目标检索范围内的非结构化数据进行预处理和数据评估,并基于数据评估结果在所有分段数据中筛选出所有合格分段数据,包括:

3.根据权利要求2所述的基于知识图谱的非结构化数据检索方法,其特征在于,S101:对目标检索范围内的非结构化数据进行清洗和分段,获得目标检索范围内的所有分段数据,包括:

4.根据权利要求3所述的基于知识图谱的非结构化数据检索方法,其特征在于,基于目标检索范围内的所有最小单位词的自身评估值,对目标检...

【技术特征摘要】

1.一种基于知识图谱的非结构化数据检索方法,其特征在于,包括:

2.根据权利要求1所述的基于知识图谱的非结构化数据检索方法,其特征在于,s1:对目标检索范围内的非结构化数据进行预处理和数据评估,并基于数据评估结果在所有分段数据中筛选出所有合格分段数据,包括:

3.根据权利要求2所述的基于知识图谱的非结构化数据检索方法,其特征在于,s101:对目标检索范围内的非结构化数据进行清洗和分段,获得目标检索范围内的所有分段数据,包括:

4.根据权利要求3所述的基于知识图谱的非结构化数据检索方法,其特征在于,基于目标检索范围内的所有最小单位词的自身评估值,对目标检索范围内的所有最小单位词进行筛选,获得词筛选结果,包括:

5.根据权利要求3所述的基于知识图谱的非结构化数据检索方法,其特征在于,对词筛选结果进行分段,获得目标检索范围内的所有分段数据,包括:

6.根据权利要求1所述的基于知识图谱的非结...

【专利技术属性】
技术研发人员:蔡磊孟宪波韩冬梅尹凡王岚耿威张鹏龙
申请(专利权)人:船舶信息研究中心中国船舶集团有限公司第七一四研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1