当前位置: 首页 > 专利查询>江苏电力信息技术有限公司国网江苏省电力有限公司专利>正文

一种知识图谱的知识实体所在文集的检索方法技术

技术编号：38210809 阅读：12 留言：0更新日期：2023-07-21 17:02

本发明专利技术公开了一种知识图谱知识实体所在文集的检索方法，使用聚类模型对所有文集进行归类，并通过多层聚类对文集进行按层次的由上至下进行标号。通过将文集进行预处理；使用DocT5Sentence模型对文集进行分解，生成Sentence到文集的映射关系数据；使用base Transformer模型训练T5得到的数据，对最后MLP处理后的结果进行Softmax，获取相似度最好的文集标号；最后通过反向标记跟踪到原始电力文集所在位置，完成对知识实体的检索任务。本发明专利技术通过构建多模态的文集检索模型，可以快速定位到需要收集的知识实体对象相关的电力文集。位到需要收集的知识实体对象相关的电力文集。位到需要收集的知识实体对象相关的电力文集。

全部详细技术资料下载

【技术实现步骤摘要】
一种知识图谱的知识实体所在文集的检索方法

[0001]本专利技术属于电力领域，涉及一种知识图谱知识实体所在文集的检索方法。

技术介绍

[0002]随着国家大力推进无纸化办公，大量的线下处理的事务转移到线上。原来的纸质文件转变为电子文件、照片、视频等形式存储。这能更好地获取数据的来源，可以不再重度依赖于传统数据库存储的数据，直接从数据的源头获取数据。此时，有目的的对所有各类文集的快速检索能力尤为必要。
[0003]知识图谱不仅具有传统数据库的数据存储、操作及管理等职能，还能基于图数据库构建概念实体关系，提供关系搜索、语义解析以及进行图相关的深度学习。知识获取是知识图谱构建的基础。具有行业特色的知识图谱对行业知识的获取更加迫切。电力行业是一个特质性比较强的行业。无论是发电、送电、变电、储电等基础职能，还是电力工程建设标准、电力物资类别、电力设施管理要求等都具有极强的行业特征。

技术实现思路

[0004]本专利技术的目的是提供一种知识图谱知识实体所在文集的检索方法，通过构建多模态的文集检索模型，可以快速定位到需要收集的知识实体对象相关的电力文集。
[0005]本专利技术的目的通过以下技术方案实现：
[0006]一种知识图谱知识实体所在文集的检索方法，其特征在于包含以下步骤：
[0007]S1、准备电力行业各领域的文档，包括且不限于合同文档、招标文档、技术规范书、检修工单，财务报告以及电力行业语料库，组成文集(Corpus)；
[0008]对所有文集进行<...

【技术保护点】

【技术特征摘要】
1.一种知识图谱知识实体所在文集的检索方法，其特征在于包含以下步骤：S1、准备电力行业各领域的文档，包括且不限于合同文档、招标文档、技术规范书、检修工单，财务报告以及电力行业语料库，组成文集Corpus；对所有文集进行<Corpus,URL>的Mapping，再对所有的<Corpus,URL>进行标号；S2、对文档进行预处理，根据文档的类型，分别使用OCR，pdf2txt,word2txt工具解析为txt文件，并进行瘦身，删除所有文档空白，换行符标记为Sentence结束符，去除所有非Unicode字符；S3、使用Corpus2Sentence算法，把文件生产为对应的Sentence实验数据，并添加Sentence在原文件的Segment Position信息，得到<Sentence,<CorpusID,SegmentID>>形式的数据；S4、构建HuggingFaceTransformer模型，使用上一步中T5模型的预训练参数去初始化Transformer的编码器与解码器，模型编码器的学习率设置为2X10
‑4，解码器的学习率设置为10
‑4，进行训练，让整个网络记住所有Corpus以及Sentence的信息；S5、对待搜索的知识图谱知识实体Query进行文本处理，使之只包含Unicode字符，作为模型输入，经过模型计算它与模型中已经记忆的Sentence之间的Cosine Similarity；把计得到的相似度结果作为新的权重，代入到下一层等计算；最终得到知识实体Query对文件Sentence的Softmax结果；S6、通过得到的CorpusID，从S1中的分类结果中，依据层次顺序一步步定位到具体的文件<Corpus...

【专利技术属性】
技术研发人员：程剑筠，李金霞，卞华星，温富国，沈健，栾宁，冯曙明，余建新，胡天牧，周晓宇，胡晓东，
申请(专利权)人：江苏电力信息技术有限公司国网江苏省电力有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人