一种知识图谱的知识实体所在文集的检索方法技术

技术编号:38210809 阅读:12 留言:0更新日期:2023-07-21 17:02
本发明专利技术公开了一种知识图谱知识实体所在文集的检索方法,使用聚类模型对所有文集进行归类,并通过多层聚类对文集进行按层次的由上至下进行标号。通过将文集进行预处理;使用DocT5Sentence模型对文集进行分解,生成Sentence到文集的映射关系数据;使用base Transformer模型训练T5得到的数据,对最后MLP处理后的结果进行Softmax,获取相似度最好的文集标号;最后通过反向标记跟踪到原始电力文集所在位置,完成对知识实体的检索任务。本发明专利技术通过构建多模态的文集检索模型,可以快速定位到需要收集的知识实体对象相关的电力文集。位到需要收集的知识实体对象相关的电力文集。位到需要收集的知识实体对象相关的电力文集。

【技术实现步骤摘要】
一种知识图谱的知识实体所在文集的检索方法


[0001]本专利技术属于电力领域,涉及一种知识图谱知识实体所在文集的检索方法。

技术介绍

[0002]随着国家大力推进无纸化办公,大量的线下处理的事务转移到线上。原来的纸质文件转变为电子文件、照片、视频等形式存储。这能更好地获取数据的来源,可以不再重度依赖于传统数据库存储的数据,直接从数据的源头获取数据。此时,有目的的对所有各类文集的快速检索能力尤为必要。
[0003]知识图谱不仅具有传统数据库的数据存储、操作及管理等职能,还能基于图数据库构建概念实体关系,提供关系搜索、语义解析以及进行图相关的深度学习。知识获取是知识图谱构建的基础。具有行业特色的知识图谱对行业知识的获取更加迫切。电力行业是一个特质性比较强的行业。无论是发电、送电、变电、储电等基础职能,还是电力工程建设标准、电力物资类别、电力设施管理要求等都具有极强的行业特征。

技术实现思路

[0004]本专利技术的目的是提供一种知识图谱知识实体所在文集的检索方法,通过构建多模态的文集检索模型,可以快速定位到需要收集的知识实体对象相关的电力文集。
[0005]本专利技术的目的通过以下技术方案实现:
[0006]一种知识图谱知识实体所在文集的检索方法,其特征在于包含以下步骤:
[0007]S1、准备电力行业各领域的文档,包括且不限于合同文档、招标文档、技术规范书、检修工单,财务报告以及电力行业语料库,组成文集(Corpus);
[0008]对所有文集进行<Corpus,URL>的Mapping,再对所有的<Corpus,URL>进行标号;
[0009]S2、对文档进行预处理,根据文档的类型,分别使用OCR,pdf2txt,word2txt工具解析为txt文件,并进行瘦身,删除所有文档空白,换行符标记为Sentence结束符,去除所有非Unicode字符;
[0010]S3、使用Corpus2Sentence算法,把文件生产为对应的Sentence实验数据,并添加Sentence在原文件的Segment Position信息,得到<Sentence,<CorpusID,SegmentID>>形式的数据;
[0011]S4、构建HuggingFaceTransformer模型,使用上一步中T5模型的预训练参数去初始化Transformer的编码器与解码器,模型编码器的学习率设置为2X 10
‑4,解码器的学习率设置为10
‑4,进行训练,让整个网络记住所有Corpus以及Sentence的信息;
[0012]S5、对待搜索的知识图谱知识实体Query进行文本处理,使之只包含Unicode字符,作为模型输入,经过模型计算它与模型中已经记忆的Sentence之间的Cosine Similarity;把计得到的相似度结果作为新的权重,代入到下一层等计算;最终得到知识实体Query对文件Sentence的Softmax结果;
[0013]S6、通过得到的CorpusID,从S1中的分类结果中,依据层次顺序一步步定位到具体
的文件<Corpus,URL>,返回对应的URL值;根据得到的SegmentID,定位结果Sentence所在文件的具体段落号。
[0014]步骤S1中,标号的方法采用HCA(Hierarchy Clustering Algorithm)算法,具体如下:
[0015]设置K

Means算法的超参数为10,即K=10,每类包含文件数量的阈值为20,即C=20;
[0016]1)对所有的文档进行K

Means,分类结果设置标号,范围为[1,10];
[0017]2)当分类结果中某类包含的文件数量大于阈值,则对此类再进行K

Means算法进行聚类,并使用[1,10]的标号对分类结果进行新的标注;
[0018]3)重复1,2步的工作,直到所有类别文件数量都小于阈值或者分类结果不再发生变化,此时,把每次分类进行的标注进行连结,形成包含每层分类结果的标记串,即文件对应的CorpusID。
[0019]步骤S3中,Corpus2Sentence算法具体如下:
[0020]设置每个term的长度为32,以逗号、分号,句号、问号、感叹号为结束符判断,
[0021]1)首先,把文件开始第一个term作为一个Sentence;
[0022]2)在文件中随机选择20组长度为32的term作为Sentence;
[0023]3)再构建DocT5Sentence的T5模型,将已在大数据集训练好的模型参数迁移到T5模型进行使用,使用随机采样的方法生产Sentence;
[0024]4)保存所有Sentence信息以及Sentence对应的CorpusID信息,记录现Sentence与其在原文档中的Segment位置对照信息,即<Sentence,<CorpusID,SegmentID>>形式的数据;并记录当前T5模型的模型参数。
[0025]本专利技术使用聚类模型对所有文集进行归类,并通过多层聚类对文集进行按层次的由上至下进行标号。类似于传统分词搜索使用的Inverted Index技术。通过一些技术手段把所欲文集进行预处理;使用DocT5Sentence模型对文集进行分解,生成Sentence到文集的映射关系数据;使用base Transformer模型训练T5得到的数据,对最后MLP处理后的结果进行Softmax,获取相似度最好的文集标号;最后通过反向标记跟踪到原始电力文集所在位置,完成对知识实体的检索任务。
[0026]本专利技术通过构建多模态的文集检索模型,可以快速定位到需要收集的知识实体对象相关的电力文集。
附图说明
[0027]图1是本专利技术的流程图。
具体实施方式
[0028]一种知识图谱知识实体所在文集的检索方法,图1是本专利技术的流程图,包含以下步骤:
[0029]S1、准备电力行业各领域的文档,包括且不限于合同文档、招标文档、技术规范书、检修工单,财务报告以及电力行业语料库,组成文集(Corpus);
[0030]对所有文集进行<Corpus,URL>的Mapping,再对所有的<Corpus,URL>进行标号。
[0031]S2、对文档进行预处理,根据文档的类型,分别使用OCR,pdf2txt,word2txt工具解析为txt文件,并进行瘦身,删除所有文档空白,换行符标记为Sentence结束符,去除所有非Unicode字符;
[0032]S3、使用Corpus2Sentence算法,把文件生产本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱知识实体所在文集的检索方法,其特征在于包含以下步骤:S1、准备电力行业各领域的文档,包括且不限于合同文档、招标文档、技术规范书、检修工单,财务报告以及电力行业语料库,组成文集Corpus;对所有文集进行<Corpus,URL>的Mapping,再对所有的<Corpus,URL>进行标号;S2、对文档进行预处理,根据文档的类型,分别使用OCR,pdf2txt,word2txt工具解析为txt文件,并进行瘦身,删除所有文档空白,换行符标记为Sentence结束符,去除所有非Unicode字符;S3、使用Corpus2Sentence算法,把文件生产为对应的Sentence实验数据,并添加Sentence在原文件的Segment Position信息,得到<Sentence,<CorpusID,SegmentID>>形式的数据;S4、构建HuggingFaceTransformer模型,使用上一步中T5模型的预训练参数去初始化Transformer的编码器与解码器,模型编码器的学习率设置为2X10
‑4,解码器的学习率设置为10
‑4,进行训练,让整个网络记住所有Corpus以及Sentence的信息;S5、对待搜索的知识图谱知识实体Query进行文本处理,使之只包含Unicode字符,作为模型输入,经过模型计算它与模型中已经记忆的Sentence之间的Cosine Similarity;把计得到的相似度结果作为新的权重,代入到下一层等计算;最终得到知识实体Query对文件Sentence的Softmax结果;S6、通过得到的CorpusID,从S1中的分类结果中,依据层次顺序一步步定位到具体的文件<Corpus...

【专利技术属性】
技术研发人员:程剑筠李金霞卞华星温富国沈健栾宁冯曙明余建新胡天牧周晓宇胡晓东
申请(专利权)人:江苏电力信息技术有限公司国网江苏省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1