文本单位语义距离预计算方法及装置制造方法及图纸

技术编号:39838620 阅读:8 留言:0更新日期:2023-12-29 16:24
本发明专利技术公开了一种文本单位语义距离预计算方法及装置

【技术实现步骤摘要】
文本单位语义距离预计算方法及装置、查询方法及装置


[0001]本专利技术涉及知识库查询
,涉及一种文本单位语义距离预计算方法,特别是涉及一种文本单位语义距离预计算方法及装置

查询方法及装置


技术介绍

[0002]预训练是一种深度学习模型训练的策略,目的是通过训练从大量数据中提取出尽可能多的共性特征,然后将其应用于特定任务模型中,再使用相关特定领域的少量标注数据进行“微调”,使得模型只需要从“共性”出发,去“学习”该特定任务的“特殊”部分即可

但预训练需要使用大量数据训练学习,由于受训练数据自身质量的影响,其结果准确性不一定很高,训练成本也较高

且大模型使用历史数据进行训练,无法做到实时更新

[0003]目前已有一些大模型整合框架可以把大模型和外部数据结合起来,做到实时更新;但是大模型整合框架的训练和推理成本都比较高

具体要将外部数据转换成向量,并保存在支持向量搜索功能的数据存储中,使用时需要计算向量的相似度,在向量存储过程中还需要构建索引,计算量很大,时间

算力成本均比较高

同时大模型整合框架中在数据
embedding
的过程和数据太长,需要对数据分割成
chunk
的过程中,对原有信息都有损坏,丢失了数据的语义信息和上下文关系,导致最后查询的结果和原数据不相关

[0004]因此针对预训练和大模型整合框架的数据,需要一种更便捷快速准确,且无需对数据进行分割的数据检索方式,以避免对原有信息无损坏,丢失了数据的语义信息和上下文关系


技术实现思路

[0005]本申请的目的在于提供一种文本单位语义距离预计算方法及装置

查询方法及装置,用于降低训练成本

提升准确率;解决现有大模型整合框架外部数据计算量很大,且需对数据进行分割对原有信息具有损坏,丢失了数据的语义信息和上下文关系,导致最后查询的结果和原数据不相关的问题

[0006]第一方面,本申请提供一种文本单位语义距离预计算方法,包括:
[0007]获取预计算知识库中的所有文本单位,并基于关联单位获取方式获取每个文本单位的关联文本单位集合;
[0008]通过预设对象知识表示获取方式,基于所述关联文本单位集合获取所述预计算知识库中所有对象属性文本单位的知识表示,通过预设范畴知识表示获取方式,获取所述预计算知识库中所有范畴属性文本单位的知识表示;
[0009]获取所有所述文本单位所能构成的所有文本单位对,基于所述文本单位的知识表示,通过文本单位关系确定方式对所有所述文本单位对的语义距离进行计算,将所有计算出语义距离的文本单位对以及所对应的语义距离集合为所述预计算知识库的语义距离库;
[0010]其中,所述对象属性文本单位为所述预计算知识库中的对象,所述范畴属性文本单位为所述预计算知识库中的范畴

[0011]于本申请一实施例中,基于关联单位获取方式获取文本单位的关联文本单位集合包括:
[0012]从所述预计算知识库中获取常规文本单位的描述页;
[0013]将所述描述页中的文本单位作为所述常规文本单位的内部文本单位,将所述常规文本单位的所有类型所述内部文本单位集合为所述常规文本单位的关联文本单位集合;
[0014]其中,所述常规文本单位为所述预计算知识库中的任意一个文本单位

[0015]于本申请一实施例中,通过预设对象知识表示获取方式,基于所述关联文本单位集合获取所述预计算知识库中对象属性文本单位的知识表示包括:
[0016]以对象属性文本单位为筛选单位对其所面对所述关联文本单位集合进行筛选,并将符合筛选条件的关联文本单位集合所对应的文本单位,集合为所述对象属性文本单位的知识表示;
[0017]其中,对象属性文本单位为所述预计算知识库中任意一个对象;对象属性文本单位对其所面对关联文本单位集合包括所述预计算知识库中,除所述对象属性文本单位所对应关联文本单位集合外的其他所有关联文本单位集合;所述筛选条件为所述关联文本单位集合中包含所述筛选单位

[0018]于本申请一实施例中,通过预设范畴知识表示获取方式,获取所述预计算知识库中单个范畴属性文本单位的知识表示包括:
[0019]获取属于范畴属性文本单位的对象属性文本单位作为对象文本单位,将范畴属性文本单位的所有所述对象文本单位的知识表示集合为范畴属性文本单位的知识表示;
[0020]其中,范畴属性文本单位为所述预计算知识库中任意一个范畴

[0021]于本申请一实施例中,通过文本单位关系确定方式对所述文本单位对的语义距离进行计算包括:
[0022]设定所述文本单位对中一个所述文本单位为第一文本单位,另一个所述文本单位为第二文本单位;
[0023]判断所述第一文本单位的知识表示和所述第二文本单位的知识表示是否存在交集,若是则表示所述第一文本单位和第二文本单位有关系,并基于所述第一文本单位的知识表示和所述第二文本单位的知识表示计算所述第一文本单位和第二文本单位之间的语义距离,否则表示所述第一文本单位和第二文本单位之间没有关系

[0024]于本申请一实施例中,基于所述第一文本单位的知识表示和所述第二文本单位的知识表示,通过
Ochiia
系数计算方式或杰卡德指数计算方式计算所述第一文本单位和第二文本单位之间的语义距离

[0025]第二方面,本申请提供一种文本单位语义距离预计算装置,包括关联文本单位获取模块

知识表示获取模块和语义距离库获取模块:
[0026]所述关联文本单位获取模块,用于获取预计算知识库中的所有文本单位,并基于关联单位获取方式获取每个文本单位的关联文本单位集合;
[0027]所述知识表示获取模块,用于基于预设对象知识表示获取方式,获取所述预计算知识库中所有对象属性文本单位的知识表示,基于预设范畴知识表示获取方式,获取所述预计算知识库中所有范畴属性文本单位的知识表示;
[0028]所述语义距离库获取模块,用于获取所有所述文本单位所能构成的所有文本单位
对,基于所述文本单位的知识表示,通过文本单位关系确定方式对所有所述文本单位对的语义距离进行计算,将所有计算出语义距离的文本单位对以及所对应的语义距离集合为所述预计算知识库的语义距离库;
[0029]其中,所述对象属性文本单位为所述预计算知识库中的对象,所述范畴属性文本单位为所述预计算知识库中的范畴

[0030]第三方面,本申请提供一种知识库文本单位查询方法,包括:
[0031]获取待查询文本单位;
[0032]从知识库的语义距离库中查找所有具有所述待查询文本单位的文本单位对作为所述待查询文本单位的查询本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本单位语义距离预计算方法,包括:获取预计算知识库中的所有文本单位,并基于关联单位获取方式获取每个文本单位的关联文本单位集合;通过预设对象知识表示获取方式,基于所述关联文本单位集合获取所述预计算知识库中所有对象属性文本单位的知识表示,通过预设范畴知识表示获取方式获取所述预计算知识库中所有范畴属性文本单位的知识表示;获取所有所述文本单位所能构成的所有文本单位对,基于所述文本单位的知识表示,通过文本单位关系确定方式对所有所述文本单位对的语义距离进行计算,将所有计算出语义距离的文本单位对以及所对应的语义距离集合为所述预计算知识库的语义距离库;其中,所述对象属性文本单位为所述预计算知识库中的对象,所述范畴属性文本单位为所述预计算知识库中的范畴
。2.
根据权利要求1所述的预计算方法,其特征在于,基于关联单位获取方式获取文本单位的关联文本单位集合包括:从所述预计算知识库中获取常规文本单位的描述页;将所述描述页中的文本单位作为所述常规文本单位的内部文本单位,将所述常规文本单位的所有类型所述内部文本单位集合为所述常规文本单位的关联文本单位集合;其中,所述常规文本单位为所述预计算知识库中的任意一个文本单位
。3.
根据权利要求1所述的预计算方法,其特征在于,通过预设对象知识表示获取方式,基于所述关联文本单位集合获取所述预计算知识库中对象属性文本单位的知识表示包括:以对象属性文本单位为筛选单位对其所面对所述关联文本单位集合进行筛选,并将符合筛选条件的关联文本单位集合所对应的文本单位,集合为所述对象属性文本单位的知识表示;其中,对象属性文本单位为所述预计算知识库中任意一个对象;对象属性文本单位对其所面对关联文本单位集合包括所述预计算知识库中,除所述对象属性文本单位所对应关联文本单位集合外的其他所有关联文本单位集合;所述筛选条件为所述关联文本单位集合中包含所述筛选单位
。4.
根据权利要求1所述的预计算方法,其特征在于,通过预设范畴知识表示获取方式,获取所述预计算知识库中单个范畴属性文本单位的知识表示包括:获取属于范畴属性文本单位的对象属性文本单位作为对象文本单位,将范畴属性文本单位的所有所述对象文本单位的知识表示集合为范畴属性文本单位的知识表示;其中,范畴属性文本单位为所述预计算知识库中任意一个范畴
。5.
根据权利要求1所述的预计算方法,其特征在于,通过文本单位关系确定方式对所述文本单位对的语义距离进行计算包括:设定文本单位对中一个所述文本单位为第一文本单位,另一个所述文本单位为第二文本单位;判断所述第一文本单位的知识表示和所述第二文本单位的知识表示是否存在交集,若是则表示所述第一文本单位和第二文本单位有关系,并基于所述第一文本单位的知识表示和所述第二文本单位的知识表示计算所述第一文本单位和第二文本单位之间的语义距离,否则表示所述第一文本单位和第二文本单位之间没有关系

6.
根据权利要求5所述的预计算方法,其特征在于,基于所述第一文本单位的知识表示和所述第二文本单位的知识表示,通过
Ochiia
系数计算方式或杰卡德指数计算方式计算所述第一文本单位和第二文本单位之间的语义距离
。7.
一种文本单位语义距离预计算装置,其特征在于,包括关联文本单位获取模块

知识表示获取模块和语义距离库获取模块:所述关联文本单位获取模块,用于获取预计算知识库中的所有文本单位,并基于关联单位获...

【专利技术属性】
技术研发人员:张晓东
申请(专利权)人:杭州朗目达信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1