【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种知识数据库更新方法、计算机程序产品及电子设备。
技术介绍
1、向量知识数据库是一种专门设计用来存储和管理向量嵌入的数据库,可以有效地存储和索引大量的高维向量数据。在生产实践中,用户的原始数据格式各种各样,其中文本格式的数据通常需要经过清洗与处理,才适合传入向量指示数据库中用于检索。数据冗余、过时或不准确会直接影响相关模型问答系统的输出质量,因此,定期更新数据集并自动清理过时信息至关重要。
2、在相关技术中,对向量知识数据库中相关知识的更新,通常采用人工审核的方式,即当有新的知识入库时,由人工来判断新入库的知识与知识库中原有的知识相比,哪一个更加具有时效性,并以此来进行知识的更新。
3、然而,在文档数据量大、更新频繁或知识领域跨度很大时,采用人工审核的方式难以保证知识更新的效率,增加审核人员也会导致审核成本急剧上升。
技术实现思路
1、本申请的目的是提供一种知识数据库更新方法、计算机程序产品及电子设备,用于通过对描述文本之间的矩阵相似度形
...【技术保护点】
1.一种知识数据库更新方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于向量相似度计算结果,从所述知识数据库中筛选出与所述目标文档相似的多个相似文档,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标文档以及所述多个相似文档进行实体提取,得到至少一个实体以及每个实体对应的第一描述文本和每个实体对应的第二描述文本,包括:
4.根据权利要求1所述的方法,其特征在于,所述计算所述至少一个实体中每个实体的第一描述文本与第二描述文本之间的矩阵相似度形态,包括:
5.根据权利要求4所述的方法
...【技术特征摘要】
1.一种知识数据库更新方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于向量相似度计算结果,从所述知识数据库中筛选出与所述目标文档相似的多个相似文档,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标文档以及所述多个相似文档进行实体提取,得到至少一个实体以及每个实体对应的第一描述文本和每个实体对应的第二描述文本,包括:
4.根据权利要求1所述的方法,其特征在于,所述计算所述至少一个实体中每个实体的第一描述文本与第二描述文本之间的矩阵相似度形态,包括:
5.根据权利要求4所述的方法,其特征在于,所述计算所述至少一个实体中每个实体的每个第一描述文本与每个第二描述文本之间的矩阵相似度形态,包括:
6.根据权利要求5所述的方法,其特征在于,所述根据任一两个描述文本的向量距离确定每个实体的每个第一描述文本与每个第二描述文本之间的矩阵相似度形态,包括:
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述基于每个实体的每个第一描述文本与每个第二描述文本之间的矩阵相似度形态,确定所述目标文档以及所述多个相似文档中每个文档的结构性冲突率,包括:
8.根据权利要求7所述的方法,其特征在于,其中,所述预设相似度形态包括以下任一项:用于指示前两个部分的内容相同、且第三部分内容不同的第一形态,用于指示首位部分的内容相...
【专利技术属性】
技术研发人员:秦朝阳,常洪耀,
申请(专利权)人:苏州元脑智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。