【技术实现步骤摘要】
本专利技术属于人工智能领域,具体涉及一种针对数字档案数据的智能问答方法。
技术介绍
1、随着数字化技术的迅猛发展,档案数据的来源和数量呈现出爆炸式增长,其多样化和海量性的特征导致了档案数据难以有效利用的困境。面对井喷式的档案信息,用户往往需要耗费大量时间查阅和整合资料,从繁杂的信息中提炼出所需的知识,这一过程既耗时又耗力。
2、用户在面对海量档案信息时,需要升级的不仅仅是数据的存储能力,更重要的是数据的快速检索、整合和知识的提炼能力。基于此需求,在人工智能技术浪潮的推动下,智能问答系统应运而生——依托自然语言处理技术,精准捕捉用户意图,以准确精炼的表达回答用户需求。智能问答系统在语义理解的基础上,深度挖掘并充分利用档案资源的潜在价值,通过自然流畅的对话模式,让用户感受到档案资源的查询与检索便捷性和准确性,高效解决用户在日常服务、历史档案等方面的疑问。这一创新方式,标志着档案馆在信息化背景下,向用户提供高质量咨询服务的全新转型,开启了档案资源服务智能化的新篇章。
3、当前的档案智能问答系统主要依赖于知识库进行智能应
...【技术保护点】
1.一种针对数字档案数据的智能问答方法,其特征在于,该方法包括如下步骤:
2.如权利要求1所述的针对数字档案数据的智能问答方法,其特征在于,所述S1具体包括:令为个数字档案文档,使用TextSplitter对文档进行分块,将文档中的文本信息划分为长度为1000个token的文本块;设该文档数据中的第个文档经过分块处理后得到的文本块表示为,其中表示档案文档的序号,表示当前档案文档划分后得到的文本块编号;再利用本地化部署的中文QWEN大语言模型将每个文本块转换为知识向量表示;对于每个文本块,其对应的知识向量表示为;表示QWEN大语言模型,由此构建数字档案的知识
...【技术特征摘要】
1.一种针对数字档案数据的智能问答方法,其特征在于,该方法包括如下步骤:
2.如权利要求1所述的针对数字档案数据的智能问答方法,其特征在于,所述s1具体包括:令为个数字档案文档,使用textsplitter对文档进行分块,将文档中的文本信息划分为长度为1000个token的文本块;设该文档数据中的第个文档经过分块处理后得到的文本块表示为,其中表示档案文档的序号,表示当前档案文档划分后得到的文本块编号;再利用本地化部署的中文qwen大语言模型将每个文本块转换为知识向量表示;对于每个文本块,其对应的知识向量表示为;表示qwen大语言模型,由此构建数字档案的知识向量库,如公式(1)所示:
3.如权利要求2所述的针对数字档案数据的智能问答方法,其特征在于,所述s1具体包括如下步骤:
4.如权利要求3所述的针对数字档案数据的智能问答方法,其特征在于,所述s2包括:首先从知识向量库中随机选取的知识向量构成子库,并计算中所有知识向量两两之间的语义相似性,构建相似性矩阵;在此基础上遍历中所有的知识向量,为其中的每一个知识向量构建一个语义相似知识向量对,和一个语义不相似知识向量对,并构建对应的标签数据集合。
5.如权利要求3所述的针对数字档案数据的智能问答方法,其特征在于,所述s2具体包括如下步骤:
6.如权利要求5所述的针对数字档案数据的智能问答方法,其特征在于,所述s3中,以知识向量为输入,经过深度哈希网络将其转化为二值编码的哈希向量,深度哈希网络包括:一个前馈网络和一个哈希层,文本块经大语言模型转换成知识向量后,经过一个前馈网络和一个哈希层得到哈希向量;前馈网络由5层全连接网络堆叠而成,接收集合或集合中的知识向量对,将其扩展到更高维度从而增强模型的表达能力,再降维输出,得到原始输入的中间向量表示;哈希层则...
【专利技术属性】
技术研发人员:黄杨琛,王浩,李晖,孙丽婷,郑忆美,
申请(专利权)人:北京计算机技术及应用研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。