一种金融知识库构建时长文档的向量化表征方法技术

技术编号:40069006 阅读:38 留言:0更新日期:2024-01-16 23:52
本发明专利技术公开了一种金融知识库构建时长文档的向量化表征方法。它具体包括如下步骤:利用大模型对文档的切分:利用思维链的prompt引导大模型基于语义将文档分成多个片段;无监督向量化表征模型学习:利用大模型来改写query,用对比学习的方式来学习query和文档之间的向量关系。本发明专利技术的有益效果是:优化金融知识库中长文档的向量化表征算法,提升相关文档的检索效果;模型很小,在推理速度上比现有基于向量化的模型相对要快;利用大模型强大的理解和生成能力,辅助长文档的分片,比简单粗暴的chunk划分效果要好,更多考虑语义信息,即对文档进行智能切分,避免过于粗暴或切分过多。

【技术实现步骤摘要】

本专利技术涉及数据库处理相关,尤其是指一种金融知识库构建时长文档的向量化表征方法


技术介绍

1、金融领域知识库的构建(如图3所示),主要是媒体文件的处理,如文档、ppt、视频文件、log日志等文档,这些文档都有一个特点:一般字数很多,少则几百字,长的会有几千甚至上万字。如何合理把这些文档存入知识向量数据库中,并能轻松的检索到相关数据无疑是一个极具挑战性的问题。

2、现有的主流做法是将文档按照固定长度,如512做chunk切片,或是切分成句子,通过调用向量化模型如sentence-transformer来表征这些向量;亦或者用es取存储并检索对应的文档内容。这些做法的优势是算法简单,但缺点也很明显:

3、1.按固定为chunk切分过于粗暴,往往chunk的开头或结尾不完整,这造成语义信息的损失;

4、2.按照句子切分过细,每篇文档会被切分成很多的向量,这就造成了存储成本的显著提升;

5、3.直接es存储,检索受限于词语匹配,不能做到向量的联想和语义理解。


技术实现思路...

【技术保护点】

1.一种金融知识库构建时长文档的向量化表征方法,其特征是,具体包括如下步骤:

2.根据权利要求1所述的一种金融知识库构建时长文档的向量化表征方法,其特征是,在步骤(1)中,具体操作方法如下:

3.根据权利要求1所述的一种金融知识库构建时长文档的向量化表征方法,其特征是,在步骤(2)中,具体操作方法如下:

4.根据权利要求3所述的一种金融知识库构建时长文档的向量化表征方法,其特征是,在步骤(22)中,预处理的具体方法如下:由于sentence-transformerparaphrase-multilingual-mpnet-base-v2中包含很多语言,...

【技术特征摘要】

1.一种金融知识库构建时长文档的向量化表征方法,其特征是,具体包括如下步骤:

2.根据权利要求1所述的一种金融知识库构建时长文档的向量化表征方法,其特征是,在步骤(1)中,具体操作方法如下:

3.根据权利要求1所述的一种金融知识库构建时长文档的向量化表征方法,其特征是,在步骤(2)中,具体操作方法如下:

4.根据权利要求3所述的一种金融知识库构建时长文档的向量化表征方法,其特征是,在步骤(22)中,预处理的具体方法如下:由于sentence-transformerparaphrase-multilingual-mpnet-base-v2中包含很多语言,首先需要做词表裁剪,只保留训练集中存在的中文和原词表的英文,模型参数由2.78亿参数减小为1.37亿参数,并将模型称为lencoder;当使用in-batch的对比学习,还需要一个hard negative的样本,具体的做...

【专利技术属性】
技术研发人员:吴杨君方科彬金相宇赵瑶梁敏
申请(专利权)人:杭州易有料科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1