【技术实现步骤摘要】
本专利技术涉及数据库处理相关,尤其是指一种金融知识库构建时长文档的向量化表征方法。
技术介绍
1、金融领域知识库的构建(如图3所示),主要是媒体文件的处理,如文档、ppt、视频文件、log日志等文档,这些文档都有一个特点:一般字数很多,少则几百字,长的会有几千甚至上万字。如何合理把这些文档存入知识向量数据库中,并能轻松的检索到相关数据无疑是一个极具挑战性的问题。
2、现有的主流做法是将文档按照固定长度,如512做chunk切片,或是切分成句子,通过调用向量化模型如sentence-transformer来表征这些向量;亦或者用es取存储并检索对应的文档内容。这些做法的优势是算法简单,但缺点也很明显:
3、1.按固定为chunk切分过于粗暴,往往chunk的开头或结尾不完整,这造成语义信息的损失;
4、2.按照句子切分过细,每篇文档会被切分成很多的向量,这就造成了存储成本的显著提升;
5、3.直接es存储,检索受限于词语匹配,不能做到向量的联想和语义理解。
技术实
...【技术保护点】
1.一种金融知识库构建时长文档的向量化表征方法,其特征是,具体包括如下步骤:
2.根据权利要求1所述的一种金融知识库构建时长文档的向量化表征方法,其特征是,在步骤(1)中,具体操作方法如下:
3.根据权利要求1所述的一种金融知识库构建时长文档的向量化表征方法,其特征是,在步骤(2)中,具体操作方法如下:
4.根据权利要求3所述的一种金融知识库构建时长文档的向量化表征方法,其特征是,在步骤(22)中,预处理的具体方法如下:由于sentence-transformerparaphrase-multilingual-mpnet-base-
...【技术特征摘要】
1.一种金融知识库构建时长文档的向量化表征方法,其特征是,具体包括如下步骤:
2.根据权利要求1所述的一种金融知识库构建时长文档的向量化表征方法,其特征是,在步骤(1)中,具体操作方法如下:
3.根据权利要求1所述的一种金融知识库构建时长文档的向量化表征方法,其特征是,在步骤(2)中,具体操作方法如下:
4.根据权利要求3所述的一种金融知识库构建时长文档的向量化表征方法,其特征是,在步骤(22)中,预处理的具体方法如下:由于sentence-transformerparaphrase-multilingual-mpnet-base-v2中包含很多语言,首先需要做词表裁剪,只保留训练集中存在的中文和原词表的英文,模型参数由2.78亿参数减小为1.37亿参数,并将模型称为lencoder;当使用in-batch的对比学习,还需要一个hard negative的样本,具体的做...
【专利技术属性】
技术研发人员:吴杨君,方科彬,金相宇,赵瑶,梁敏,
申请(专利权)人:杭州易有料科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。