当前位置: 首页 > 专利查询>瓯江实验室专利>正文

语料库处理方法、装置及设备制造方法及图纸

技术编号:42304908 阅读:27 留言:0更新日期:2024-08-14 15:51
本申请提供了一种语料库处理方法、装置及设备,涉及自然语言处理技术领域。包括:根据预设业务领域的关键字,从预设文档元数据库中进行采集,得到文档元数据,然后对文档元数据进行网络表示,得到文档元数据对应的引文图,最后采用预设最佳语料库确定算法,从引文图中确定目标语料库。本申请的方法,根据关键字,确定预设业务领域的文档元数据,由于文档元数据的数量众多,因此,对文档元数据进行网络表示构建得到引文图,最后采用预设最佳语料库确定算法,从中确定目标语料库,可得到预设数量的目标语料库,极大的减少了目标语料库的数量,且目标语料库为文档元数据中的核心文档,是可以代表预设业务领域的核心文档。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体而言,涉及一种语料库处理方法、装置及设备


技术介绍

1、大语言模型(large language models,llms)是一种在长文本上训练的自然语言处理(nlp)预测模型,旨在根据给定的提示或上下文理解生成类似人类的文本,这些模型基于深度学习多层网络。llms使用变换和前馈网络等深度学习架构来模拟上下文理解,具有多功能性并且只需少量学习即可,可以使用有限的标记数据进行训练,然而,llms通常缺乏可解释性,并且在培训和开发方面需要大量计算资源。微调llms是一项通用技术,可以利用预先训练的知识在特定领域或任务中做出更准确且与上下文相关的响应。

2、当前选择特定领域训练语料库的技术本质上是使用现有的手工策划语料库,或者通过某些正则表达式选择非常大的集合,例如使用系统评论或网络搜索工具。对于大多数领域,仍然需要进行一些二次筛选,并且基于简单的衡量标准,例如引用次数(出于学术目的)和网络点击量(网页上)。即使要求llms选择文件,仍然需要采取一定的质量衡量标准。然而,所有这些技术目前都存在过度拟合问题。在llms中本文档来自技高网...

【技术保护点】

1.一种语料库处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述采用预设最佳语料库确定算法,从所述引文图中确定目标语料库之后,还包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述预设业务领域的关键字,从预设文档元数据库中进行采集,得到文档元数据之前,还包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述文档元数据和所述初始文档元数据进行网络表示,得到所述文档元数据对应的引文图之前,还包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1-5任一项所述的...

【技术特征摘要】

1.一种语料库处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述采用预设最佳语料库确定算法,从所述引文图中确定目标语料库之后,还包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述预设业务领域的关键字,从预设文档元数据库中进行采集,得到文档元数据之前,还包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述文档元数据和所述初始文档元数据进行网络表示,得到所述文档元数据对应的引文图之前,还包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1-5任一项所述的方法,其特征在于,所述对所述文档元数据进行网...

【专利技术属性】
技术研发人员:肖永吉胡秋红刘鹤
申请(专利权)人:瓯江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1