【技术实现步骤摘要】
本专利技术涉及自然语言处理,具体而言,涉及一种语料库处理方法、装置及设备。
技术介绍
1、大语言模型(large language models,llms)是一种在长文本上训练的自然语言处理(nlp)预测模型,旨在根据给定的提示或上下文理解生成类似人类的文本,这些模型基于深度学习多层网络。llms使用变换和前馈网络等深度学习架构来模拟上下文理解,具有多功能性并且只需少量学习即可,可以使用有限的标记数据进行训练,然而,llms通常缺乏可解释性,并且在培训和开发方面需要大量计算资源。微调llms是一项通用技术,可以利用预先训练的知识在特定领域或任务中做出更准确且与上下文相关的响应。
2、当前选择特定领域训练语料库的技术本质上是使用现有的手工策划语料库,或者通过某些正则表达式选择非常大的集合,例如使用系统评论或网络搜索工具。对于大多数领域,仍然需要进行一些二次筛选,并且基于简单的衡量标准,例如引用次数(出于学术目的)和网络点击量(网页上)。即使要求llms选择文件,仍然需要采取一定的质量衡量标准。然而,所有这些技术目前都存在过度拟
...【技术保护点】
1.一种语料库处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述采用预设最佳语料库确定算法,从所述引文图中确定目标语料库之后,还包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述预设业务领域的关键字,从预设文档元数据库中进行采集,得到文档元数据之前,还包括:
4.根据权利要求3所述的方法,其特征在于,所述对所述文档元数据和所述初始文档元数据进行网络表示,得到所述文档元数据对应的引文图之前,还包括:
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
6.根据权利要
...【技术特征摘要】
1.一种语料库处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述采用预设最佳语料库确定算法,从所述引文图中确定目标语料库之后,还包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述预设业务领域的关键字,从预设文档元数据库中进行采集,得到文档元数据之前,还包括:
4.根据权利要求3所述的方法,其特征在于,所述对所述文档元数据和所述初始文档元数据进行网络表示,得到所述文档元数据对应的引文图之前,还包括:
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1-5任一项所述的方法,其特征在于,所述对所述文档元数据进行网...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。