【技术实现步骤摘要】
本申请涉及计算机,特别涉及数据处理方法。本申请同时涉及数据处理装置,一种计算设备,一种计算机可读存储介质以及计算机程序产品。
技术介绍
1、在问答业务场景中,系统会根据问题从多个数据源中召回相关文本,包括网站、文档、系统内部的知识库等,这些文本数据的数据量极大,来源多样,内容复杂,给问答系统的准确性和效率带来了挑战。传统的处理方法包括简单的文本合并或基于规则的过滤机制,但这些方法往往不能很好的平衡信息的全面性和问答的质量。
2、为了解决上述问题,目前的实现方法通常是增强语言模型的文本理解能力,或优化文本召回和筛选的策略来提升性能,例如设计更复杂的文本表示技术、使用新的文本排名算法等等,但是这些方法虽然各自在处理多源文本数据和提升问答系统性能方法有显著贡献,但是也存在着资源消耗过大、模型泛化能力有限、准确性局限、信息丢失等问题。因此,技术人员亟需提供一种更加准确、有效,且资源消耗较少的问答处理方法。
技术实现思路
1、有鉴于此,本申请实施例提供了数据处理方法。本申请同时涉及数据处
...【技术保护点】
1.一种数据处理方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,获取待处理问题,以及所述待处理问题对应的至少一个待处理文本,包括:
3.如权利要求2所述的方法,其特征在于,获得至少一个索引源返回的至少一个待处理文本,包括:
4.如权利要求1所述的方法,其特征在于,将所述待处理问题和各待处理文本输入至第一语言模型,包括:
5.如权利要求1所述的方法,其特征在于,将所述待处理问题和各待处理文本片段输入至第二大语言模型,包括:
6.如权利要求5所述的方法,其特征在于,拼接各待处理文本片段,获得待识
...【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,获取待处理问题,以及所述待处理问题对应的至少一个待处理文本,包括:
3.如权利要求2所述的方法,其特征在于,获得至少一个索引源返回的至少一个待处理文本,包括:
4.如权利要求1所述的方法,其特征在于,将所述待处理问题和各待处理文本输入至第一语言模型,包括:
5.如权利要求1所述的方法,其特征在于,将所述待处理问题和各待处理文本片段输入至第二大语言模型,包括:
6.如权利要求5所述的方法,其特征在于,拼接各待处理文本片段,获得待识别文本,包括:
7.如权利要求6所述的方法,其特征在于,对各待处理文本片段进行数据清洗,获得各待处理文本片段对应的预处理文本片段,包...
【专利技术属性】
技术研发人员:梁源,崔恒斌,
申请(专利权)人:无限光年上海技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。