System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向司法考试领域的问答系统、其数据处理方法及终端技术方案_技高网

面向司法考试领域的问答系统、其数据处理方法及终端技术方案

技术编号:40140828 阅读:4 留言:0更新日期:2024-01-23 23:35
本发明专利技术公开了一种面向司法考试领域的问答系统的数据处理方法,方法包括:将教材、主观题、客观题以及法条对应的数据整理成文本文档,并对文本文档进行处理形成对应的数据集;将文本文档采用文本向量模型进行向量化得到向量集合,将向量和对应的信息存入相应的知识库;将问题采用文本向量模型进行向量化得到问题向量,采用余弦相似度计算问题向量分别与向量集合中的每个向量的相似程度,采用BM25算法计算问题与数据集的段落的相关性,把相似程度和相关性相乘得到问题和文档的综合相关性;将召回内容和提示词整合形成大型语言模型的输入,然后得到输出作为问题对应的答案。该方法能准确找到问题的答案,回答准确率高、灵活度高。

【技术实现步骤摘要】

本专利技术涉及在线教育,具体涉及一种面向司法考试领域的问答系统、其数据处理方法、终端及介质。


技术介绍

1、司法考试是一项难度特别高的考试,在司法考试在线教育领域,存在着许多学员学不懂,存在疑问,而专业老师又无法做到及时一对一的解答,此时开发一个面向司法考试的问答系统是非常有必要的,能够实时解答学员的疑问。

2、现有技术存在的问答系统不灵活,准确率不高,无法做到精准回答,依赖于问答库的丰富度等问题:

3、例如:专利公开号为cn113326364a公开的一种基于意图识别及孪生网络的中文法律问答系统,该专利申请提出利用bert预训练语言模型对法律问题进行向量化,然后将用户提出的问题与问题库中对应的向量分别进行余弦相似度计算,选取最相似的问题对应的答案作为用户输入问题的答案进行返回。该方法一方面依赖于收集的问题库的丰富度,如果不够丰富,那么会存在用户的提问在问题库中匹配不到的情况,从而出现答非所问的现象,另一方面针对不同的问题,存在总是回答同样的答案的问题。

4、例如:专利公开号为cn111400453a公开的一种基于法律咨询的智能交互系统及方法,该专利申请提出一种先对用户输入的法律咨询信息进行语法转换,再对语法转换后的法律咨询信息进行意图识别,最后根据意图类别,选择对应的数据库,进行匹配查找相关的问题,然后汇总进行回答。此类方法准确率较低,无法找出精准的找出对应的问题,只能从众多问题答案汇总后输出,并且回答的灵活度较低。


技术实现思路

1、针对现有技术中的缺陷,本专利技术提供的一种面向司法考试领域的问答系统、其数据处理方法、终端及介质,能对学员提出的司法考试领域问题进行准确回答,回答灵活度高。

2、第一方面,本专利技术实施例提供的一种面向司法考试领域的问答系统的数据处理方法,包括:

3、将司法考试教材、主观题、客观题以及法条对应的数据整理成文本文档,并对文本文档进行处理形成对应的数据集;

4、将所述文本文档采用文本向量模型进行向量化得到向量集合,向量集合包括段落向量、客观题题干向量、主观题题干和问题的共同向量和法条名称和内容的向量,将所述向量和对应的信息存入相应的知识库;

5、获取用户输入的问题,将问题采用文本向量模型进行向量化得到问题向量,采用余弦相似度计算问题向量分别与向量集合中的每个向量的相似程度,将教材、客观题、主观题和法条中的法律领域的词汇整理出来形成法律词典加入到jieba分词的自定义词典中,采用bm25算法计算问题与数据集的段落的相关性,把所述相似程度和相关性相乘得到问题和文档的综合相关性;

6、将所述综合相关性与设定阈值进行比较,若大于,则召回文档,将若干个召回文档形成召回文档集合,根据召回文档中的内容不同采用不同的召回策略得到召回内容集合;

7、将召回内容集合与提示词整合形成大型语言模型的输入内容,将所述输入内容输入到大型语言模型,大型语言模型根据提供的输入内容和问题生成对应的答案。

8、第二方面,本专利技术实施例提供的一种面向司法考试领域的问答系统,包括数据集模块、知识库构建模块、搜索引擎模块、内容召回模块和大型语言模型模块;

9、所述数据集模块将司法考试教材、主观题、客观题以及法条对应的数据整理成文本文档,并对文本文档进行处理形成对应的数据集;

10、所述知识库构建模块将文本文档采用文本向量模型进行向量化得到向量集合,向量集合包括段落向量、客观题题干向量、主观题题干和问题的共同向量和法条名称和内容的向量,将所述向量和对应的信息存入相应的知识库;

11、所述搜索引擎模块获取用户输入的问题,将问题采用文本向量模型进行向量化得到问题向量,采用余弦相似度计算问题向量分别与向量集合中的每个向量的相似程度,将教材、客观题、主观题和法条中的法律领域的词汇整理出来加入到jieba分词的自定义词典中,采用bm25算法计算问题与数据集的段落的相关性,把所述相似程度和相关性相乘得到综合相关性;

12、所述内容召回模块用于将所述综合相关性与设定阈值进行比较,若大于,则召回文档,将若干个召回文档形成召回文档集合,根据召回文档中的内容不同采用不同的召回策略得到召回内容集合;

13、所述大型语言模型模块用于将召回内容集合与提示词整合形成大型语言模型的输入内容,将所述输入内容输入到大型语言模型,大型语言模型根据提供的输入内容和问题生成对应的答案。

14、第三方面,本专利技术实施例提供的一种智能终端,包括处理器、输入设备、输出设备和存储器,所述处理器分别与输入设备、输出设备和存储器连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述实施例描述的方法。

15、第四方面,本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。

16、本专利技术的有益效果:

17、本专利技术实施例提供的一种面向司法考试领域的问答系统的数据处理方法,通过将大型语言模型和向量数据库结合,同时结合改进后的bm25算法和向量搜索引擎根据用户不同的问题采用不同的搜索策略进行精准搜索,找出原文中和学员提问最相关的内容片段,采用特定的提示词,交由大型语言模型进行处理,大型语言模型一方面会过滤不相关的内容,另一方面会针对不同的提问语气和方式进行灵活作答,因此,该数据处理方法能准确找到问题的答案,回答准确率高、灵活度高。

18、本专利技术实施例提供的一种面向司法考试领域的问答系统,将大型语言模型和向量数据库结合,同时结合改进后的bm25算法和向量搜索引擎根据用户不同的问题采用不同的搜索策略进行精准搜索,找出原文中和学员提问最相关的内容片段,采用特定的提示词,交由大型语言模型进行处理,大型语言模型一方面会过滤不相关的内容,另一方面会针对不同的提问语气和方式进行灵活作答,该系统具有回答准确率高、灵活度高的优点。

19、本专利技术实施例提供一种智能终端和计算机可读存储介质,与上述面向司法考试领域的问答系统的数据处理方法出于相同的专利技术构思,具有相同的有益效果。

本文档来自技高网...

【技术保护点】

1.一种面向司法考试领域的问答系统的数据处理方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述,根据召回文档中的内容不同采用不同的召回策略得到召回内容集合的具体方法包括:

3.如权利要求2所述的方法,其特征在于,所述将召回内容集合与提示词整合形成大型语言模型的输入内容的具体方法包括:

4.如权利要求1所述的方法,其特征在于,所述文本向量模型为text-embedding-ada-002。

5.一种面向司法考试领域的问答系统,其特征在于,包括数据集模块、知识库构建模块、搜索引擎模块、内容召回模块和大型语言模型模块;

6.如权利要求5所述的系统,其特征在于,所述内容召回模块包括内容集合生成单元,所述内容集合生成单元用于将召回文档集合按照综合相关性降序排列;

7.如权利要求6所述的系统,其特征在于,所述大型语言模型模块包括整合单元,所述整合单元用于在召回内容集合中取出前K个文档,K为整数,使得K个文档的长度不超过大型语言模型的上下文处理限度,将前K个文档拼接后作为上下文拼接到提示词中,将上下文和问题拼接到提示词中形成大型语言模型的输入内容。

8.如权利要求5所述的系统,其特征在于,所述文本向量模型为text-embedding-ada-002。

9.一种智能终端,包括处理器、输入设备、输出设备和存储器,所述处理器分别与输入设备、输出设备和存储器连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,其特征在于,所述处理器被配置用于调用所述程序指令,执行如权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-4任一项所述的方法。

...

【技术特征摘要】

1.一种面向司法考试领域的问答系统的数据处理方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述,根据召回文档中的内容不同采用不同的召回策略得到召回内容集合的具体方法包括:

3.如权利要求2所述的方法,其特征在于,所述将召回内容集合与提示词整合形成大型语言模型的输入内容的具体方法包括:

4.如权利要求1所述的方法,其特征在于,所述文本向量模型为text-embedding-ada-002。

5.一种面向司法考试领域的问答系统,其特征在于,包括数据集模块、知识库构建模块、搜索引擎模块、内容召回模块和大型语言模型模块;

6.如权利要求5所述的系统,其特征在于,所述内容召回模块包括内容集合生成单元,所述内容集合生成单元用于将召回文档集合按照综合相关性降序排列;

7.如权利要求6所述的系统,其特征在于,所述大型语言模型模块...

【专利技术属性】
技术研发人员:陈旭阳杨旭川刘琛
申请(专利权)人:重庆觉晓科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1