System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于医疗咨询,具体涉及一种基于医学文档的自动问答方法、系统、终端及存储介质。
技术介绍
1、gpt模型,全称为generative pre-trained transformer,是由openai团队开发的一种基于深度学习的自然语言处理模型。gpt模型通过无监督学习的方式对大规模文本进行学习和抽象概括,进而通过微调的方式用于各种特定的自然语言处理任务。其核心是transformer架构,这是一种用于序列建模的神经网络结构,与传统的循环神经网络(rnn)不同,transformer使用了自注意力机制,这使得模型可以更好地处理长序列,同时实现高效的并行计算,从而提高了模型的效率和性能。
2、在自动问答领域,常利用gpt模型生成答案文本。然而医学领域是一个专业知识密集,医学知识准确性要求高的领域。因此现有的基于gpt模型的自动问答方法无法达到医疗问答的准确性要求。
技术实现思路
1、针对现有技术的上述不足,本专利技术提供一种基于医学文档的自动问答方法、系统、终端及存储介质,以解决上述技术问题。
2、第一方面,本专利技术提供一种基于医学文档的自动问答方法,包括:
3、获取问题文本数据,从数据库调取与所述问题文本数据匹配的目标段落数据,所述数据库用于存储由医学文档划分出的段落数据;
4、利用多个语言模型分别基于目标段落数据生成多个候选答案;
5、将候选答案分割为逻辑句子集合,并对多个逻辑句子集合进行去重和融合处理,
6、将目标集合输入预训练语言模型,得到答案文本数据。
7、在一个可选的实施方式中,获取问题文本数据,从数据库调取与所述问题文本数据匹配的目标段落数据,所述数据库用于存储由医学文档划分出的段落数据,包括:
8、利用关键词提取技术从问题文本数据提取第一关键词组合,将所述第一关键词组转换为第一词向量;
9、计算所述第一词向量与段落数据的词向量的相似度,并将相似度达到预设的相似度阈值的段落数据输出为目标段落数据。
10、在一个可选的实施方式中,将候选答案分割为逻辑句子集合,并对多个逻辑句子集合进行去重和融合处理,得到目标集合,包括:
11、将候选答案按标点符号分割为句子;
12、将句子中的所有字符均通过词嵌入转化为句子向量;
13、利用深度神经网络模型将所述句子向量编码为具有上下文信息的向量表示方式;
14、将所述向量表示方式转换为bio标注格式,得到带有标签的逻辑句子;
15、将候选答案的所有逻辑句子保存为候选答案的逻辑句子集合;
16、对多个逻辑句子集合中的逻辑句子进行聚类处理,得到多个逻辑句子类别;
17、将同一逻辑句子类别中的完全相同的逻辑句子进行去重处理,保留多个相同逻辑句子中的一个逻辑句子并为保留的逻辑句子标记重复次数,删除其余重复的逻辑句子;
18、对同类逻辑句子进行冲突分析,对于存在冲突的多个逻辑句子,统计重复数量,采用重复数量较高的逻辑句子并舍弃重复数量较低的逻辑句子;
19、对经过冲突分析的同类逻辑句子进行合并,得到融合逻辑句子,将融合逻辑句子保存至目标集合。
20、在一个可选的实施方式中,所述方法还包括:
21、利用预训练的gpt模型基于目标段落数据,根据上下文补全问题文本数据;
22、利用bm25算法计算所述答案文本数据与补全后的问题文本数据的相关性;
23、若所述相关性达到设定的相关阈值,则采用所述答案文本数据;
24、若所述相关性未达到设定的相关阈值,则舍弃所述答案文本数据。
25、第二方面,本专利技术提供一种基于医学文档的自动问答系统,包括:
26、段落匹配模块,用于获取问题文本数据,从数据库调取与所述问题文本数据匹配的目标段落数据,所述数据库用于存储由医学文档划分出的段落数据;
27、多源处理模块,用于利用多个语言模型分别基于目标段落数据生成多个候选答案;
28、多源融合模块,用于将候选答案分割为逻辑句子集合,并对多个逻辑句子集合进行去重和融合处理,得到目标集合;
29、答案生成模块,用于将目标集合输入预训练语言模型,得到答案文本数据。
30、在一个可选的实施方式中,所述段落匹配模块包括:
31、特征提取单元,用于利用关键词提取技术从问题文本数据提取第一关键词组合,将所述第一关键词组转换为第一词向量;
32、特征比对单元,用于计算所述第一词向量与段落数据的词向量的相似度,并将相似度达到预设的相似度阈值的段落数据输出为目标段落数据。
33、在一个可选的实施方式中,所述多源融合模块包括:
34、答案分割单元,用于将候选答案按标点符号分割为句子;
35、向量转化单元,用于将句子中的所有字符均通过词嵌入转化为句子向量;
36、向量编码单元,用于利用深度神经网络模型将所述句子向量编码为具有上下文信息的向量表示方式;
37、标注生成单元,用于将所述向量表示方式转换为bio标注格式,得到带有标签的逻辑句子;
38、集合保存单元,用于将候选答案的所有逻辑句子保存为候选答案的逻辑句子集合;
39、聚类处理单元,用于对多个逻辑句子集合中的逻辑句子进行聚类处理,得到多个逻辑句子类别;
40、去重处理单元,用于将同一逻辑句子类别中的完全相同的逻辑句子进行去重处理,保留多个相同逻辑句子中的一个逻辑句子并为保留的逻辑句子标记重复次数,删除其余重复的逻辑句子;
41、冲突处理单元,用于对同类逻辑句子进行冲突分析,对于存在冲突的多个逻辑句子,统计重复数量,采用重复数量较高的逻辑句子并舍弃重复数量较低的逻辑句子;
42、合并处理单元,用于对经过冲突分析的同类逻辑句子进行合并,得到融合逻辑句子,将融合逻辑句子保存至目标集合。
43、在一个可选的实施方式中,所述系统还包括:
44、问题补全模块,用于利用预训练的gpt模型基于目标段落数据,根据上下文补全问题文本数据;
45、相关计算模块,用于利用bm25算法计算所述答案文本数据与补全后的问题文本数据的相关性;
46、答案采用模块,用于若所述相关性达到设定的相关阈值,则采用所述答案文本数据;
47、答案舍弃模块,用于若所述相关性未达到设定的相关阈值,则舍弃所述答案文本数据。
48、第三方面,提供一种终端,包括:
49、处理器、存储器,其中,
50、该存储器用于存储计算机程序,
51、该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
52、第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算本文档来自技高网...
【技术保护点】
1.一种基于医学文档的自动问答方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,获取问题文本数据,从数据库调取与所述问题文本数据匹配的目标段落数据,所述数据库用于存储由医学文档划分出的段落数据,包括:
3.根据权利要求1所述的方法,其特征在于,将候选答案分割为逻辑句子集合,并对多个逻辑句子集合进行去重和融合处理,得到目标集合,包括:
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
5.一种基于医学文档的自动问答系统,其特征在于,包括:
6.根据权利要求5所述的系统,其特征在于,所述段落匹配模块包括:
7.根据权利要求5所述的系统,其特征在于,所述多源融合模块包括:
8.根据权利要求5所述的系统,其特征在于,所述系统还包括:
9.一种终端,其特征在于,包括:
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述可读存储介质上存储有基于医学文档的自动问答程序,所述基于医学文档的自动问答程序被处理器执行时实现如权利要求1-4任一项所述基于
...【技术特征摘要】
1.一种基于医学文档的自动问答方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,获取问题文本数据,从数据库调取与所述问题文本数据匹配的目标段落数据,所述数据库用于存储由医学文档划分出的段落数据,包括:
3.根据权利要求1所述的方法,其特征在于,将候选答案分割为逻辑句子集合,并对多个逻辑句子集合进行去重和融合处理,得到目标集合,包括:
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
5.一种基于医学文档的自动问答系统,其特征在于,包...
【专利技术属性】
技术研发人员:王范冰,邓小宁,金剑,马杰,蔡卓人,
申请(专利权)人:北方健康医疗大数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。