一种医疗咨询平台自检测系统及医疗咨询平台技术方案

技术编号:38043727 阅读:13 留言:0更新日期:2023-06-30 11:10
本发明专利技术涉及数字化医疗咨询领域,尤其涉及一种医疗咨询平台自检测系统及医疗咨询平台,本发明专利技术通过设置数据爬取模块、测试数据生成模块,数据爬取模块通过爬取医学文献数据构建医学语料数据库,结构生成单元通过马尔可夫模型生成符合自然语言逻辑的句子,并对应构建若干词性序列,对词性序列进行筛选后通过数据生成单元从医学语料数据库中筛选出符合已筛选词性序列的句子,并基于贝叶斯公式计算各句子的对应的后验概率分布参数,以获取符合自然语言逻辑但常规性较低的句子,在保证可靠性的前提下,提高测试语句诱导医疗咨询平台对话程序出现异常反馈的概率,快速发现医疗咨询平台运行中的错误反馈,提高检测的效率进而提高医疗咨询平台的可靠性。询平台的可靠性。询平台的可靠性。

【技术实现步骤摘要】
一种医疗咨询平台自检测系统及医疗咨询平台


[0001]本专利技术涉及数字化医疗咨询领域,尤其涉及一种医疗咨询平台自检测系统及医疗咨询平台。

技术介绍

[0002]随着人工智能技术的发展,人工智能已经被应用于各类领域,其中,人工智能技术在医疗行业迅速发展,各类用于医疗咨询的线上平台应运而生,该类线上平台能够基于自然语言模型自动生成回复信息,回复用户端对相关医疗知识的咨询。
[0003]例如,中国专利公开号:CN112417109A,公开了一种医疗咨询信息的推荐方法及系统,通过获取用户提供的咨询信息,咨询信息至少包括文本数据,并根据文本数据,确定对应的咨询问题类别;将文本数据输入自动识别模型中,得到文本数据中的目标数据;获取知识图谱数据库,根据目标数据和咨询问题类别,在知识图谱数据库中匹配对应的推荐信息,并将推荐信息返回给用户,以为用户就医提供便利,提高用户就医满意度。
[0004]但是,现有技术中还存在以下问题,现有技术中,相关人机对话式医疗咨询平台未针对医疗咨询平台设置自检测系统持续性的检测医疗咨询平台反馈至用户端的反馈数据,并且,若采用随机枚举的方式生成测试语句对医疗咨询平台的反馈数据进行检测则效率较低。

技术实现思路

[0005]为解决现有技术中,相关人机对话式医疗咨询平台未针对医疗咨询平台设置自检测系统持续性的检测医疗咨询平台反馈至用户端的反馈数据,并且,若采用随机枚举的方式生成测试语句对医疗咨询平台的反馈数据进行检测则效率较低的问题,本专利技术提供一种医疗咨询平台自检测系统,其包括:数据爬取模块,其内置爬虫程序,用以爬取文本数据构建医学语料数据库,所述文本数据为所述爬虫程序由开放医学文献数据库中爬取所得;测试数据生成模块,其与所述数据爬取模块连接,包括结构生成单元以及数据生成单元,所述结构生成单元用以基于马尔可夫模型根据所述医学语料数据库中存储的文本信息重新生成若干句子,获取并记录各所述句子的词性序列,将相同的词性序列归类后基于各类词性序列的出现概率对各所述词性序列进行筛选得到已筛选词性序列,其中,词性序列为若干词性代号按顺序组成的序列;所述数据生成单元用以从所述医学语料数据库中筛选出符合所述已筛选词性序列的句子,并计算各所述句子的后验概率分布参数,选取单次筛选中最小后验概率分布参数对应的句子作为测试语句,所述后验概率分布参数为基于单个句子中若干句子分段对应的后验概率参数计算所得;测试模块,其与所述测试数据生成模块以及医疗咨询平台连接,用以获取测试语
句并输入至所述医疗咨询平台的文本对话程序中,并接收所述文本对话程序返回的反馈文本信息。
[0006]进一步地,所述结构生成单元将相同的词性序列归类为一类,按照公式(1)计算各类词性序列的出现概率P,
ꢀꢀꢀ
(1),公式(1)中,Nm表示全部词性序列的总数,N表示单类词性序列的数量。
[0007]进一步地,所述结构生成单元基于各类词性序列的出现概率对各所述词性序列进行筛选,其中,若存在任一类词性序列的出现概率低于预设的概率阈值,则将该类词性序列筛选出,所述概率阈值为各类词性序列出现概率的平均值。
[0008]进一步地,所述结构生成单元获取各所述句子的词性序列,其中,所述结构生成单元将句子进行分词处理,得到若干关键词,并获取各所述关键词的词性类型,将关键词替换为与其词性类型关联的词性代号,以得到句子的词性序列。
[0009]进一步地,所述结构生成单元内存储有若干词性代号,各所述词性代号与不同的词性类型建立有关联关系。
[0010]进一步地,所述数据生成单元从所述医学语料数据库中筛选出符合所述已筛选词性序列的句子,其中,所述数据生成单元将医学语料数据库中各文本数据中的句子进行分词处理以获取各句子的词性序列,并将已获取的词性序列与所述已筛选词性序列进行对比,若存在已获取的词性序列与所述已筛选词性序列相同,则判定所述句子符合所述已筛选词性序列,并将所述句子从所述医学语料数据库中筛选出。
[0011]进一步地,所述数据生成单元基于所述医学语料数据库中的数据根据公式(2)计算已筛选出的句子中各句子分段对应的后验概率参数,
ꢀꢀꢀ
(2),公式(2)中,P(A)表示医学语料数据库中与所述句子词性序列相同的其他句子出现的概率,P(B)表示所述句子中单个句子分段在医学语料数据库中出现的概率,P(A|B)表示所述医学语料数据库中包含所述句子分段的句子符合所述词性序列的概率。
[0012]进一步地,所述数据生成单元根据公式(3)计算所述句子对应的后验概率分布参数PE,
ꢀꢀꢀ
(3),公式(3)中,nm表示所述句子中句子分段的数量,表示所述句子中第i个句子分段对应的后验概率参数。
[0013]进一步地,所述测试模块内还设置有语义分析模型,用以分析所述文本对话程序返回的反馈文本信息。
[0014]进一步地,本专利技术还提供一种医疗咨询平台,应用医疗咨询平台自检测系统,其包括:文本对话程序,其用以基于输入的文本信息输出反馈文本信息。
[0015]与现有技术相比,本专利技术通过设置数据爬取模块、测试数据生成模块,数据爬取模块通过爬取数据构建医学语料数据库,结构生成单元通过马尔可夫模型生成符合自然语言逻辑的句子,并对应构建若干词性序列,在对词性序列进行筛选后,通过数据生成单元从医学语料数据库中筛选出符合已筛选词性序列的句子,并基于贝叶斯公式和医学语料数据库中的数据计算各句子的对应的后验概率分布参数,以获取符合自然语言逻辑但常规性较低的句子,进而在保证可靠性的前提下,提高测试语句诱导医疗咨询平台对话程序出现异常反馈的概率,快速发现医疗咨询平台运行过程中的错误反馈,提高检测的效率,进而提高医疗咨询平台的可靠性。
[0016]尤其,本专利技术通过马尔科夫模型构建符合自然语言逻辑的句子,并生成各句子对应的词性序列,在实际情况中,直接爬取的医疗文献数据库中的文本数据并不能作为测试数据,通过上述过程能够获取若干符合逻辑词性序列,并且,还基于各类词性序列的出现概率进行筛选,筛选出现概率较低词性序列,为后续从庞大的医学语料数据库中筛选出可用以测试数据的句子提供数据支持,并且,选用出现概率较低词性序列对应的句子,提高测试语句诱导医疗咨询平台对话程序出现异常反馈的概率,快速发现医疗咨询平台运行过程中的错误反馈,进而提高医疗咨询平台的可靠性。
[0017]尤其,本专利技术通过贝叶斯算法计算所筛选句子的后验概率分布参数,所筛选的句子是基于词性序列筛选所得,其符合自然语言逻辑框架,但是,在实际情况中,需要筛选出非常规表达但符合自然语言逻辑框架的语句,通过这些语句进行测试更易引导医疗咨询平台对话程序出现异常反馈,因此,通过引入贝叶斯公式进行计算,贝叶斯公式能够通过先验概率计算后验概率,先验概率是指根据以往经验和分析得到的概率,在通信系统中往往基于自然状态的资料测定所得,例如,本实施例中基于医学语料数据库现有的数据求得的句子分段在医学语料数据库中出现的概率等参数,而后验概率在统计学中是指事件已经本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗咨询平台自检测系统,其特征在于,包括:数据爬取模块,其内置爬虫程序,用以爬取文本数据构建医学语料数据库,所述文本数据为所述爬虫程序由开放医学文献数据库中爬取所得;测试数据生成模块,其与所述数据爬取模块连接,包括结构生成单元以及数据生成单元,所述结构生成单元用以基于马尔可夫模型根据所述医学语料数据库中存储的文本信息重新生成若干句子,获取并记录各所述句子的词性序列,将相同的词性序列归类后基于各类词性序列的出现概率对各所述词性序列进行筛选得到已筛选词性序列,其中,词性序列为若干词性代号按顺序组成的序列;所述数据生成单元用以从所述医学语料数据库中筛选出符合所述已筛选词性序列的句子,并计算各所述句子的后验概率分布参数,选取单次筛选中最小后验概率分布参数对应的句子作为测试语句,所述后验概率分布参数为基于单个句子中若干句子分段对应的后验概率参数计算所得;测试模块,其与所述测试数据生成模块以及医疗咨询平台连接,用以获取测试语句并输入至所述医疗咨询平台的文本对话程序中,并接收所述文本对话程序返回的反馈文本信息。2.根据权利要求1所述的医疗咨询平台自检测系统,其特征在于,所述结构生成单元将相同的词性序列归类为一类,按照公式(1)计算各类词性序列的出现概率P,
ꢀꢀꢀ
(1),公式(1)中,Nm表示全部词性序列的总数,N表示单类词性序列的数量。3.根据权利要求2所述的医疗咨询平台自检测系统,其特征在于,所述结构生成单元基于各类词性序列的出现概率对各所述词性序列进行筛选,其中,若存在任一类词性序列的出现概率低于预设的概率阈值,则将该类词性序列筛选出,所述概率阈值为各类词性序列出现概率的平均值。4.根据权利要求1所述的医疗咨询平台自检测系统,其特征在于,所述结构生成单元获取各所述句子的词性序列,其中,所述结构生成单元将句子进行分词处理,得到若干关键词,并获取各所述关键词的词性类型,将关键词替换为与其词性类型...

【专利技术属性】
技术研发人员:吕文昊
申请(专利权)人:北京梆梆安全科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1