一种护理用机器人的自然语言处理系统及其方法技术方案

技术编号:24942211 阅读:35 留言:0更新日期:2020-07-17 21:53
本发明专利技术公开了一种护理用机器人的自然语言处理系统及其方法,可以快速应用在Raspberry Pi、(Ubuntu)Linux和Mac OS X等多种系统上;结合实际情况设计了基于C/S架构的工作模式,服务器端负责运行模型,而终端设备只需运行语音交互模块和数据交换模块。此结构大大降低了终端设备的硬件成本,加速了程序的运行,有助于提高用户体验,且使用此机构开发可为后期拓展终端设备提供极大的便利。创新性地提出了基于子字信息的句向量语义计算模型,并通过维基百科数据对模型进行预训练得到了子字信息的向量化表示。可随时随地地为用户提供医护知识以及回答用户提出地健康问题。

【技术实现步骤摘要】
一种护理用机器人的自然语言处理系统及其方法
本专利技术属于自然语言处理领域,具体设计一种护理用机器人的自然语言处理系统及其方法。
技术介绍
NLP(NaturalLanguageProcessing)是人工智能(AI)的一个子领域。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。自然语言处理往往应用在智能问答领域,在随着人口增加,我国的医疗资源日益紧张,而医疗需求不断增长。利用人工智能辅助医生、提高医疗系统运转效率是发展的必由之路。医疗问答的具体定义是:用户(患者)提出具体的问题,系统通过人工智能技术向用户提供相应答案。医疗问答同时也能满足用户的泛医疗需求,即用户对医疗知识、日常保健等医疗健康知识的获取。医疗问答可以更加精准地满足用户的需求,而不需要用户从大量信息中进行筛选。现有的医疗问答技术方案主要有以下三种:1)基于信息抽取,通过信息抽取获取关键词,再进行排序。2)基于知识图谱,通过构建实体及其关系的知识图谱,在图谱上进行推理回答问题。3)基于深度学习。基于深度神经网络建模,计算问答匹配程度。上述方法均存在缺陷:基于信息抽取的方式只能匹配一些关键词,无法有效处理同义词、近义词,以及医疗术语的口语化表达,因此获得一种应用于医疗问答装置的护理用机器人的自然语言处理系统及其处理方法十分重要。
技术实现思路
本专利技术的目的是为了解决上述技术的不足而设计的一种护理用机器人的自然语言处理系统,包括:语音唤醒模块,利用特定的词语来进行唤醒,运行完整的自动语音识别来执行热词检测,从而使得系统在自动语音识别转录中获取特定的触发词;录音模块,用于在进行语音录制的同时,根据语音的特征判断是否结实语音;语音转写以及合成模块,根据语速、音调、音量、音频码率设置,将语音转写成文字形式;播放模块,将语音合成模块合成的语音进行转换播放。语音唤醒模块采用Snowboy可指定唤醒词检测引擎;录音模块能够特征提取、训练并使用分类器、语音分割和内容关系可视化工作,例如pyAudio软件;还包括跨平台的、可通过网络工作的声音服务,用以解决系统不兼容,例如pulseaudio。其中语音转写以及合成模块将转化成的文字形式进行数据分析处理,其中:数据来源部分,包括系统处理所需要的语言数据,由专业知识数据、日常数据以及生成数据;神经网络对话生成部分,利用分词工具进行分词,随后根据构建的日常对话数据生成句子;匹配问答部分,通过计算文本间的相似度可以实现对提问者的问题与问答库中的问题进行匹配,从而得到提问者可能想要的答案;匹配问答部分包括:词向量模型,对两个句子特征提取后得到向量进行向量积计算即可求得语义相似度;基于子字信息的句向量模型,对无法通过语义相似计算方法无法区别具有相同特征而序列不同的句子进行计算。数据包括:静态训练数据,包括日常聊天对话数据,医疗护理相关知识数据;动态预测数据,在问答服务系统存在着一些问题并没有答案,或者答案事件并没有发生,而这类问题是用户切实需要了解,并根据答案对做出未来规划的,以大规模、多种类的历史性数据进行学习,并对此事件未来的发生情况进行预测;动态爬取数据,对部分网络上已存在数据量大且格式较为固定的数据使用网络爬虫的方式获得,不将其添加入静态训练数据之中。根据上述技术方案,医护知识答案数据来源多样;基于计算文本语义句向量模型,预训练后优于传统词向量计算与对话生成模型;句向量模型可对未标注数据集进行无监督预训练,更改问答数据集方便,扩展性强对比于词向量模型,句向量模型会考虑n-gram,能够区别具有相同特征而序列不同的句子,回答准确率高;对比于生成模型,确保回答数据真实性,更适用于垂直领域;易并行、多核可拓展性强,运行效率高;基于C/S结构的模块化系统:模块封装,可移植性强,利于终端形式的拓展。另一方面,本专利技术还提出一种自然语言处理方法,采用4层长短期记忆网络并使用加权求和机制联系编码器和解码器,使用分词工具分词,随后进行词向量预训练,基于数据来源部分的数据集进行数据处理后进行训练得到神经网络对话生成模型。使用分词对句子进行分词,并使用预训练的词向量做词嵌入,可以得到句子的矩阵表示,即语义矩阵,对句子中所有向量进行均值处理、求和处理或取维度最大值。通过词频统计和低频过滤获得给定大小为W的词典,得到每个单词W∈{w1,w2,w3……ww}的向量表示,将该模型基于skipgram模型导出,通过对低频字符以n-grams模型进行过滤,得到大小为G的n-gram词典及其向量表示。对于词语C,其包含的n-gram为G∈{1,2,3……G},对其包含的所有n-gram的向量表示进行求和,对于词语C本身的向量表示为vc,由此获得评分函数,通过评分函数可以实现具有相同子字信息的词语进行参数共享,也可以实现稀有词语甚至是句子的向量化表示,通过模型得到句子的向量化表示后,对两个句子的向量进行向量积计算得到余弦相似度,从而确定句子间的语义相似度。本专利技术创造的优点或有益效果:本系统可以快速应用在RaspberryPi、(Ubuntu)Linux和MacOSX等多种系统上;结合实际情况设计了基于C/S架构的工作模式,服务器端负责运行模型,而终端设备只需运行语音交互模块和数据交换模块。此结构大大降低了终端设备的硬件成本,加速了程序的运行,有助于提高用户体验,且使用此机构开发可为后期拓展终端设备提供极大的便利。创新性地提出了基于子字信息的句向量语义计算模型,并通过维基百科数据对模型进行预训练得到了子字信息的向量化表示。可随时随地地为用户提供医护知识以及回答用户提出地健康问题。附图说明图1为系统结构示意图;图2为硬件结构示意图;图3为系统投入使用流程图;具体实施方式为了使本领域技术人员更好地理解本专利技术,从而对本专利技术要求保护的范围作出更清楚地限定,下面就本专利技术的某些具体实施例对本专利技术进行详细描述。需要说明的是,以下仅是本专利技术构思的某些具体实施方式仅是本专利技术的一部分实施例,其中对于相关结构的具体的直接的描述仅是为方便理解本专利技术,各具体特征并不当然、直接地限定本专利技术的实施范围。本领域技术人员在本专利技术构思的指导下所作的常规选择和替换,均应视为在本专利技术要求保护的范围内。问答系统是一个使用大量数据训练好的人工智能模型,用户在使用该系统时是将问题输入人工智能模型中,由模型产生答案。但在使用模型前需要先加载模型,而加载模型不仅需要较长的时间而且须有较大的内存空间,这将大大影响用户体验并增加设备成本,因此本专利技术采用C/S架构的思想,将模型运行在服务器上,用户端只负责与用户进行语音交互,所有用户提出的问题均交服务器端处理后再将答案返还给用户端。使用此方式可大大降低用户端的运行负荷,加快程序响应速度,增强用户体验。图1为系统结构示意图。服务器与嵌入式用户端之间使用http协议进行通讯,问题和答案均以文本的形式传送。当服务器检测到用户端的Post请求后,获取请求中包含本文档来自技高网...

【技术保护点】
1.一种护理用机器人的自然语言处理系统,其特征在于:包括:/n数据来源部分,包括系统处理所需要的语言数据,由医疗护理专业知识数据、日常数据以及生成数据;/n神经网络对话生成部分,利用分词工具进行分词,随后根据构建的日常对话数据生成句子;/n匹配问答部分,通过计算文本间的相似度可以实现对提问者的问题与问答库中的问题进行匹配,从而得到提问者可能想要的答案。/n

【技术特征摘要】
1.一种护理用机器人的自然语言处理系统,其特征在于:包括:
数据来源部分,包括系统处理所需要的语言数据,由医疗护理专业知识数据、日常数据以及生成数据;
神经网络对话生成部分,利用分词工具进行分词,随后根据构建的日常对话数据生成句子;
匹配问答部分,通过计算文本间的相似度可以实现对提问者的问题与问答库中的问题进行匹配,从而得到提问者可能想要的答案。


2.根据权利要求1所述的护理用机器人的自然语言处理系统,其特征在于:所述数据包括:
静态训练数据,包括日常聊天对话数据,医疗护理知识数据;
动态预测数据,在问答服务系统存在着一些问题并没有答案,或者答案事件并没有发生,而这类问题是用户切实需要了解,并根据答案对做出未来规划的,以大规模、多种类的历史性数据进行学习,并对此事件未来的发生情况进行预测;
动态爬取数据,对部分网络上已存在数据量大且格式较为固定的数据使用网络爬虫的方式获得,不将其添加入静态训练数据之中。


3.根据权利要求1所述的护理用机器人的自然语言处理系统,其特征在于:还包括:
匹配问答部分包括:
词向量模型,对两个句子特征提取后得到向量进行向量积计算即可求得语义相似度;
基于子字信息的句向量模型,对无法通过语义相似计算方法无法区别具有相同特征而序列不同的句子进行计算。


4.根据权利要求1所述的护理用机器人的自然语言处理系统,其特征在于:还包括:
语音唤醒模块,利用特定的词语来进行唤醒,运行完整的自动语音识别来执行热词检测,从而使得系统在自动语音识别转录中获取特定的触发词;
录音模块,用于在进行语音录制的同时,根据语音的特征判断是否结实语音;
语音转写以及合成模块,根据语速、音调、音量、音频码率设置,将语音转写成文字形式;。


5.根据权利要求...

【专利技术属性】
技术研发人员:虎婕路祥毅楚淑娴杨静肖琬
申请(专利权)人:郑州大学第一附属医院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1