一种对话系统语义分析方法、系统、电子装置及存储介质制造方法及图纸

技术编号:32270748 阅读:36 留言:0更新日期:2022-02-12 19:34
本发明专利技术公开了一种对话系统语义分析方法、系统、电子装置及存储介质,所述方法包括步骤a.获取对话数据,并进行预处理得到待训练的语料信息;步骤b.采用所述待训练的语料信息训练word2vec模型;步骤c.基于所述word2vec模型构建语义分析模型;步骤d.将待分析语料信息输入至所述语义分析模型中,所述语义分析模型包括word2vec嵌入层、BiLSTM层、CDW层和线性分类层。本发明专利技术提供了一种对话系统语义分析方法、系统、电子装置及存储介质,能够简单高效地区分用户语义,提供准确语义信息,为智能对话系统的下一步行为提供可靠的指导。统的下一步行为提供可靠的指导。统的下一步行为提供可靠的指导。

【技术实现步骤摘要】
一种对话系统语义分析方法、系统、电子装置及存储介质


[0001]本专利技术涉及人工智能领域,特别是一种对话系统语义分析方法、系统、电子装置及存储介质。

技术介绍

[0002]在智能对话系统中,语义分析结果影响着智能对话的下一步状态,因此,分析用户对话信息的正确语义至关重要。例如:在智能医疗对话系统中,语义分析结果为用户的主动问询,对应智能对话的下一步状态则为回答用户的问题;语义分析结果为用户的被动回答,对应智能对话的下一步状态则为进行症状/疾病的总结,或者进一步提供准确的治疗/检查建议等。
[0003]一般情况下,用户的对话语义可以用是否为问句进行区分,主动问询为问句,被动回答为陈述句。但是,由于中文对话的特殊性,一般难以简单地用是否为问句来区分用户的语义。例如:“我要咨询XX疾病的症状”,其句式为陈述句,但实际上属于用户的主动问询。
[0004]现有技术中,采用规则模板方法或者机器学习方法进行句式匹配,来简单地区分用户的语义。但是,两种方式只能区分用户对话语句是否为问句,对于用户的陈述句问询语句,就无法正确区分用户语义;并且准确率较低,无法针对智能对话系统提供可靠的语义指导。

技术实现思路

[0005]本专利技术的主要目的在于提供了一种对话系统语义分析方法、系统、电子装置及存储介质,能够简单高效地区分用户语义,提供准确语义信息,为智能对话系统的下一步行为提供可靠的指导。
[0006]为实现上述目的,本专利技术提供了一种对话系统语义分析方法,其包括以下步骤:步骤a.获取对话数据,并进行预处理得到待训练的语料信息;步骤b.采用所述待训练的语料信息训练word2vec模型;步骤c.基于所述word2vec模型构建语义分析模型;步骤d.将待分析语料信息输入至所述语义分析模型中,所述语义分析模型包括word2vec嵌入层、BiLSTM层、CDW层和线性分类层;具体语义分析过程包括如下步骤:d1.所述word2vec嵌入层提取所述待分析语料信息的词向量信息,所述BiLSTM层用于获取待分析语料的上下文信息;d2.所述CDW层根据所述待分析语料的词向量信息和上下文信息获取所述待分析语料的语义信息;d3.所述线性分类层根据所述语义信息进行分类,得到二分类结果1或0作为语义分析结果,其中1代表主动问询,0代表被动回答。
[0007]可选的,所述预处理包括去除停用词、去除无用字符和去除表情符号。
[0008]可选的,所述步骤b包括如下步骤:b1.采用NER算法对预处理后的所述待训练的语料信息进行实体识别,确定所述待训练的语料信息中所包含的实体;b2.采用Jieba分词对预处理后的所述语料信息进行分词,并统计分词结果的词频T;b3.将分词结果中未识别出的实体进行手动合并,并保留;b4.采用Gensim包训练并保存word2vec模型。
[0009]可选的,所述步骤b中,仅针对所述词频T≥5的分词结果进行训练。
[0010]可选的,所述语义分析模型还包括Dropout层和LayerNorm层;所述待分析语料信息依次经过word2vec嵌入层、Dropout层、BiLSTM层、LayerNorm层、CDW层和线性分类层。
[0011]可选的,所述步骤d2,具体包括如下步骤:
[0012]d21.计算每个字的第一权重u
it

[0013]u
it
=tanh(W
w
h
it
+b
w
);
[0014]其中,i表示第i句话,t表示第i句话中的第t个字符,h
it
为第i句话中的第t个字符经过所述LayerNorm层后的输出,W
w
为h
it
对应的权重,b
w
为h
it
对应的偏置;
[0015]d22.计算每个字与中心词的距离关系SRD
it

[0016][0017]其中,P
a
为所述中心词的位置,所述中心词为第i句中所包含的症状、疾病或检查实体其中之一,m为阈值;
[0018]d23.基于阈值参数σ和每个字与中心词的距离关系SRD
it
,得到每个字的第二权重u
it


[0019][0020]其中,n为第i句的句子长度;
[0021]d24.计算整个句子的特征向量s
i

[0022][0023]其中,θ
it
为第i句话中的第t个字符对于语义信息的贡献程度;
[0024]d25.根据所述整个句子的特征向量s
i
,得到二分类结果,1代表为主动问询,0代表被动回答。
[0025]可选的,所述阈值m为10,所述阈值参数σ为5。
[0026]此外,与所述对话系统语义分析方法相对应的,一种语义分析系统,所述系统包括文本获取模块,获取对话数据,并进行预处理得到待训练的语料信息;
[0027]模型训练模块,采用所述待训练的语料信息训练word2vec模型;
[0028]语义分析模型构建模块,基于所述word2vec模型构建语义分析模型;
[0029]语义分析模块,将待分析语料信息输入至所述语义分析模型中,所述语义分析模型包括word2vec嵌入层、BiLSTM层、CDW层和线性分类层所述word2vec嵌入层提取所述待分析语料信息的词向量信息,所述BiLSTM层用于获取待分析语料的上下文信息;所述CDW层根据所述待分析语料的词向量信息和上下文信息获取所述待分析语料的语义信息;所述线性分类层根据所述语义信息进行分类,得到二分类结果1或0作为语义分析结果,其中1代表主动问询,0代表被动回答。
[0030]以及,与所述对话系统语义分析方法相对应的,一种语义分析系统,所述系统包括至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的对话系统语义分析方法。
[0031]本专利技术还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现所述的对话系统语义分析方法。
[0032]本专利技术的有益效果是:
[0033](1)本专利技术通过语义分析模型,能够简单高效地区分用户语义,正确区分用户的主动问询与被动回答,提供准确语义信息,根据语义分析结果为智能对话系统的下一步行为提供可靠的指导;
[0034](2)本专利技术通过语义分析模型得到用户语义分析结果后,智能对话系统可以根据此结果进行对话流程设计,以此来提高对话系统的流畅性和专业性;
[0035](3)本专利技术通过采用NER算法与Jieba相结合的方法进行分词,避免了常见的分词工具无法很好地对特定领域(例如医疗领域)中出现的实体内容进行正确分词的情况;并且,采用NER算法与Jieb本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话系统语义分析方法,其特征在于,包括以下步骤:步骤a.获取对话数据,并进行预处理得到待训练的语料信息;步骤b.采用所述待训练的语料信息训练word2vec模型;步骤c.基于所述word2vec模型构建语义分析模型;步骤d.将待分析语料信息输入至所述语义分析模型中,所述语义分析模型包括word2vec嵌入层、BiLSTM层、CDW层和线性分类层;具体语义分析过程包括如下步骤:d1.所述word2vec嵌入层提取所述待分析语料信息的词向量信息,所述BiLSTM层用于获取待分析语料的上下文信息;d2.所述CDW层根据所述待分析语料的词向量信息和上下文信息获取所述待分析语料的语义信息;d3.所述线性分类层根据所述语义信息进行分类,得到二分类结果1或0作为语义分析结果,其中1代表主动问询,0代表被动回答。2.根据权利要求1所述的一种对话系统语义分析方法,其特征在于:所述预处理包括去除停用词、去除无用字符和去除表情符号。3.根据权利要求1所述的一种对话系统语义分析方法,其特征在于:所述步骤b包括如下步骤:b1.采用NER算法对预处理后的所述待训练的语料信息进行实体识别,确定所述待训练的语料信息中所包含的实体;b2.采用Jieba分词对预处理后的所述语料信息进行分词,并统计分词结果的词频T;b3.将分词结果中未识别出的实体进行手动合并,并保留;b4.采用Gensim包训练并保存word2vec模型。4.根据权利要求3所述的一种对话系统语义分析方法,其特征在于:所述步骤b中,仅针对所述词频T≥5的分词结果进行训练。5.根据权利要求1所述的一种对话系统语义分析方法,其特征在于:所述语义分析模型还包括Dropout层和LayerNorm层;所述待分析语料信息依次经过word2vec嵌入层、Dropout层、BiLSTM层、LayerNorm层、CDW层和线性分类层。6.根据权利要求5所述的一种对话系统语义分析方法,其特征在于:所述步骤d2,具体包括如下步骤:d21.计算每个字的第一权重u
it
,u
it
=tanh(W
w
h
it
+b
w
);其中,i表示第i句话,t表示第i句话中的第t个字符,h
it
为第i句话中的第t个字符经过所述LayerNorm层后的输出,W

【专利技术属性】
技术研发人员:江豪肖龙源李稀敏李威
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1