语义识别方法、装置和语音对话系统制造方法及图纸

技术编号:22101967 阅读:37 留言:0更新日期:2019-09-14 03:21
本发明专利技术涉及一种语义识别方法、装置和语音对话系统,所述方法包括:将多条文本数据进行分词处理,并标注每个词语的属性信息,得到属性序列;对所述属性序列进行向量化处理,得到所述属性序列对应的词向量;将所述词向量和对应的所述多条文本数据的文本向量进行拼接,得到输入数据;将所述输入数据以及对应的语义输出结果,作为训练数据集进行训练,得到语义识别模型;根据输入文本信息和所述语义识别模型进行语义识别。本发明专利技术提升了对用户指令语义识别的精度,进而提升了用户体验。

Semantic Recognition Method, Device and Speech Dialogue System

【技术实现步骤摘要】
语义识别方法、装置和语音对话系统
本专利技术涉及人工智能
,尤其涉及一种语义识别方法、装置和语音对话系统。
技术介绍
近年来,语音识别、人机对话等技术迅猛发展,具体到汽车领域,通过车载语音对话系统,根据用户发出的语音消息,识别用户语义,然后根据用户语义,执行相应的操作。但是,现有的车载对话系统仅能识别一些简单的,包含属性较少的语音消息,例如,用户发出“我要开启空调”,车载语音对话系统可识别出用户想开空调的语义,输出语义识别结果,开启空调,对于用户发出的包含多种属性的语音消息,例如“我想听A歌手的B歌曲”,语音对话系统就无法准确预测出用户的语义,预测精度低,用户体验差。因此,如何提高用户语义预测的精度,进一步提升用户体验,成为亟待解决的技术问题。
技术实现思路
本专利技术所要解决的技术问题在于,提供一种语义识别方法、装置和语音对话系统,提升对用户指令语义识别的精度,进而提升用户体验。为了解决上述技术问题,根据本专利技术一方面,提供了一种语义识别方法,包括:将多条文本数据进行分词处理,并标注每个词语的属性信息,得到属性序列;对所述属性序列进行向量化处理,得到所述属性序列对应的词向量;将所述词向量和对应的所述多条文本数据的文本向量进行拼接,得到输入数据;将所述输入数据以及对应的语义输出结果,作为训练数据集进行训练,得到语义识别模型;根据输入文本信息和所述语义识别模型进行语义识别。进一步的,所述方法还包括:建立每个属性信息的文本文件,所述属性信息的文本文件用于存储该属性信息对应的词汇;将所有属性信息的文本文件进行合并,组成属性字典,所述属性字典中存储有属性信息与词语的映射关系表。进一步的,所述将多条文本数据进行分词处理,并标注每个词语的属性信息,得到属性序列,包括以下步骤:将每条文本数据进行粗粒度分词处理,根据所述属性信息与词语的映射关系表,标注每个粗粒度词语的属性信息;再将每个粗粒度词语进行细粒度分词处理,根据属性信息与词语的映射关系表,标注每个细粒度词语的属性信息,得到属性序列。进一步的,所述对所述属性序列进行向量化处理,得到所述属性序列对应的词向量,包括以下步骤;采用每个属性信息在所述属性字典中的位置索引,替代所述属性序列中的每个属性信息,得到属性序列的id化文件;将所述属性序列的id化文件转换为属性序列矩阵,其中,所述属性序列矩阵是维度为batch_size×max_length×property_vocab_size的矩阵,其中,batch_size代表当前训练的文本数据的条数,max_length代表当前训练的文本数据的最大长度,所述长度为文本数据分词后的词语个数,property_vocab_size代表属性信息的种类的总数量;将所述属性序列矩阵转换为词向量矩阵。进一步的,所述将所述属性序列的id化文件转换为属性序列矩阵包括以下步骤:根据当前训练的文本数据的最大长度,对所述属性序列的id化文件的每一位进行长度补齐;根据所述属性信息的种类的总数量,对所述属性序列的id化文件的每一位进行宽度补齐;其中,采用0元素进行长度补齐和宽度补齐。进一步的,所述将所述属性序列矩阵转换为词向量矩阵包括以下步骤:将所述属性序列矩阵中的每个元素除以该维度上非零元素的个数,得到矩阵M;构建一个维度为property_vocab_size×word_embedding_size的词向量矩阵W,其中,word_embedding_size表示单个属性信息对应的词向量的长度;将所述矩阵M进行维度转换得到(batch_size×max_length)×property_vocab_size的属性序列矩阵,然后乘以矩阵W,得到batch_size×max_length×word_embedding_size的词向量矩阵,再进行维度转换,得到维度为batch_size×max_length×word_embedding_size的词向量矩阵。进一步的,将所述词向量和对应的所述多条文本数据的文本向量进行拼接,得到输入数据,包括以下步骤:获取所述多条文本数据对应的word2vec文本向量矩阵,所述word2vec文本向量通过单独训练神经概率语言模型所得;将所述词向量矩阵和所述多条文本数据对应的word2vec文本向量矩阵进行拼接,得到所述输入数据。进一步的,所述方法还包括:将待训练的文本数据分为多批文本数据,每批文本数据包括多条文本数据;逐批训练所述文本数据,每批所述文本数据训练完成后更新所述语义识别模型。进一步的,所述方法还包括:更新所述属性字典信息,具体包括以下步骤:根据更新频率将所述属性信息分为静态属性数据和动态属性数据;根据应用需求定时更新所述静态属性数据;建立动态属性数据库,实时更新所述动态属性数据库,从而更新所述动态属性数据。进一步的,所述属性信息包括:音乐名称、音乐风格、音乐专辑名称、歌手名称、城市名称、街道名称、电视剧名称、电影名称、广播节目名称、机构名称中的一种或多种。根据本专利技术另一方面,提供了一种语义识别装置,包括:属性信息标注模块,用于将多条文本数据进行分词处理,并标注每个词语的属性信息,得到属性序列;向量化处理模块,用于对所述属性序列进行向量化处理,得到所述属性序列对应的词向量;输入数据获取模块,用于将所述词向量和对应的所述多条文本数据的文本向量进行拼接,得到输入数据;语义识别模型训练模块,用于将所述输入数据以及对应的语义输出结果,作为训练数据集进行训练,得到语义识别模型;语义识别模块,用于根据输入文本信息和所述语义识别模型进行语义识别。进一步的,所述装置还包括属性字典构建模块,用于:建立每个属性信息的文本文件,并将所有属性信息的文本文件进行合并,组成属性字典,其中,所述属性信息的文本文件用于存储该属性信息对应的词汇;所述属性字典中存储有属性信息与词语的映射关系表。进一步的,所述属性信息标注模块包括:第一分词标注单元,用于将每条文本数据进行粗粒度分词处理,根据所述属性信息与词语的映射关系表,标注每个粗粒度词语的属性信息;第二分词标注单元,用于将每个粗粒度词语进行细粒度分词处理,根据属性信息与词语的映射关系表,标注每个细粒度词语的属性信息,得到属性序列。进一步的,所述向量化处理模块包括:id化单元,用于采用每个属性信息在所述属性字典中的位置索引,替代所述属性序列中的每个属性信息,得到属性序列的id化文件;第一转换单元,用于将所述属性序列的id化文件转换为属性序列矩阵,其中,所述属性序列矩阵是维度为batch_size×max_length×property_vocab_size的矩阵,其中,batch_size代表当前训练的文本数据的条数,max_length代表当前训练的文本数据的最大长度,所述长度为文本数据分词后的词语个数,property_vocab_size代表属性信息的种类的总数量;第二转换单元,用于将所述属性序列矩阵转换为词向量矩阵。进一步的,所述第一转换单元包括:长度补齐子单元,用于根据当前训练的文本数据的最大长度,对所述属性序列的id化文件的每一位进行长度补齐;宽度补齐子单元,用于根据所述属性信息的种类的总数量,对所述属性序列的id化文件的每一位进行宽度补齐;其中,采用0元素进行长度补齐和宽度本文档来自技高网...

【技术保护点】
1.一种语义识别方法,其特征在于:所述方法包括:将多条文本数据进行分词处理,并标注每个词语的属性信息,得到属性序列;对所述属性序列进行向量化处理,得到所述属性序列对应的词向量;将所述词向量和对应的所述多条文本数据的文本向量进行拼接,得到输入数据;将所述输入数据以及对应的语义输出结果,作为训练数据集进行训练,得到语义识别模型;根据输入文本信息和所述语义识别模型进行语义识别。

【技术特征摘要】
1.一种语义识别方法,其特征在于:所述方法包括:将多条文本数据进行分词处理,并标注每个词语的属性信息,得到属性序列;对所述属性序列进行向量化处理,得到所述属性序列对应的词向量;将所述词向量和对应的所述多条文本数据的文本向量进行拼接,得到输入数据;将所述输入数据以及对应的语义输出结果,作为训练数据集进行训练,得到语义识别模型;根据输入文本信息和所述语义识别模型进行语义识别。2.根据权利要求1所述的语义识别方法,其特征在于:所述方法还包括:建立每个属性信息的文本文件,所述属性信息的文本文件用于存储该属性信息对应的词汇;将所有属性信息的文本文件进行合并,组成属性字典,所述属性字典中存储有属性信息与词语的映射关系表。3.根据权利要求2所述的语义识别方法,其特征在于:所述将多条文本数据进行分词处理,并标注每个词语的属性信息,得到属性序列,包括以下步骤:将每条文本数据进行粗粒度分词处理,根据所述属性信息与词语的映射关系表,标注每个粗粒度词语的属性信息;再将每个粗粒度词语进行细粒度分词处理,根据属性信息与词语的映射关系表,标注每个细粒度词语的属性信息,得到属性序列。4.根据权利要求2所述的语义识别方法,其特征在于:所述对所述属性序列进行向量化处理,得到所述属性序列对应的词向量,包括以下步骤;采用每个属性信息在所述属性字典中的位置索引,替代所述属性序列中的每个属性信息,得到属性序列的id化文件;将所述属性序列的id化文件转换为属性序列矩阵,其中,所述属性序列矩阵是维度为batch_size×max_length×property_vocab_size的矩阵,其中,batch_size代表当前训练的文本数据的条数,max_length代表当前训练的文本数据的最大长度,所述长度为文本数据分词后的词语个数,property_vocab_size代表属性信息的种类的总数量;将所述属性序列矩阵转换为词向量矩阵。5.根据权利要求4所述的语义识别方法,其特征在于:所述将所述属性序列的id化文件转换为属性序列矩阵包括以下步骤:根据当前训练的文本数据的最大长度,对所述属性序列的id化文件的每一位进行长度补齐;根据所述属性信息的种类的总数量,对所述属性序列的id化文件的每一位进行宽度补齐;其中,采用0元素进行长度补齐和宽度补齐。6.根据权利要求4所述的语义识别方法,其特征在于:所述将所述属性序列矩阵转换为词向量矩阵包括以下步骤:将所述属性序列矩阵中的每个元素除以该维度上非零元素的个数,得到矩阵M;构建一个维度为property_vocab_size×word_embedding_size的词向量矩阵W,其中,word_embedding_size表示单个属性信息对应的词向量的长度;将所述矩阵M进行维度转换得到(batch_size×max_length)×property_vocab_size的属性序列矩阵,然后乘以矩阵W,得到batch_size×max_length×word_embedding_size的词向量矩阵,再进行维度转换,得到维度为batch_size×max_length×word_embedding_size的词向量矩阵。7.根据权利要求1所述的语义识别方法,其特征在于:将所述词向量和对应的所述多条文本数据的文本向量进行拼接,得到输入数据,包括以下步骤:获取所述多条文本数据对应的word2vec文本向量矩阵,所述word2vec文本向量通过单独训练神经概率语言模型所得;将所述词向量矩阵和所述多条文本数据对应的word2vec文本向量矩阵进行拼接,得到所述输入数据。8.根据权利要求1所述的语义识别方法,其特征在于:所述方法还包括:将待训练的文本数据分为多批文本数据,每批文本数据包括多条文本数据;逐批训练所述文本数据,每批所述文本数据训练完成后更新所述语义识别模型。9.根据权利要求2所述的语义识别方法,其特征在于:所述方法还包括:更新所述属性字典信息,具体包括以下步骤:根据更新频率将所述属性信息分为静态属性数据和动态属性数据;根据应用需求定时更新所述静态属性数据;建立动态属性数据库,实时更新所述动态属性数据库,从而更新所述动态属性数据。10.根据权利要求1-9中任意一项所述的语义识别方法,其特征在于:所述属性信息包括:音乐名称、音乐风格、音乐专辑名称、歌手名称、城市名称、街道名称、电视剧名称、电影名称、广播节目名称、机构名称中的一种或多种。11.一种语义识别装置,其特征在于:所述装置包括:属性信息标注模块,用于将多条文本数据进行分词处理,并标注每个词语的属性信息,得到属性序列;向量化处理模块,用于对所述属性序列进行向量化处理,得到所述属性序列对应的词向量;输入数据获取模块,用于将所述词向量和对应的所述多条文本数据的文本向量进行拼接,得到输入数据;语义识别模型训练模块,用于将所述输入数据以及对应的语义输出结果,作为训练数据集进...

【专利技术属性】
技术研发人员:陈进段全盛周际马天泽先建波侯蔼玲
申请(专利权)人:蔚来汽车有限公司
类型:发明
国别省市:中国香港,81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1