语义识别方法、装置和语音对话系统制造方法及图纸

技术编号：22101967 阅读：37 留言：0更新日期：2019-09-14 03:21

本发明专利技术涉及一种语义识别方法、装置和语音对话系统，所述方法包括:将多条文本数据进行分词处理，并标注每个词语的属性信息，得到属性序列；对所述属性序列进行向量化处理，得到所述属性序列对应的词向量；将所述词向量和对应的所述多条文本数据的文本向量进行拼接，得到输入数据；将所述输入数据以及对应的语义输出结果，作为训练数据集进行训练，得到语义识别模型；根据输入文本信息和所述语义识别模型进行语义识别。本发明专利技术提升了对用户指令语义识别的精度，进而提升了用户体验。

Semantic Recognition Method, Device and Speech Dialogue System

全部详细技术资料下载

【技术实现步骤摘要】
语义识别方法、装置和语音对话系统
本专利技术涉及人工智能
，尤其涉及一种语义识别方法、装置和语音对话系统。
技术介绍
近年来，语音识别、人机对话等技术迅猛发展，具体到汽车领域，通过车载语音对话系统，根据用户发出的语音消息，识别用户语义，然后根据用户语义，执行相应的操作。但是，现有的车载对话系统仅能识别一些简单的，包含属性较少的语音消息，例如，用户发出“我要开启空调”，车载语音对话系统可识别出用户想开空调的语义，输出语义识别结果，开启空调，对于用户发出的包含多种属性的语音消息，例如“我想听A歌手的B歌曲”，语音对话系统就无法准确预测出用户的语义，预测精度低，用户体验差。因此，如何提高用户语义预测的精度，进一步提升用户体验，成为亟待解决的技术问题。
技术实现思路
本专利技术所要解决的技术问题在于，提供一种语义识别方法、装置和语音对话系统，提升对用户指令语义识别的精度，进而提升用户体验。为了解决上述技术问题，根据本专利技术一方面，提供了一种语义识别方法，包括:将多条文本数据进行分词处理，并标注每个词语的属性信息，得到属性序列；对所述属性序列进行向量化处理，得到所述属性序列对应的词向量；将所述词向量和对应的所述多条文本数据的文本向量进行拼接，得到输入数据；将所述输入数据以及对应的语义输出结果，作为训练数据集进行训练，得到语义识别模型；根据输入文本信息和所述语义识别模型进行语义识别。进一步的，所述方法还包括:建立每个属性信息的文本文件，所述属性信息的文本文件用于存储该属性信息对应的词汇；将所有属性信息的文本文件进行合并，组成属性字典，所述属性字典中存储有属性信息与...

【技术保护点】
1.一种语义识别方法，其特征在于：所述方法包括:将多条文本数据进行分词处理，并标注每个词语的属性信息，得到属性序列；对所述属性序列进行向量化处理，得到所述属性序列对应的词向量；将所述词向量和对应的所述多条文本数据的文本向量进行拼接，得到输入数据；将所述输入数据以及对应的语义输出结果，作为训练数据集进行训练，得到语义识别模型；根据输入文本信息和所述语义识别模型进行语义识别。

【技术特征摘要】
1.一种语义识别方法，其特征在于：所述方法包括:将多条文本数据进行分词处理，并标注每个词语的属性信息，得到属性序列；对所述属性序列进行向量化处理，得到所述属性序列对应的词向量；将所述词向量和对应的所述多条文本数据的文本向量进行拼接，得到输入数据；将所述输入数据以及对应的语义输出结果，作为训练数据集进行训练，得到语义识别模型；根据输入文本信息和所述语义识别模型进行语义识别。2.根据权利要求1所述的语义识别方法，其特征在于：所述方法还包括:建立每个属性信息的文本文件，所述属性信息的文本文件用于存储该属性信息对应的词汇；将所有属性信息的文本文件进行合并，组成属性字典，所述属性字典中存储有属性信息与词语的映射关系表。3.根据权利要求2所述的语义识别方法，其特征在于：所述将多条文本数据进行分词处理，并标注每个词语的属性信息，得到属性序列，包括以下步骤：将每条文本数据进行粗粒度分词处理，根据所述属性信息与词语的映射关系表，标注每个粗粒度词语的属性信息；再将每个粗粒度词语进行细粒度分词处理，根据属性信息与词语的映射关系表，标注每个细粒度词语的属性信息，得到属性序列。4.根据权利要求2所述的语义识别方法，其特征在于：所述对所述属性序列进行向量化处理，得到所述属性序列对应的词向量，包括以下步骤；采用每个属性信息在所述属性字典中的位置索引，替代所述属性序列中的每个属性信息，得到属性序列的id化文件；将所述属性序列的id化文件转换为属性序列矩阵，其中，所述属性序列矩阵是维度为batch_size×max_length×property_vocab_size的矩阵，其中，batch_size代表当前训练的文本数据的条数，max_length代表当前训练的文本数据的最大长度，所述长度为文本数据分词后的词语个数，property_vocab_size代表属性信息的种类的总数量；将所述属性序列矩阵转换为词向量矩阵。5.根据权利要求4所述的语义识别方法，其特征在于：所述将所述属性序列的id化文件转换为属性序列矩阵包括以下步骤：根据当前训练的文本数据的最大长度，对所述属性序列的id化文件的每一位进行长度补齐；根据所述属性信息的种类的总数量，对所述属性序列的id化文件的每一位进行宽度补齐；其中，采用0元素进行长度补齐和宽度补齐。6.根据权利要求4所述的语义识别方法，其特征在于：所述将所述属性序列矩阵转换为词向量矩阵包括以下步骤：将所述属性序列矩阵中的每个元素除以该维度上非零元素的个数,得到矩阵M；构建一个维度为property_vocab_size×word_embedding_size的词向量矩阵W，其中，word_embedding_size表示单个属性信息对应的词向量的长度；将所述矩阵M进行维度转换得到(batch_size×max_length)×property_vocab_size的属性序列矩阵，然后乘以矩阵W，得到batch_size×max_length×word_embedding_size的词向量矩阵，再进行维度转换，得到维度为batch_size×max_length×word_embedding_size的词向量矩阵。7.根据权利要求1所述的语义识别方法，其特征在于：将所述词向量和对应的所述多条文本数据的文本向量进行拼接，得到输入数据，包括以下步骤：获取所述多条文本数据对应的word2vec文本向量矩阵，所述word2vec文本向量通过单独训练神经概率语言模型所得；将所述词向量矩阵和所述多条文本数据对应的word2vec文本向量矩阵进行拼接，得到所述输入数据。8.根据权利要求1所述的语义识别方法，其特征在于：所述方法还包括：将待训练的文本数据分为多批文本数据，每批文本数据包括多条文本数据；逐批训练所述文本数据，每批所述文本数据训练完成后更新所述语义识别模型。9.根据权利要求2所述的语义识别方法，其特征在于：所述方法还包括：更新所述属性字典信息，具体包括以下步骤：根据更新频率将所述属性信息分为静态属性数据和动态属性数据；根据应用需求定时更新所述静态属性数据；建立动态属性数据库，实时更新所述动态属性数据库，从而更新所述动态属性数据。10.根据权利要求1-9中任意一项所述的语义识别方法，其特征在于：所述属性信息包括：音乐名称、音乐风格、音乐专辑名称、歌手名称、城市名称、街道名称、电视剧名称、电影名称、广播节目名称、机构名称中的一种或多种。11.一种语义识别装置，其特征在于：所述装置包括:属性信息标注模块，用于将多条文本数据进行分词处理，并标注每个词语的属性信息，得到属性序列；向量化处理模块，用于对所述属性序列进行向量化处理，得到所述属性序列对应的词向量；输入数据获取模块，用于将所述词向量和对应的所述多条文本数据的文本向量进行拼接，得到输入数据；语义识别模型训练模块，用于将所述输入数据以及对应的语义输出结果，作为训练数据集进...

【专利技术属性】
技术研发人员：陈进，段全盛，周际，马天泽，先建波，侯蔼玲，
申请(专利权)人：蔚来汽车有限公司，
类型：发明
国别省市：中国香港,81

全部详细技术资料下载我是这个专利的主人