对话语料中实体的识别方法、装置和计算机设备制造方法及图纸

技术编号：24800207 阅读：44 留言：0更新日期：2020-07-07 21:09

本发明专利技术实施例公开了一种对话语料中实体的识别方法、装置和计算机设备，包括：获取待识别实体的语料文本；将所述语料文本进行分词，得到分词结果，所述分词结果中包含多个字；获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵；将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体。通过上述方式，能够提高实体识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
对话语料中实体的识别方法、装置和计算机设备
本专利技术涉及机器学习
，尤其涉及一种对话语料中实体的识别方法、装置、计算机设备及存储介质。
技术介绍
随着语音识别技术的发展，将语音识别成文本的瓶颈突破了，机器人对人表达的意思将更清楚，对话将更为简单。然而，在对语音进行语音识别后，得到的只是一串文本，机器人并不知晓该文本表达的含义。为了理解文本含义，现有的方法是对文本中的实体进行识别，然后根据识别出的实体来理解文本表达的含义。但是，现有的实体识别模型通常是根据输入的词向量进行训练的，以根据输入的词语信息来识别实体，这样的方式导致最终识别的实体准确率低。
技术实现思路
基于此，有必要针对上述问题，提出一种识别率高的对话语料中实体的识别方法、装置和计算机设备。一种对话语料中实体的识别方法，所述方法包括：获取待识别实体的语料文本；将所述语料文本进行分词，得到分词结果，所述分词结果中包含多个字；获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵；将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体。一种对话语料中实体的识别装置，所述装置包括：第一获取模块，用于获取待识别实体的语料文本；文本分词模块，用于将所述语料文本进行分词，得到分词结果，所述分词结果中包含多个字；第二获取模块，用于获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字...

【技术保护点】
1.一种对话语料中实体的识别方法，其特征在于，所述方法包括：/n获取待识别实体的语料文本；/n将所述语料文本进行分词，得到分词结果，所述分词结果中包含多个字；/n获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵；/n将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体。/n

【技术特征摘要】
1.一种对话语料中实体的识别方法，其特征在于，所述方法包括：
获取待识别实体的语料文本；
将所述语料文本进行分词，得到分词结果，所述分词结果中包含多个字；
获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵；
将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体。

2.如权利要求1所述的方法，其特征在于，在所述获取待识别实体的语料文本之前，还包括：
获取语料文本训练样本集，所述语料文本训练样本集包括多个语料文本训练样本，所述语料文本训练样本包括口语化的口语语料文本训练样本和对所述口语语料文本训练样本进行语义联想的联想语料文本训练样本；
根据所述语料文本训练样本集对所述实体识别模型进行训练，得到所述实体识别模型。

3.如权利要求2所述的方法，其特征在于，所述根据所述语料文本训练样本集对所述实体识别模型进行训练，得到所述实体识别模型，包括：
将所述语料文本训练样本集中的各个所述语料文本训练样本进行分词，得到每个所述语料文本训练样本的包含多个字的分词结果；
根据字向量查找表和每个所述语料文本训练样本的分词结果，得到与所述语料文本训练样本集对应的训练文本矩阵；
获取每个所述语料文本训练样本中每个字对应的标注，得到所述语料文本训练样本集对应的训练文本标注矩阵，所述标注用于区分实体和非实体；
将所述训练文本矩阵作为实体识别模型的输入，将对应的所述训练文本标注矩阵作为所述实体识别模型的输出，对所述实体识别模型进行训练，得到目标实体识别模型。

4.如权利要求2所述的方法，其特征在于，所述语料文本训练样本的样本类型包括命令型、情感型、名字型和动作型，所述根据所述语料文本训练样本集对所述实体识别模型进行训练，得到所述实体识别模型，包括：
获取命令型语料文本训练样本、情感型语料文本训练样本、名字型语料文本训练样本和动作型语料文本训练样本的训练比例；
根据所述命令型语料文本训练样本、所述情感型语料文本训练样本、所述名字型语料文本训练样本和所述动作型语料文本训练样本的训练比例，从所述语料文本训练样本集中获...

【专利技术属性】
技术研发人员：熊友军，罗沛鹏，廖洪涛，
申请(专利权)人：深圳市优必选科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人