一种基于关键词和Word2Vec的命令识别方法技术

技术编号:23765905 阅读:41 留言:0更新日期:2020-04-11 19:49
本发明专利技术涉及一种基于关键词和Word2Vec的命令识别方法,该方法包括以下步骤:1)获取命令文本;2)对命令文本进行句法分析,基于句法分析结果,提取命令文本中的关键词;3)基于关键词中的动作关键词和对象关键词,从预建立的词向量字典中获取所述动作关键词的近义词集和所述对象关键词的近义词集,构建命令备选短语集,所述预建立的词向量字典基于Word2Vec建立;4)将命令备选短语集中的各命令备选短语分别与预建立的命令短语库中的各标准命令进行匹配,获取命令匹配结果;5)基于命令匹配结果和步骤2)中提取的关键词,组合成命令识别结果。与现有技术相比,本发明专利技术排除了冗余信息的干扰,具有命令匹配的泛化性能高和人力和时间成本低等优点。

A command recognition method based on keyword and word2vec

【技术实现步骤摘要】
一种基于关键词和Word2Vec的命令识别方法
本专利技术涉及命令识别领域,尤其是涉及一种基于关键词和Word2Vec的命令识别方法。
技术介绍
人机交互是一门研究系统与用户之间的交互关系的学问,系统可以是计算机化的系统和软件或者机器人。服务机器人是机器人家族中的年轻成员,集机械、电子、材料、计算机、传感器、控制等多门学科于一体,是国家高科技实力和发展水平的重要标志。命令识别是人机交互中的重要领域,它需要事先定义全部能够支持的命令短语库,在使用过程中将用户发出的指令与命令短语库中的命令进行匹配,从而执行相应的命令。其主要优势在于用户不必利用鼠标、键盘、遥控器等输入设备,只需要说出命令语音,机器人就会触发对应的操作。基于声学模型的命令识别,它直接依据音频文件进行命令识别,系统会根据语音数据的声学音素和音素序列,去构件好命令短语库中配出相似度最高的文本,从而给出识别结果。但是在实际应用中,由于某些命令词太短、用户口音各异等问题,会造成识别出来的命令与实际有较大的差异。随着近年自然语言处理技术的发展,文本匹配方法逐渐成为了主流本文档来自技高网...

【技术保护点】
1.一种基于关键词和Word2Vec的命令识别方法,其特征在于,该方法包括以下步骤:/nS1:获取命令文本;/nS2:提取命令文本中的关键词;/nS3:基于关键词中的动作关键词和对象关键词,从预建立的词向量字典中获取所述动作关键词的近义词集和所述对象关键词的近义词集,构建命令备选短语集,所述预建立的词向量字典基于Word2Vec建立;/nS4:将命令备选短语集中的各命令备选短语分别与预建立的命令短语库中的各标准命令进行匹配,获取命令匹配结果;/nS5:基于命令匹配结果和步骤S2中提取的关键词,组合成命令识别结果。/n

【技术特征摘要】
1.一种基于关键词和Word2Vec的命令识别方法,其特征在于,该方法包括以下步骤:
S1:获取命令文本;
S2:提取命令文本中的关键词;
S3:基于关键词中的动作关键词和对象关键词,从预建立的词向量字典中获取所述动作关键词的近义词集和所述对象关键词的近义词集,构建命令备选短语集,所述预建立的词向量字典基于Word2Vec建立;
S4:将命令备选短语集中的各命令备选短语分别与预建立的命令短语库中的各标准命令进行匹配,获取命令匹配结果;
S5:基于命令匹配结果和步骤S2中提取的关键词,组合成命令识别结果。


2.根据权利要求1所述的一种基于关键词和Word2Vec的命令识别方法,其特征在于,所述步骤S3中,近义词集基于词向量字典中各词语与待获取近义词集的词语的第一相似度进行排序,所述近义词集中包括待获取近义词集的词语,所述第一相似度计算表达式为:



式中,w1为第一词语,w2为第二词语,v1为第一词语在词向量字典中对应的词向量,v2为第二词语在词向量字典中对应的词向量,sim(w1,w2)为第一词语与第二词语间的第一相似度。


3.根据权利要求1所述的一种基于关键词和Word2Vec的命令识别方法,其特征在于,所述步骤S4若匹配不成功,则重新执行步骤S3和步骤S4,并增加步骤S3中近义词集的元素个数。


4.根据权利要求3所述的一种基于关键词和Word2Vec的命令识别方法,其特征在于,若所述近义词集中元素个数增加到30还未匹配成功,则输出该命令文本不匹配任何标准命令的结果。


5.根据权利要求1所述的一种基于关键词和Word2Vec的命令识别方法,其特征在于,所述步骤S4中,如果命令备选短语与标准命令匹配成功的组合存在多个,则分别计算每个所述组合中命令备选短语与步骤S3中的动作关键词和对象关键词组合的第二相似度,第二相似度高的命令备选短语对应匹配成功的标准命令即为命令匹配结果。


6.根据权利要求5所述的一种基于关键词和Word2Vec的命令识别方法,其特征在于,所述第二相似度的计算表达式为:
s_sim(i,j)=sim(wact,wact,i)×sim(wobj,wobj,j)



式中,s_sim(i,j)为命令备选短语集中第i行第j列对应的命令备选短语与步骤S3中的动作关键...

【专利技术属性】
技术研发人员:邓修齐孙晓娴
申请(专利权)人:同济人工智能研究院苏州有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1