一种识别用户意图的方法和装置制造方法及图纸

技术编号:17468527 阅读:29 留言:0更新日期:2018-03-15 05:42
本发明专利技术公开了一种识别用户意图的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据;对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值;将分值大于预设分值的文本数据确定为具有所述意图的文本数据。该实施方式通过意图指示词表对社交媒体的文本数据进行分析,从而识别出具有待识别意图的文本数据,解决了现有技术调查问卷发放和通过人工标注有监督学习的分类方法中效率低以及识别结果不准确的问题。

【技术实现步骤摘要】
一种识别用户意图的方法和装置
本专利技术涉及计算机
,尤其涉及一种识别用户意图的方法和装置。
技术介绍
社交媒体是人们彼此之间用来分享意见、见解、经验和观点的工具和平台,现阶段主要包括社交网站、微博、博客、论坛、播客等等。随着网络媒体技术的发展和普及,Twitter、微博等社交媒体已经成为用户信息发布、传播和共享的常用工具。所以通过对社交媒体中文本数据的分析,可识别出用户隐藏在该文本数据中的某种意图。现有技术中,识别用户意图的方法主要有:基于社交媒体的大规模意愿调查问卷发放方法和采用有监督学习的分类方法。其中,基于社交媒体的大规模意愿调查问卷发放方法具有极大的局限性,因为每次发放调查问卷只能限制某个或某几个意图内容,而且填写调查问卷的用户量无法保证,同时填写的调查问卷的质量也无法保证。对于采用有监督学习的分类方法,需要人工获取或标注大量的具有意图的语料作为训练集,再通过机器学习的分类算法训练出分类模型。因为人工标注的方法需要大量的人力与数据,在实际中获得的训练语料常常难以满足数量要求,所以,采用该方式进行意图识别会面临着缺乏训练语料的问题,而严重的数据稀疏问题会导致意图识别不准确。
技术实现思路
有鉴于此,本专利技术实施例提供一种识别用户意图的方法和装置,能够通过筛选以及评分确定出社交媒体中具有待识别意图的文本数据。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种识别用户意图的方法。本专利技术实施例的识别用户意图的方法包括:从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据;对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值;将分值大于预设分值的文本数据确定为具有所述意图的文本数据。可选地,所述从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据的步骤之前,还包括:根据待识别的意图确定一个或几个目标关键词,以及设置时间段;从社交媒体获取所述时间段内包含所述一个或几个目标关键词的多个文本数据。可选地,在从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据之前,还包括:根据待识别的意图确定出意图种子词表和动作种子词表;根据所述多个文本数据分别对意图种子词表和动作种子词表进行扩充,以得到包含意图指示词的意图指示词表和包含动作指示词的动作指示词表;将所述意图指示词与动作指示词进行两两组合得到指示词组,将所述指示词组保存以得到意图指示词表。可选地,根据所述多个文本数据分别对意图种子词表和动作种子词表进行扩充的步骤包括:对所述多个文本数据进行分词处理,以得到词集合;将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量;对于所述词集合中的每个词,计算该词与所述意图种子词表中的词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到意图种子词表中,以得到包含意图指示词的意图指示词表;对于所述词集合中的每个词,计算该词与所述动作种子词表中的词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到动作种子词表中,以得到包含动作指示词的动作指示词表。可选地,采用word2vec将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量。可选地,所述意图指示词表为消费意图指示词表,和/或,所述文本数据为微博文本数据。可选地,所述对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值的步骤包括:对于筛选出的每个文本数据,计算该文本数据中包含的所述指示词组的数量;并且确定该文本数据对所述指示词组的表述中包含的否定词和程度副词;根据所述数量、包含的否定词和程度副词以及设置的相应的权重,计算出该文本数据的分值。为实现上述目的,根据本专利技术实施例的另一个方面,提供了一种识别用户意图的装置。本专利技术实施例的识别用户意图的装置包括:筛选模块,用于从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据;评分模块,用于对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值;确定模块,用于将分值大于预设分值的文本数据确定为具有所述意图的文本数据。可选地,本专利技术实施例的识别用户意图的装置还包括获取模块,用于根据待识别的意图确定一个或几个目标关键词,以及设置时间段;以及,从社交媒体获取所述时间段内包含所述一个或几个目标关键词的多个文本数据。可选地,本专利技术实施例的识别用户意图的装置还包括生成模块,用于根据待识别的意图确定出意图种子词表和动作种子词表;根据所述多个文本数据分别对意图种子词表和动作种子词表进行扩充,以得到包含意图指示词的意图指示词表和包含动作指示词的动作指示词表;将所述意图指示词与动作指示词进行两两组合得到指示词组,将所述指示词组保存以得到意图指示词表。可选地,所述生成模块还用于,对所述多个文本数据进行分词处理,以得到词集合;将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量;对于所述词集合中的每个词,计算该词与所述意图种子词表中的词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到意图种子词表中,以得到包含意图指示词的意图指示词表;对于所述词集合中的每个词,计算该词与所述动作种子词表中的词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到动作种子词表中,以得到包含动作指示词的动作指示词表。可选地,所述生成模块采用word2vec将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量。可选地,所述评分模块还用于对于筛选出的每个文本数据,计算该文本数据中包含的所述指示词组的数量;以及,确定该文本数据对所述指示词组的表述中包含的否定词和程度副词;根据所述数量、包含的否定词和程度副词以及设置的相应的权重,计算出该文本数据的分值。为实现上述目的,根据本专利技术实施例的再一个方面,提供了一种识别用户意图的方法电子设备。本专利技术实施例的识别用户意图的方法电子设备包括一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一项识别用户意图的方法。为实现上述目的,根据本专利技术实施例的再一个方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述任一项识别用户意图的方法。上述专利技术中的一个实施例具有如下优点或有益效果:通过意图指示词表筛选出包含该表中的指示词组的文本数据,可以快速准确地确定出有效数据。通过对筛选出的文本数据进行评分,确定出该文本数据具有待识别意图的程度,并且将所得分值大于预设值的文本数据确定为具有待识别意图的文本数据。意图指示词表中的指示词组可根据识别需求自行设置,并且意图指示词表中指示词组的数量可不受限制,所以克服了现有技术中调查问卷只能限制某个或某几个商品或品牌内容的内容。而且,本专利技术实施例识别用户意图的方法是对文本数据进行客观的分析,并且不需要通过人工获取或标注文本数据以得到训练集,所以不仅解决了调查问卷法无法保证调查问卷的质量问题,而且解决了人工标注的方法需要大量的人力与数据,效率低的问题。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当本文档来自技高网...
一种识别用户意图的方法和装置

【技术保护点】
一种识别用户意图的方法,其特征在于,包括:从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据;对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值;将分值大于预设分值的文本数据确定为具有所述意图的文本数据。

【技术特征摘要】
1.一种识别用户意图的方法,其特征在于,包括:从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据;对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值;将分值大于预设分值的文本数据确定为具有所述意图的文本数据。2.根据权利要求1所述的方法,其特征在于,所述从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据的步骤之前,还包括:根据待识别的意图确定一个或几个目标关键词,以及设置时间段;从社交媒体获取所述时间段内包含所述一个或几个目标关键词的多个文本数据。3.根据权利要求1所述的方法,其特征在于,在从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据之前,还包括:根据待识别的意图确定出意图种子词表和动作种子词表;根据所述多个文本数据分别对意图种子词表和动作种子词表进行扩充,以得到包含意图指示词的意图指示词表和包含动作指示词的动作指示词表;将所述意图指示词与动作指示词进行两两组合得到指示词组,将所述指示词组保存以得到意图指示词表。4.根据权利要求3所述的方法,其特征在于,根据所述多个文本数据分别对意图种子词表和动作种子词表进行扩充的步骤包括:对所述多个文本数据进行分词处理,以得到词集合;将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量;对于所述词集合中的每个词,计算该词与所述意图种子词表中的词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到意图种子词表中,以得到包含意图指示词的意图指示词表;对于所述词集合中的每个词,计算该词与所述动作种子词表中的词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到动作种子词表中,以得到包含动作指示词的动作指示词表。5.根据权利要求4所述的方法,其特征在于,采用word2vec将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量。6.根据权利要求1-5任一项所述的方法,其特征在于,所述意图指示词表为消费意图指示词表,和/或,所述文本数据为微博文本数据。7.根据权利要求1所述的方法,其特征在于,所述对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值的步骤包括:对于筛选出的每个文本数据,计算该文本数据中包含的所述指示词组的数量;并且确定该文本数据对所述指示词组的表述中包含的否定词和程度副词;根据所述数量、包含的否定词和程度副词以及设置的相应的权重,计算出该文本数据的分值。8.一种识别用户...

【专利技术属性】
技术研发人员:李树海
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1