一种识别用户意图的方法和装置制造方法及图纸

技术编号：17468527 阅读：29 留言：0更新日期：2018-03-15 05:42

本发明专利技术公开了一种识别用户意图的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据；对于筛选出的每个文本数据，根据该文本数据包含的所述指示词组确定该文本数据的分值；将分值大于预设分值的文本数据确定为具有所述意图的文本数据。该实施方式通过意图指示词表对社交媒体的文本数据进行分析，从而识别出具有待识别意图的文本数据，解决了现有技术调查问卷发放和通过人工标注有监督学习的分类方法中效率低以及识别结果不准确的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种识别用户意图的方法和装置
本专利技术涉及计算机
，尤其涉及一种识别用户意图的方法和装置。
技术介绍
社交媒体是人们彼此之间用来分享意见、见解、经验和观点的工具和平台，现阶段主要包括社交网站、微博、博客、论坛、播客等等。随着网络媒体技术的发展和普及，Twitter、微博等社交媒体已经成为用户信息发布、传播和共享的常用工具。所以通过对社交媒体中文本数据的分析，可识别出用户隐藏在该文本数据中的某种意图。现有技术中，识别用户意图的方法主要有：基于社交媒体的大规模意愿调查问卷发放方法和采用有监督学习的分类方法。其中，基于社交媒体的大规模意愿调查问卷发放方法具有极大的局限性，因为每次发放调查问卷只能限制某个或某几个意图内容，而且填写调查问卷的用户量无法保证，同时填写的调查问卷的质量也无法保证。对于采用有监督学习的分类方法，需要人工获取或标注大量的具有意图的语料作为训练集，再通过机器学习的分类算法训练出分类模型。因为人工标注的方法需要大量的人力与数据，在实际中获得的训练语料常常难以满足数量要求，所以，采用该方式进行意图识别会面临着缺乏训练语料的问题，而严重的数据稀疏问题会导致意图识别不准确。
技术实现思路
有鉴于此，本专利技术实施例提供一种识别用户意图的方法和装置，能够通过筛选以及评分确定出社交媒体中具有待识别意图的文本数据。为实现上述目的，根据本专利技术实施例的一个方面，提供了一种识别用户意图的方法。本专利技术实施例的识别用户意图的方法包括：从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据；对于筛选出的每个文本数据，根据该文本数据包含的所述指示词...
一种识别用户意图的方法和装置

【技术保护点】
一种识别用户意图的方法，其特征在于，包括：从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据；对于筛选出的每个文本数据，根据该文本数据包含的所述指示词组确定该文本数据的分值；将分值大于预设分值的文本数据确定为具有所述意图的文本数据。

【技术特征摘要】
1.一种识别用户意图的方法，其特征在于，包括：从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据；对于筛选出的每个文本数据，根据该文本数据包含的所述指示词组确定该文本数据的分值；将分值大于预设分值的文本数据确定为具有所述意图的文本数据。2.根据权利要求1所述的方法，其特征在于，所述从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据的步骤之前，还包括：根据待识别的意图确定一个或几个目标关键词，以及设置时间段；从社交媒体获取所述时间段内包含所述一个或几个目标关键词的多个文本数据。3.根据权利要求1所述的方法，其特征在于，在从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据之前，还包括：根据待识别的意图确定出意图种子词表和动作种子词表；根据所述多个文本数据分别对意图种子词表和动作种子词表进行扩充，以得到包含意图指示词的意图指示词表和包含动作指示词的动作指示词表；将所述意图指示词与动作指示词进行两两组合得到指示词组，将所述指示词组保存以得到意图指示词表。4.根据权利要求3所述的方法，其特征在于，根据所述多个文本数据分别对意图种子词表和动作种子词表进行扩充的步骤包括：对所述多个文本数据进行分词处理，以得到词集合；将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量；对于所述词集合中的每个词，计算该词与所述意图种子词表中的词的余弦相似度，将所述词集合中余弦相似度大于预设值的词添加到意图种子词表中，以得到包含意图指示词的意图指示词表；对于所述词集合中的每个词，计算该词与所述动作种子词表中的词的余弦相似度，将所述词集合中余弦相似度大于预设值的词添加到动作种子词表中，以得到包含动作指示词的动作指示词表。5.根据权利要求4所述的方法，其特征在于，采用word2vec将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量。6.根据权利要求1-5任一项所述的方法，其特征在于，所述意图指示词表为消费意图指示词表，和/或，所述文本数据为微博文本数据。7.根据权利要求1所述的方法，其特征在于，所述对于筛选出的每个文本数据，根据该文本数据包含的所述指示词组确定该文本数据的分值的步骤包括：对于筛选出的每个文本数据，计算该文本数据中包含的所述指示词组的数量；并且确定该文本数据对所述指示词组的表述中包含的否定词和程度副词；根据所述数量、包含的否定词和程度副词以及设置的相应的权重，计算出该文本数据的分值。8.一种识别用户...

【专利技术属性】
技术研发人员：李树海，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人