【技术实现步骤摘要】
一种数据处理方法及装置
[0001]本申请涉及计算机
,特别是涉及一种数据处理方法及装置。
技术介绍
[0002]当前,网络上出现了越来越多的数据服务平台,数据服务平台可以对广大客户提供数据服务,例如,购物平台对广大购物者提供购物服务,游戏平台为广大玩家提供游戏服务以及聊天平台为广大聊天者提供聊天服务等,为了更好地对客户提供数据服务以提高数据服务平台的竞争力,可以搜集客户的需求,以根据客户的需求针对性地为客户提供数据服务,以实现在为客户提供数据服务的情况下尽可能地满足客户的核心需求,以增加客户对数据服务平台的粘性。
技术实现思路
[0003]本申请示出了一种数据处理方法及装置。
[0004]第一方面,本申请示出了一种数据处理方法,所述方法包括:
[0005]获取多个意图分类分别对应的意图标签,以及,获取多个文本,文本中包括多个词汇,文本中包括的多个词汇中包括其中一个意图分类对应的意图标签;
[0006]对于多个意图分类中的任意一个意图分类,在多个文本中筛选包括所述意图分类对应的意 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取多个意图分类分别对应的意图标签,以及,获取多个文本,文本中包括多个词汇,文本中包括的多个词汇中包括其中一个意图分类对应的意图标签;对于多个意图分类中的任意一个意图分类,在多个文本中筛选包括所述意图分类对应的意图标签的文本,根据包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇,预测与所述意图分类对应的意图标签的语义相关的第一词汇,根据与所述意图分类对应的意图标签的语义相关的第一词汇获取所述意图分类对应的候选词;对于多个文本中的任意一个文本,对于所述文本中的任意一个词汇,根据包括所述文本中的除所述词汇以外的词汇,预测与所述词汇的语义相关的第二词汇,根据分别与所述文本中的各个词汇的语义相关的第二词汇以及各个意图分类分别对应的候选词,获取所述文本体现的意图分类。2.根据权利要求1所述的方法,其特征在于,所述获取多个意图分类分别对应的意图标签,包括:获取多个意图分类涉及的目标场景相关的多个场景词汇;对于多个意图分类中的任意一个意图分类,在标注所述意图分类的关键词为一个的情况下,在多个场景词汇中筛选与标注所述意图分类的一个关键词之间的语义相似度大于预设相似度的至少一个场景词汇;至少根据筛选的至少一个场景词汇获取所述意图分类对应的意图标签;或者,在标注所述意图分类的关键词为至少两个的情况下,在多个场景词汇中筛选与标注所述意图分类的至少两个关键词之间的平均语义相似度大于预设相似度的至少一个场景词汇,至少根据筛选的至少一个场景词汇获取所述意图分类对应的意图标签。3.根据权利要求1所述的方法,其特征在于,与所述意图分类对应的意图标签的语义相关的第一词汇为至少两个;所述根据与所述意图分类对应的意图标签的语义相关的第一词汇获取所述意图分类对应的候选词,包括:统计与所述意图分类对应的意图标签的语义相关的各个第一词汇分别在包括所述意图分类对应的意图标签的文本中的第一出现频次;在与所述意图分类对应的意图标签的语义相关的各个第一词汇中,按照第一出现频次由高至低的顺序选择至少一个第一词汇;根据选择的至少一个第一词汇获取所述意图分类对应的候选词。4.根据权利要求3所述的方法,其特征在于,所述根据选择的至少一个第一词汇获取所述意图分类对应的候选词,包括:在选择的至少一个第一词汇中,剔除在多个意图分类中的除所述意图分类以外的意图分类对应的候选词中出现的第一词汇;根据选择的至少一个第一词汇中的剩余的第一词汇,获取所述意图分类对应的候选词。5.根据权利要求4所述的方法,其特征在于,所述在选择的至少一个第一词汇中,剔除在多个意图分类中的除所述意图分类以外的意图分类对应的候选词中出现的第一词汇,包括:
对于选择的至少一个第一词汇中的任意一个第一词汇,获取所述第一词汇在包括所述意图分类对应的意图标签的文本中的显著性;在所述显著性小于预设显著性的情况下,在选择的至少一个第一词汇中剔除所述第一词汇。6.根据权利要求5所述的方法,其特征在于,所述获取所述第一词汇在包括所述意图分类对应的意图标签的文本中的显著性,包括:统计所述第一词汇分别在包括多个意图分类中的除所述意图分类以外的其他每一个意图分类分别对应的意图标签的文本中的第二出现频次;根据第一出现频次以及第二出现频次计算所述显著性。7.根据权利要求6所述的方法,其特...
【专利技术属性】
技术研发人员:李国荣,马腾岳,陈粮阳,陈起进,徐晓舟,任卫军,黄薛蕾,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。