一种数据处理方法及装置制造方法及图纸

技术编号:34373079 阅读:29 留言:0更新日期:2022-07-31 12:08
本申请提供了一种数据处理方法及装置。根据包括一个意图分类对应的意图标签的文本中的词汇之间的语义关系以及上下文关系,可以准确得到与该意图分类对应的意图标签的语义相关的第一词汇,从而得到该意图分类对应的候选词。之后若要得到一个文本的意图分类,可以根据这个文本中的词汇之间的语义关系或上下文关系及各个意图分类分别对应的候选词获取这个文本体现的意图分类。可见,可以自动化地得到文本体现的意图分类,可以没有人工参与,由于借助的是文本中的词汇之间的语义关系或上下文关系以及各个意图分类分别对应的候选词来得到文本体现的意图分类,如此可以提高得到的文本体现的意图分类的效率以及准确率等,以及,可以降低人工成本等。可以降低人工成本等。可以降低人工成本等。

A data processing method and device

【技术实现步骤摘要】
一种数据处理方法及装置


[0001]本申请涉及计算机
,特别是涉及一种数据处理方法及装置。

技术介绍

[0002]当前,网络上出现了越来越多的数据服务平台,数据服务平台可以对广大客户提供数据服务,例如,购物平台对广大购物者提供购物服务,游戏平台为广大玩家提供游戏服务以及聊天平台为广大聊天者提供聊天服务等,为了更好地对客户提供数据服务以提高数据服务平台的竞争力,可以搜集客户的需求,以根据客户的需求针对性地为客户提供数据服务,以实现在为客户提供数据服务的情况下尽可能地满足客户的核心需求,以增加客户对数据服务平台的粘性。

技术实现思路

[0003]本申请示出了一种数据处理方法及装置。
[0004]第一方面,本申请示出了一种数据处理方法,所述方法包括:
[0005]获取多个意图分类分别对应的意图标签,以及,获取多个文本,文本中包括多个词汇,文本中包括的多个词汇中包括其中一个意图分类对应的意图标签;
[0006]对于多个意图分类中的任意一个意图分类,在多个文本中筛选包括所述意图分类对应的意图标签的文本,根据包本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取多个意图分类分别对应的意图标签,以及,获取多个文本,文本中包括多个词汇,文本中包括的多个词汇中包括其中一个意图分类对应的意图标签;对于多个意图分类中的任意一个意图分类,在多个文本中筛选包括所述意图分类对应的意图标签的文本,根据包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇,预测与所述意图分类对应的意图标签的语义相关的第一词汇,根据与所述意图分类对应的意图标签的语义相关的第一词汇获取所述意图分类对应的候选词;对于多个文本中的任意一个文本,对于所述文本中的任意一个词汇,根据包括所述文本中的除所述词汇以外的词汇,预测与所述词汇的语义相关的第二词汇,根据分别与所述文本中的各个词汇的语义相关的第二词汇以及各个意图分类分别对应的候选词,获取所述文本体现的意图分类。2.根据权利要求1所述的方法,其特征在于,所述获取多个意图分类分别对应的意图标签,包括:获取多个意图分类涉及的目标场景相关的多个场景词汇;对于多个意图分类中的任意一个意图分类,在标注所述意图分类的关键词为一个的情况下,在多个场景词汇中筛选与标注所述意图分类的一个关键词之间的语义相似度大于预设相似度的至少一个场景词汇;至少根据筛选的至少一个场景词汇获取所述意图分类对应的意图标签;或者,在标注所述意图分类的关键词为至少两个的情况下,在多个场景词汇中筛选与标注所述意图分类的至少两个关键词之间的平均语义相似度大于预设相似度的至少一个场景词汇,至少根据筛选的至少一个场景词汇获取所述意图分类对应的意图标签。3.根据权利要求1所述的方法,其特征在于,与所述意图分类对应的意图标签的语义相关的第一词汇为至少两个;所述根据与所述意图分类对应的意图标签的语义相关的第一词汇获取所述意图分类对应的候选词,包括:统计与所述意图分类对应的意图标签的语义相关的各个第一词汇分别在包括所述意图分类对应的意图标签的文本中的第一出现频次;在与所述意图分类对应的意图标签的语义相关的各个第一词汇中,按照第一出现频次由高至低的顺序选择至少一个第一词汇;根据选择的至少一个第一词汇获取所述意图分类对应的候选词。4.根据权利要求3所述的方法,其特征在于,所述根据选择的至少一个第一词汇获取所述意图分类对应的候选词,包括:在选择的至少一个第一词汇中,剔除在多个意图分类中的除所述意图分类以外的意图分类对应的候选词中出现的第一词汇;根据选择的至少一个第一词汇中的剩余的第一词汇,获取所述意图分类对应的候选词。5.根据权利要求4所述的方法,其特征在于,所述在选择的至少一个第一词汇中,剔除在多个意图分类中的除所述意图分类以外的意图分类对应的候选词中出现的第一词汇,包括:
对于选择的至少一个第一词汇中的任意一个第一词汇,获取所述第一词汇在包括所述意图分类对应的意图标签的文本中的显著性;在所述显著性小于预设显著性的情况下,在选择的至少一个第一词汇中剔除所述第一词汇。6.根据权利要求5所述的方法,其特征在于,所述获取所述第一词汇在包括所述意图分类对应的意图标签的文本中的显著性,包括:统计所述第一词汇分别在包括多个意图分类中的除所述意图分类以外的其他每一个意图分类分别对应的意图标签的文本中的第二出现频次;根据第一出现频次以及第二出现频次计算所述显著性。7.根据权利要求6所述的方法,其特...

【专利技术属性】
技术研发人员:李国荣马腾岳陈粮阳陈起进徐晓舟任卫军黄薛蕾
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1