文本分类方法、装置、设备及存储介质制造方法及图纸

技术编号:24497948 阅读:27 留言:0更新日期:2020-06-13 03:48
本发明专利技术提供一种文本分类方法、装置、设备及存储介质,通过接收用户输入的查询请求,其中查询请求包括查询文本;然后对查询文本提取文本特征;并将文本特征输入到场景分类模型中,获得查询请求对应的业务场景。本发明专利技术的方法应用训练好的场景分类模型,通过输入查询文本的文本特征即可实现业务场景的分类,降低维护成本,对人工依赖较小,能够灵活地对用户意图做出理解和预测,并且具有较高的准确性和可靠性,提升了用户体验。

Text classification method, device, equipment and storage medium

【技术实现步骤摘要】
文本分类方法、装置、设备及存储介质
本专利技术涉及通信
,尤其涉及一种文本分类方法、装置、设备及存储介质。
技术介绍
随着机器学习的研究与应用在工业界越来越重视,人工智能已经广泛应用于语音识别、图像处理、文本语义理解、个性化推荐等各个领域,大数据时代的到来,使机器能够获得新的知识技能。在电商平台,用户喜欢用更智能的方式网上购物,如何挖掘智能的购物助手显得很关键。现有技术中电商平台通常提供查询搜索服务,例如查询商品、品牌、优惠券、服务等,需要提前设计好话术模板,在接收到用户输入的查询请求后通过将查询文本与模板进行正则匹配,从而将用户输入的文本匹配到对应业务场景类别。现有技术中通过话术模板正则匹配,对人工的依赖比较大,话术需要预先设置,维护成本高,分类预测句式死板,无法灵活地对用户意图做出理解和预测。
技术实现思路
本专利技术提供一种文本分类方法、装置、设备及存储介质,以减小对人工的依赖,降低维护成本,实现根据用户输入的查询请求灵活地对用户意图做出理解和预测。第一方面,本专利技术实施例提供一种文本分类方法,包括:接收用户输入的查询请求,所述查询请求包括查询文本;对所述查询文本提取文本特征;将所述文本特征输入到场景分类模型中,获得所述查询请求对应的业务场景。第二方面,本专利技术实施例提供一种文本分类装置,包括:接收模块,用于接收用户输入的查询请求,所述查询请求包括查询文本;特征提取模块,用于对所述查询文本提取文本特征;业务场景分类模块,用于将所述文本特征输入到场景分类模型中,获得所述查询请求对应的业务场景。第三方面,本专利技术实施例提供一种文本分类设备,包括:存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。第四方面,本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行时实现如第一方面所述的方法。本专利技术提供的文本分类方法、装置、设备及存储介质,通过接收用户输入的查询请求,其中查询请求包括查询文本;然后对查询文本提取文本特征;并将文本特征输入到场景分类模型中,获得查询请求对应的业务场景。本专利技术的方法应用训练好的场景分类模型,通过输入查询文本的文本特征即可实现业务场景的分类,降低维护成本,对人工依赖较小,能够灵活地对用户意图做出理解和预测,并且具有较高的准确性和可靠性,提升了用户体验。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的文本分类方法流程图;图2为本专利技术另一实施例提供的文本分类方法流程图;图3为本专利技术实施例提供的文本分类装置的结构图;图4为本专利技术实施例提供的文本分类设备的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的文本分类方法流程图。本实施例提供了一种文本分类方法,该方法具体步骤如下:S101、接收用户输入的查询请求,所述查询请求包括查询文本。在本实施例中,用户可在终端通过语音输入并转换为查询文本,或者用户直接通过终端输入查询文本,进而根据查询文本生成查询请求,发送给文本分类服务器。其中可以通过正则匹配,提取用户与终端交互过程中的第一句话作为查询文本。其中,查询文本例如可以是:“我想要遥控吊扇”、“我要买内衣收纳的东西”、“优惠券怎么领”或者“我买的奶粉是什么快递”等。本实施例中需要根据查询文本判断用户想使用什么业务,也即判断查询请求对应的业务场景,其中业务场景可包括特定商品查询业务场景、订单查询业务场景、模糊优惠查询业务场景、特定优惠查询业务场景、售后服务的业务场景、频道查询业务场景、未知业务场景等,当然本实施例中并不限于上述所列举的业务场景,可根据实际需要划分不同的业务场景。进一步的,在接收到用户输入的查询请求后,还可首先判断所述查询文本是否为产品词库或品牌词库中的词语,若是,则确定所述查询请求对应的业务场景为商品查询业务场景,否则执行后续的S102。在本实施例中,用户输入的查询文本可能为超短文本,例如可以为品牌词或产品词,例如“青岛啤酒”、“扫地机器人”、“阿迪达斯”等,可首先根据产品词库和/或品牌词库通过Redis全文匹配,若直接命中产品词库或品牌词库中的词语,则确定查询请求对应的业务场景为商品查询业务场景,进一步可跳转到对应的商品页面。其中产品词库中包括已有产品名称、以及在标注和评测等过程中发现的新产品名称;品牌词库中包括已有品牌名称、以及在标注和评测等过程中发现的新品牌名称;产品词库和品牌词库可不断更新。此外,也可预先获取其他业务场景的关键词,进行同样的全文匹配,若直接命中则可直接确定业务场景,而不需要进行下述的流程,从而简化文本分类流程,提高分类效率。S102、对所述查询文本提取文本特征。在本实施例中,可通过现有的文本特征提取工具,例如TF-IDF、OneHot或词袋模型等,其中本实施例中优选TF-IDF(Termfrequencyinversedocumentfrequency),更能获取有价值信息,特征利用率高,用以评估一字词对于一个文件集或一个语料集的重要程度,TF意思是词频,IDF意思是逆文本频率指数,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比。本实施例中可首先对查询文本进行预处理,具体可包括大小写转化,例如将语料中所有的大写字母转化成小写;去停用词,过滤掉一些常见的没有实际信息含量的词语,比如“的”、“呢”、“了”等;分词,可使用现有的分词工具,例如结巴分词,预先加入品牌词库和产品词库,并且对结巴分词的频数特征进行了离线微调保存,定期更新。本实施例中在完成预处理后,采用TF-IDF进行文本特征的提取,主要思路是:一个词语的重要程度与该词语在业务场景类别内的词频成正比,与在所有业务场景类别出现的次数成反比,通过TF-IDF筛选出关键词权重高的排在前面,构造用户常用词典的时候,截取一句话中权重最高的若干个词语,可以保证进入词典的都是有用常见的词语。S103、将所述文本特征输入到场景分类模型中,获得所述查询请求对应的业务场景。在本实施例中,可预先训练场景分类模型,其中场景分类模型可以是神经网络模型,也可以使其他的模型,其模型的输入为文本特征,输出为业务场景。本实施例提供的文本分类本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:/n接收用户输入的查询请求,所述查询请求包括查询文本;/n对所述查询文本提取文本特征;/n将所述文本特征输入到场景分类模型中,获得所述查询请求对应的业务场景。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:
接收用户输入的查询请求,所述查询请求包括查询文本;
对所述查询文本提取文本特征;
将所述文本特征输入到场景分类模型中,获得所述查询请求对应的业务场景。


2.根据权利要求1所述的方法,其特征在于,所述获得所述查询请求对应的业务场景后,还包括:
若所述查询请求对应的业务场景为频道查询,则确定所述查询请求对应的频道,并进入该频道。


3.根据权利要求2所述的方法,其特征在于,所述确定所述查询请求对应的频道,包括:
判断所述查询文本是否满足预设语句格式且包含预设频道关键词;
若是,则根据所述预设频道关键词确定所述查询请求对应的频道;
若否,则将所述查询文本输入到模糊语义分类模型中,确定所述查询请求对应的频道。


4.根据权利要求3所述的方法,其特征在于,所述将所述查询文本输入到模糊语义分类模型中,确定所述查询请求对应的频道,包括:
获取所述查询文本与任一频道语料库中语料的相似度;
获取相似度最大的频道,作为所述查询请求对应的频道。


5.根据权利要求4所述的方法,其特征在于,所述获取所述查询文本与任一频道语料库中语料的相似度,包括:
根据所述查询文本获取查询文本的空间向量;
获取所述查询文本的空间向量与任一频道语料库的空间向量的相似度,其中所述任一频道语料库的空间向量为该频道语料库中所有语料组合成的文章的空间向量。


6.根据权利要求4所述的方法,其特征在于,所述将所述查询文本输入到模糊语义分类模型中,确定所述查询请求对应的频道,还包括:
采用支持向量机确定所述查询请求对应的频道;或者
将根据相似度获得的结果和根据支持向量机获得的结果相结合,确定所述查询请求对应的频道。


7.根据权利要求3所述的方法,其特征在于,所述将所述查询文本输入到模糊语义分类模型中前,还包括:
判断所述查询文本是否为预设模糊语句,若是,则根据所述预设模糊语句对应的频道确定所述查询请求对应的频道;和/或
判断所述查询文本是否包含频道关键词库中的词语,若是,则根据所述频道关键词库中的词语对应的频道确定所述查询请求对应的频道。


8.根据权利要求1所述的方法,其特征在于,所述对所述查询文本提取文本特征前,还包括:
判断所述查询文本是否为产品词库或品牌词库中的词语,若是,则确定所述查询请求对应的业务场景为商品查询业务场景。


9.根据权利要求1-8任一项所述的方法,其特征在于,还包括:
获取场景分类模型的训练样本;
构建神经网络,采用所述训练样本对所述神经网络进行训练,从而得到所述场景分类模型。


10.一种文本分类装置,其特征在于,包括:
接收模块,用于接收用户输入的查询请求,所述查询请求包括查询文本;
特征提取模块,用于对所述查询文本提取文本特征;
业务场景分类模块,...

【专利技术属性】
技术研发人员:王颖帅李晓霞苗诗雨
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1