【技术实现步骤摘要】
用于确定文本数据的标签的方法和设备
[0001]本申请涉及数据处理,特别涉及对文本数据进行分析和确定其标签的方法、设备和计算机存储介质。
技术介绍
[0002]在诸如餐饮的服务行业中,客户服务系统(客服系统)的业务人员在日常工作中当面或通过电话、即时消息或网络平台接待来访的客户并解决客户提出的问题。在服务过程中,客户也会向业务人员提供有关服务的其他信息。这些信息可以帮助企业提升服务水平。
[0003]在客服业务人员与客户的服务会话结束后,需要对客户的会话意图进行提取和分类,以便应用于客服业务流程的下游系统。在诸如应急响应的场景中,通过对会话数据进行分析也可以获取客服现场状况信息以实施现场管理控制。
[0004]由于会话意图的提取和分类需要满足实时性和准确性要求,并且会话涉及的信息非常复杂,使得会话数据的分类体系变得越来越复杂,相应地造成会话意图的更新和分类工作存在巨大挑战。
[0005]目前的会话意图分类还没有形成流程化、规范化的高效系统。使用人工方法手动标记会话意图的效率低下并且难以控制准确率。基于 ...
【技术保护点】
【技术特征摘要】
1.一种用于确定文本数据的标签的方法,包括:获取所述文本数据;提取所述文本数据的文本特征;基于所述文本特征和多标签集合确定所述文本数据的至少一个标签,所述多标签集合包括常规标签集合、长尾标签集合以及未知标签集合中的至少一个,基于所确定的所述文本数据的标签调整所述多标签集合。2.根据权利要求1所述的方法,其特征在于,所述常规标签集合包括至少一个常规标签,所述至少一个常规标签具有至少一个常规标签类型,;所述长尾标签集合包括至少一个长尾标签,所述至少一个长尾标签具有至少一个长尾标签类型;所述未知标签集合包括至少一个未知标签,所述至少一个未知标签具有至少一个未知标签类型;所述文本数据的标签包括所述常规标签,所述长尾标签以及所述未知标签中的至少一个。3.根据权利要求2所述的方法,其特征在于,基于所确定的所述文本数据的标签调整所述多标签集合进一步包括如下步骤中的至少一个:监测具有长尾标签的文本数据以调整所述长尾标签集合和所述常规标签集合;监测具有未知标签的文本数据以调整所述未知标签集合和所述常规标签集合;以及监测具有常规标签的文本数据以调整所述常规标签集合。4.根据权利要求3所述的方法,其特征在于,监测具有长尾标签的文本数据以调整所述长尾标签集合和所述常规标签集合进一步包括:基于具有属于相同的长尾标签类型的长尾标签的文本数据的数量、属于相同的长尾标签类型的长尾标签的出现频率以及文本数据具有属于相同的长尾标签类型的长尾标签的概率中的至少一个,从所述长尾标签集合中选择候选常规标签;监测所述候选常规标签以确定待调整为常规标签的长尾标签。5.根据权利要求4所述的方法,其特征在于,监测所述候选常规标签以确定待调整为常规标签的长尾标签进一步包括:基于具有属于相同的候选常规标签的文本数据的分段汇总数量,同比数量和环比数量中的至少一个与对应的数量阈值的比较,从所述候选常规标签中确定待调整为常规标签的长尾标签。6.根据权利要求3所述的方法,其特征在于,监测具有未知标签的文本数据以调整所述未知标签集合进一步包括:对具有属于相同的未知标签类型的未知标签的文本数据的文本特征进行聚类和/或提取核心关键语句以从所述未知标签集合中选择候选常规标签;监测所述候选常规标签以确定待调整为常规标签的未知标签。7.根据权利要求6所述的方法,其特征在于,监测所述候选常规标签以确定待调整为常规标签的未知标签进一步包括:基于具有属于相同的候选常规标签的文本数据的分段汇总数量,同比数量和环比数量中的至少一个与对应的数量阈值的比较从所述候选常规标签中确定待调整为常规标签的未知标签。
8.根据权利要求3所述的方法,其特征在于,监测具有常规标签的文本数据以调整所述常规标签集合进一步包括:基于文本数据中的至少一部分的文本特征确定候选常规标签;监测所述候选常规标签以从所述候选常规标签选择常规标签。9.根据权利要求1所述的方法,其特征在于,进一步包括过滤容易混淆的标签组合。10.根据权利要求9所述的方法,其特征在于,过滤易混淆标签组合进一步包括:关联地记录文本数据的标签的校准,被校准的所述文本数据的错误标签以及被校准的所述文本数据的正确标签;基于被关联地记录的所述错误标签和所述正确标签的出现概率,将所述错误标签和所述正确标签确定为易混淆标签组合;所述易混淆标签组合合并为相同的标签或将所述易混淆标签组合转换为多层级标签。11.根据权利要求1所述的方法,其特征在于,使用多标签确定模型确定所述文本数据的标签,其中所述多标签确定模型包括用于提取所述文本数据的文本特征的特征提取子模型以及用于确定所述文本数据的标签的标签预测子模型。12.根据权利要求11所述的方法,其特征在于,所述多标签确定模型为机器学习模型或神经网络模型。13.根据权利要求12所述的方法,其特征在于,所...
【专利技术属性】
技术研发人员:陈杰鹏,怀立德,谢亚雄,
申请(专利权)人:胜斗士上海科技技术发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。