分词统计方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:22330171 阅读:14 留言:0更新日期:2019-10-19 12:17
本申请提供一种分词统计方法、装置、电子设备及计算机可读存储介质,在分析处理用户的咨询请求时,获取咨询请求中携带的咨询问题以及发起咨询请求的用户端的设备类型。在对咨询问题进行拆分得到多个词组之后,将得到的多个词组以及设备类型进行关联保存。如此,后续基于统计的词组进行对应咨询答案构建时,可针对不同设备类型构建对应的咨询答案,形成针对性的、适应于不同终端设备的咨询答案,提高智能客服的服务质量。

Word segmentation statistics methods, devices, electronic equipment and computer readable storage media

【技术实现步骤摘要】
分词统计方法、装置、电子设备及计算机可读存储介质
本申请涉及智能客服
,具体而言,涉及分词统计方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着人机交互技术的发展,智能客服在诸多领域得到了广泛应用,所谓智能客服技术也即是基于用户输入的咨询信息,能够智能输出相应的回复内容。智能客服系统能够帮助减轻人工客服工作量,智能客服的工作过程一般是通过预先对用户的咨询内容进行解析,并构建对应的咨询答案,以在用户咨询时,找到匹配的答复反馈给用户。由上述描述可知,需要预先对用户的咨询内容进行解析以构建咨询答案,现有技术中,后台服务器在对用户的咨询问题进行解析时,仅仅关注于咨询问题本身包含的内容进行统计、记录,并未考虑具体的应用场景,导致服务质量有待提高。
技术实现思路
为了至少克服现有技术中的上述不足,本申请的目的之一在于提供一种分词统计方法、装置、电子设备及计算机可读存储介质。第一方面,本专利技术实施例提供一种分词统计方法,所述方法包括:接收咨询请求,获得所述咨询请求中携带的咨询问题,并获得发起所述咨询请求的用户端的设备类型;基于预先建立的自定义用户字典对所述咨询问题进行分词操作,将所述咨询问题拆分为多个词组;将获得的多个词组以及所述设备类型进行关联并保存。在可选的实施方式中,所述方法还包括:每间隔第一预设时长,统计该第一预设时长内所获得的与每个设备类型关联的各个词组的数量;根据上述获得的与每个设备类型关联的各个词组的数量获得热点词组,以使客服人员根据各个设备类型的热点词组,构建对应的咨询答案。在可选的实施方式中,所述基于预先建立的自定义用户字典对所述咨询问题进行分词操作,将所述咨询问题拆分为多个词组的步骤之后,所述方法还包括:获得预先建立的与所述设备类型对应的多个无效词;检测获得的多个词组中的各个词组是否能够匹配上获得的任意一个无效词;针对每个词组,若该词组匹配上多个无效词中的任意一个无效词,则将该词组删除。在可选的实施方式中,所述基于预先建立的自定义用户字典对所述咨询问题进行分词操作,将所述咨询问题拆分为多个词组的步骤之后,所述方法还包括:对获得的多个词组进行去重操作。在可选的实施方式中,所述方法还包括:针对第二预设时长内接收到的各个咨询请求,利用预存的初始用户字典对各个咨询请求中携带的咨询问题进行分词操作,将所述咨询问题拆分为多个词组;统计所述第二预设时长内所获得的各个词组的数量,用于基于各个词组的数量以及各个词组的内容构建关键词;将构建的关键词添加至所述初始用户字典中,得到所述自定义用户字典。在可选的实施方式中,所述利用预存的初始用户字典对各个咨询请求中携带的咨询问题进行分词操作,将所述咨询问题拆分为多个词组的步骤之后,所述方法还包括:获得各个词组的词性;将获得的多个词组中词性为预先设定的特定词性的词组滤除。在可选的实施方式中,所述统计所述第二预设时长内所获得的各个词组的数量的步骤之前,所述方法还包括:在所述第二预设时长内,每间隔预设时段,将该预设时段内获得的词组进行缓存,并在该预设时段结束时,将缓存的词组存储至数据库中。在可选的实施方式中,所述方法还包括:查找是否存在与所述设备类型一致的且与所述咨询问题对应的咨询答案;若存在,则不对所述咨询请求进行处理;若不存在,再执行基于预先建立的自定义用户字典对所述咨询问题进行分词操作,将所述咨询问题拆分为多个词组的步骤。第二方面,本专利技术实施例提供一种分词统计装置,所述装置包括:获取模块,用于接收咨询请求,获得所述咨询请求中携带的咨询问题,并获得发起所述咨询请求的用户端的设备类型;分词模块,用于基于预先建立的自定义用户字典对所述咨询问题进行分词操作,将所述咨询问题拆分为多个词组;存储模块,用于将获得的多个词组以及所述设备类型进行关联并保存。第三方面,本专利技术实施例提供一种电子设备,包括一个或多个存储介质和一个或多个与存储介质通信的处理器,一个或多个存储介质存储有处理器可执行的机器可执行指令,当电子设备运行时,处理器执行所述机器可执行指令,以执行前述实施方式中任意一项所述的分词统计方法。第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有机器可执行指令,所述机器可执行指令被执行时实现前述实施方式中任意一项所述的分词统计方法。相对于现有技术而言,本申请具有以下有益效果:本申请提供的分词统计方法、装置、电子设备及计算机可读存储介质,在分析处理用户的咨询请求时,获取咨询请求中携带的咨询问题以及发起咨询请求的用户端的设备类型。在对咨询问题进行拆分得到多个词组之后,将得到的多个词组以及设备类型进行关联保存。如此,后续基于统计的词组进行对应咨询答案构建时,可针对不同设备类型构建对应的咨询答案,形成针对性的、适应于不同终端设备的咨询答案,提高智能客服的服务质量。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本申请实施例提供的分词统计方法的应用场景示意图。图2为本申请实施例提供的分词统计方法的流程图。图3为本申请实施例提供的建立自定义用户字典的方法的流程图。图4为本申请实施例提供的基于词组词性对词组进行滤除的方法的流程图。图5为本申请实施例提供的分词统计方法的另一流程图。图6为本申请实施例提供的基于无效词对词组进行滤除的方法的流程图。图7为本申请实施例提供的分词统计方法的另一流程图。图8为本申请实施例提供的电子设备的硬件结构示意图。图9为本申请实施例提供的分词统计装置的功能模块框图。图标:100-服务器;110-存储介质;120-处理器;130-分词统计装置;131-获取模块;132-分词模块;133-存储模块;140-通信接口;200-用户端。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。图1所示为本申请实施例提供的分词统计方法的应用场景示意图,该场景中包括服务器100以及与服务器100通信的多个用户端200。每个用户端200上可运行不同的应用程序,每个应用程序也可运行在不同的用户端200。用户可利用应用程序实现对应的应用操作。所述服务器100为能够为各应用程序提供智能客服服务功能的后台服务器100。例如,用户可利用用户端200向服务器100发起咨询请求,服务器100可对用户发起的咨询请求中的问题进行分析,得到对应的咨询答案并反馈本文档来自技高网...

【技术保护点】
1.一种分词统计方法,其特征在于,所述方法包括:接收咨询请求,获得所述咨询请求中携带的咨询问题,并获得发起所述咨询请求的用户端的设备类型;基于预先建立的自定义用户字典对所述咨询问题进行分词操作,将所述咨询问题拆分为多个词组;将获得的多个词组以及所述设备类型进行关联并保存。

【技术特征摘要】
1.一种分词统计方法,其特征在于,所述方法包括:接收咨询请求,获得所述咨询请求中携带的咨询问题,并获得发起所述咨询请求的用户端的设备类型;基于预先建立的自定义用户字典对所述咨询问题进行分词操作,将所述咨询问题拆分为多个词组;将获得的多个词组以及所述设备类型进行关联并保存。2.根据权利要求1所述的分词统计方法,其特征在于,所述方法还包括:每间隔第一预设时长,统计该第一预设时长内所获得的与每个设备类型关联的各个词组的数量;根据上述获得的与每个设备类型关联的各个词组的数量获得热点词组,以使客服人员根据各个设备类型的热点词组,构建对应的咨询答案。3.根据权利要求1所述的分词统计方法,其特征在于,所述基于预先建立的自定义用户字典对所述咨询问题进行分词操作,将所述咨询问题拆分为多个词组的步骤之后,所述方法还包括:获得预先建立的与所述设备类型对应的多个无效词;检测获得的多个词组中的各个词组是否能够匹配上获得的任意一个无效词;针对每个词组,若该词组匹配上多个无效词中的任意一个无效词,则将该词组删除。4.根据权利要求1所述的分词统计方法,其特征在于,所述基于预先建立的自定义用户字典对所述咨询问题进行分词操作,将所述咨询问题拆分为多个词组的步骤之后,所述方法还包括:对获得的多个词组进行去重操作。5.根据权利要求1所述的分词统计方法,其特征在于,所述方法还包括:针对第二预设时长内接收到的各个咨询请求,利用预存的初始用户字典对各个咨询请求中携带的咨询问题进行分词操作,将所述咨询问题拆分为多个词组;统计所述第二预设时长内所获得的各个词组的数量,用于基于各个词组的数量以及各个词组的内容构建关键词;将构建的关键词添加至所述初始用户字典中,得到所述自定义用户字典。6.根据权利要求5所述...

【专利技术属性】
技术研发人员:吴哲慧张迪峰陈璇斐
申请(专利权)人:广州虎牙科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1