一种用于聊天机器人的数据处理方法及装置制造方法及图纸

技术编号:19263443 阅读:28 留言:0更新日期:2018-10-27 02:22
本发明专利技术实施例公开了一种用于聊天机器人的数据处理方法及装置,涉及大数据技术领域,能够扩大聊天机器人的应用范围。本发明专利技术包括:从对话的历史数据中提取语句,并剔除所提取语句中的标点和表情字符,其中,所提取语句包括至少一个问答对,问答对包括了至少一个问题和与所述至少一个问题对应的答案;根据预设的黑名单,过滤所述所提取语句中的字符,所述黑名单中记录了至少1个字符;对所述所提取语句进行切词处理,并将切词处理所得的字符中出现频率低于阈值的,转换为预设字符;利用切词处理后的语句作为训练集,训练深度学习模型。

Data processing method and device for chatting robot

The embodiment of the invention discloses a data processing method and device for a chat robot, which relates to the technical field of large data and can expand the application range of the chat robot. The invention comprises: extracting a statement from the historical data of a dialogue, and eliminating punctuation and expression characters in the extracted statement, wherein the extracted statement comprises at least one question-answer pair, a question-answer pair including at least one question and an answer corresponding to the at least one question, and filtering the said question according to a preset blacklist. Characters in a sentence are taken and at least one character is recorded in the blacklist; the extracted sentence is cut into words and converted into preset characters if the frequency of the characters is lower than the threshold value; and the sentences after the cut are used as training sets to train the depth learning model.

【技术实现步骤摘要】
一种用于聊天机器人的数据处理方法及装置
本专利技术涉及大数据
,尤其涉及一种用于聊天机器人的数据处理方法及装置。
技术介绍
在互联网领域,聊天机器人已被大量使用,用于实现一些较为简单的人工问答。在实际应用中,提供聊天服务的机器人,一般都是基于检索的模型。基于检索的模型的聊天机器人虽然准确度较高,可控性较大,但是只能从现有知识库中检索答案,因此能给出的答案有限。用户在使用这类聊天机器人时,经常会遇到所提问题无法被回答,机器人只能反馈默认答复的情况,这就导致了聊天机器人的应用范围优先,抢购、促销等很多高刷新率的业务类型无法有效应用。
技术实现思路
本专利技术的实施例提供一种用于聊天机器人的数据处理方法及装置,能够扩大聊天机器人的应用范围。为达到上述目的,本专利技术的实施例采用如下技术方案:从对话的历史数据中提取语句,并剔除所提取语句中的标点和表情字符,其中,所提取语句包括至少一个问答对,问答对包括了至少一个问题和与所述至少一个问题对应的答案;根据预设的黑名单,过滤所述所提取语句中的字符,所述黑名单中记录了至少1个字符;对所述所提取语句进行切词处理,并将切词处理所得的字符中出现频率低于阈值的,转换为预设字符;利用切词处理后的语句作为训练集,训练深度学习模型。本实施例中采用对话的历史数据作为训练集,并且对历史数据中提取的语句进行了大幅度的清理,包括提取高质量的问答对,去掉句子中不相关内容,去掉过长和过短的句子,用专有的切词工具进行切词等等。处理好的高质量问答对可以输入深度学习模型进行学习。而对话的历史数据则可以来源于不同业务类型的电商客服,从而实现了针对不同业务类型的电商客服,有区别得设置针对性的深度学习模型,提高生成型的深度学习模型应用在不同业务类型的聊天机器人的训练效果,使得聊天机器人的回答方式不再拘泥于知识库,扩大聊天机器人的应用范围。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例提供的系统架构示意图;图2为本专利技术实施例提供的方法流程示意图;图3为本专利技术实施例提供的具体实例示意图;图4、图5为本专利技术实施例提供的装置结构示意图。具体实施方式为使本领域技术人员更好地理解本专利技术的技术方案,下面结合附图和具体实施方式对本专利技术作进一步详细描述。下文中将详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。本实施例中的方法流程,具体可以在一种如图1所示的系统上执行,该系统包括:前端服务器、后台服务器和数据库。其中,前端服务器主要用于:具体用于接收用户设备发送的词组、语句和特殊符号(比如表情符号、颜文字等)等文本信息,在实际应用中,用户设备发送的搜索词主要由用户通过用户设备的输入设备比如:键盘、触摸屏、鼠标等输入用户设备;并向发布搜索工具的操作界面,以便于用户设备通过操作界面输入搜索词。后台服务器主要用于:对语句进行处理并训练深度学习模型,具体流程至少包括但不限于:从对话的历史数据中提取语句,并剔除所提取语句中的标点和表情字符;根据预设的黑名单,过滤所述所提取语句中的字符;对所述所提取语句进行切词处理,并将切词处理所得的字符中出现频率低于阈值的,转换为预设字符;利用切词处理后的语句作为训练集,训练深度学习模型。本实施例中所揭示的前端服务器以及后台服务器,具体可以是服务器、工作站、超级计算机等设备,或者是由多个服务器组成的一种用于数据处理的服务器集群系统。需要说明的是,在实际应用中,前端服务器和后台服务器通常可以集成在同一个服务器集群中,即通过同一个服务器集群同时承担前端服务器和后台服务器的功能,并用于执行本实施例所提供的流程。数据库主要用于:用于存储存储产品信息、电子商务平台、在线购物平台等在日常运行中生成的每日高频搜索词、用户的聊天记录等可以记录为对话的历史数据,本实施例中的对话可以理解为具备特定含义的字符串,这些字符串包括了汉字、数字、英文或者其他语言的字符组成的词组,也可以包括表情符、颜文字等特殊字符。本实施例中所揭示的数据库,具体可以是一种Redis数据库或者其他类型的分布式数据库、关系型数据库等,具体可以是包括存储设备的数据服务器以及与数据服务器相连的存储设备,或者是由多个数据服务器和存储服务器组成的一种用于数据库的服务器集群系统。本实施例中所揭示的用户设备具体可以实做成单独一台装置,或整合于各种不同的媒体数据播放装置中,诸如机顶盒、移动电话、平板电脑(TabletPersonalComputer)、膝上型电脑(LaptopComputer)、多媒体播放器、数字摄影机、个人数字助理(personaldigitalassistant,简称PDA)、移动上网装置(MobileInternetDevice,MID)。本专利技术实施例提供一种用于聊天机器人的数据处理方法,如图2所示,包括:S1、从对话的历史数据中提取语句,并剔除所提取语句中的标点和表情字符。用户设备与前端服务器进行数据交互,具体到业务层面可以是用户通过用户设备输入对话框一些提问语句;之后,前端服务器上部署的聊天机器人,或者与客服人员通过自己的工作终端经由前端服务器与用户进行对话,并向对话框输入回答语句。前端服务器上可以运行各类业务系统,比如电子商务平台、在线购物平台等。业务系统在日常运行中生成的每日高频搜索词、用户的聊天记录等可以记录为对话的历史数据,对话的历史数据通常可以记录为指定时间内连续的问答语句。本实施例中的语句可以理解为具备特定含义的字符串,这些字符串包括了汉字、数字、英文或者其他语言的字符组成的词组,也可以包括表情符、颜文字等特殊字符。其中,所提取语句包括至少一个问答对,问答对包括了至少一个问题和与所述至少一个问题对应的答案。例如:在问答对可以是一定的时间范围内连续的问答对话,如示例1所示的:q:[多大毫安的];a:[亲稍等呢宝本文档来自技高网
...

【技术保护点】
1.一种用于聊天机器人的数据处理方法,其特征在于,包括:从对话的历史数据中提取语句,并剔除所提取语句中的标点和表情字符,其中,所提取语句包括至少一个问答对,问答对包括了至少一个问题和与所述至少一个问题对应的答案;根据预设的黑名单,过滤所述所提取语句中的字符,所述黑名单中记录了至少1个字符;对所述所提取语句进行切词处理,并将切词处理所得的字符中出现频率低于阈值的,转换为预设字符;利用切词处理后的语句作为训练集,训练深度学习模型。

【技术特征摘要】
1.一种用于聊天机器人的数据处理方法,其特征在于,包括:从对话的历史数据中提取语句,并剔除所提取语句中的标点和表情字符,其中,所提取语句包括至少一个问答对,问答对包括了至少一个问题和与所述至少一个问题对应的答案;根据预设的黑名单,过滤所述所提取语句中的字符,所述黑名单中记录了至少1个字符;对所述所提取语句进行切词处理,并将切词处理所得的字符中出现频率低于阈值的,转换为预设字符;利用切词处理后的语句作为训练集,训练深度学习模型。2.根据权利要求1所述的方法,其特征在于,还包括:在从对话的历史数据中提取语句之后,根据所述黑名单过滤所提取语句。3.根据权利要求1所述的方法,其特征在于,还包括:在对所述所提取语句进行切词处理之后,识别表示地理信息的字符;按照所述表示地理信息的字符所表示的地理位置,选择对应所述地理位置的标识字符,并通过对应所述地理位置的标识字符替换所述表示地理信息的字符。4.根据权利要求1所述的方法,其特征在于,还包括:在将切词处理所得的字符中出现频率低于阈值的转换为预设字符之后,统计各语句的字符数量;将字符数量低于语句长度下限的语句,通过补位符号(PAD符号)填充;并将字符数量高于语句长度上限的语句剔除。5.根据权利要求1所述的方法,其特征在于,还包括:在训练深度学习模型之前,从所述训练集的语句中,提取问答对的问题,并将所提取的问题倒装。6.根据权利要求5所述的方法,其特征在于,还包括:获取当前输入用户设备的问题,在预设的知识库中进行答案匹配,并获取各个答案的匹配分数;当得分最高的匹配分数低于临界值时,通过所训练得深度学习模型获取答案并返回给所述用户设备。7.一种用于聊天机器人的数...

【专利技术属性】
技术研发人员:李聪睿李悦程进兴
申请(专利权)人:苏宁易购集团股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1