The embodiment of the invention discloses a data processing method and device for a chat robot, which relates to the technical field of large data and can expand the application range of the chat robot. The invention comprises: extracting a statement from the historical data of a dialogue, and eliminating punctuation and expression characters in the extracted statement, wherein the extracted statement comprises at least one question-answer pair, a question-answer pair including at least one question and an answer corresponding to the at least one question, and filtering the said question according to a preset blacklist. Characters in a sentence are taken and at least one character is recorded in the blacklist; the extracted sentence is cut into words and converted into preset characters if the frequency of the characters is lower than the threshold value; and the sentences after the cut are used as training sets to train the depth learning model.
【技术实现步骤摘要】
一种用于聊天机器人的数据处理方法及装置
本专利技术涉及大数据
,尤其涉及一种用于聊天机器人的数据处理方法及装置。
技术介绍
在互联网领域,聊天机器人已被大量使用,用于实现一些较为简单的人工问答。在实际应用中,提供聊天服务的机器人,一般都是基于检索的模型。基于检索的模型的聊天机器人虽然准确度较高,可控性较大,但是只能从现有知识库中检索答案,因此能给出的答案有限。用户在使用这类聊天机器人时,经常会遇到所提问题无法被回答,机器人只能反馈默认答复的情况,这就导致了聊天机器人的应用范围优先,抢购、促销等很多高刷新率的业务类型无法有效应用。
技术实现思路
本专利技术的实施例提供一种用于聊天机器人的数据处理方法及装置,能够扩大聊天机器人的应用范围。为达到上述目的,本专利技术的实施例采用如下技术方案:从对话的历史数据中提取语句,并剔除所提取语句中的标点和表情字符,其中,所提取语句包括至少一个问答对,问答对包括了至少一个问题和与所述至少一个问题对应的答案;根据预设的黑名单,过滤所述所提取语句中的字符,所述黑名单中记录了至少1个字符;对所述所提取语句进行切词处理,并将切词处理所得的字符中出现频率低于阈值的,转换为预设字符;利用切词处理后的语句作为训练集,训练深度学习模型。本实施例中采用对话的历史数据作为训练集,并且对历史数据中提取的语句进行了大幅度的清理,包括提取高质量的问答对,去掉句子中不相关内容,去掉过长和过短的句子,用专有的切词工具进行切词等等。处理好的高质量问答对可以输入深度学习模型进行学习。而对话的历史数据则可以来源于不同业务类型的电商客服,从而实现了针对不同业务 ...
【技术保护点】
1.一种用于聊天机器人的数据处理方法,其特征在于,包括:从对话的历史数据中提取语句,并剔除所提取语句中的标点和表情字符,其中,所提取语句包括至少一个问答对,问答对包括了至少一个问题和与所述至少一个问题对应的答案;根据预设的黑名单,过滤所述所提取语句中的字符,所述黑名单中记录了至少1个字符;对所述所提取语句进行切词处理,并将切词处理所得的字符中出现频率低于阈值的,转换为预设字符;利用切词处理后的语句作为训练集,训练深度学习模型。
【技术特征摘要】
1.一种用于聊天机器人的数据处理方法,其特征在于,包括:从对话的历史数据中提取语句,并剔除所提取语句中的标点和表情字符,其中,所提取语句包括至少一个问答对,问答对包括了至少一个问题和与所述至少一个问题对应的答案;根据预设的黑名单,过滤所述所提取语句中的字符,所述黑名单中记录了至少1个字符;对所述所提取语句进行切词处理,并将切词处理所得的字符中出现频率低于阈值的,转换为预设字符;利用切词处理后的语句作为训练集,训练深度学习模型。2.根据权利要求1所述的方法,其特征在于,还包括:在从对话的历史数据中提取语句之后,根据所述黑名单过滤所提取语句。3.根据权利要求1所述的方法,其特征在于,还包括:在对所述所提取语句进行切词处理之后,识别表示地理信息的字符;按照所述表示地理信息的字符所表示的地理位置,选择对应所述地理位置的标识字符,并通过对应所述地理位置的标识字符替换所述表示地理信息的字符。4.根据权利要求1所述的方法,其特征在于,还包括:在将切词处理所得的字符中出现频率低于阈值的转换为预设字符之后,统计各语句的字符数量;将字符数量低于语句长度下限的语句,通过补位符号(PAD符号)填充;并将字符数量高于语句长度上限的语句剔除。5.根据权利要求1所述的方法,其特征在于,还包括:在训练深度学习模型之前,从所述训练集的语句中,提取问答对的问题,并将所提取的问题倒装。6.根据权利要求5所述的方法,其特征在于,还包括:获取当前输入用户设备的问题,在预设的知识库中进行答案匹配,并获取各个答案的匹配分数;当得分最高的匹配分数低于临界值时,通过所训练得深度学习模型获取答案并返回给所述用户设备。7.一种用于聊天机器人的数...
【专利技术属性】
技术研发人员:李聪睿,李悦,程进兴,
申请(专利权)人:苏宁易购集团股份有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。