【技术实现步骤摘要】
更新语料库的方法和装置
[0001]本专利技术涉及计算机
,尤其涉及一种更新语料库的方法和装置。
技术介绍
[0002]输入联想是用户端辅助工具,其工作模式为:构建语料库,当用户在前端界面输入信息时,可以截获用户输入,预测用户需求,从语料库中选择最符合用户需求的语料进行推荐。因此,语料库的构建是输入联想准确度的关键。
[0003]现有技术中,语料库的构建包括如下两种方式:一、生成式,即事先确定好用户可能会咨询的问题句,然后将问题句中的实体和形容词剥离出来,接着筛选出符合物品特征的实体和形容词,填入问题句中;二、构建式,即以一定标准筛选出用户常见咨询语句,然后构建出语料库。
[0004]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:一、对于生成式,需要从无到有的挑选问题句,会导致很大工作量,且运营成本极高;二、对于构建式,由于不同品类物品对应的咨询问题不一样,导致得到的语料库不具备通用性;三、对于生成式和构建式,均没有明确的淘汰机制,造成语料暴涨,还会存在无法符合用户需求的过期语料。< ...
【技术保护点】
【技术特征摘要】
1.一种更新语料库的方法,其特征在于,包括:对历史日志进行过滤压缩处理,生成所述历史日志对应的新增语料;利用线上语料库对应的埋点数据和所述线上语料库对应的词语得分表,确定所述线上语料库中的淘汰语料;将所述新增语料补充至所述线上语料库中,将所述淘汰语料从所述线上语料库中删除,以更新所述线上语料库。2.根据权利要求1所述的方法,其特征在于,所述对历史日志进行过滤压缩处理,生成所述历史日志对应的新增语料,包括:获取第一预设时间内的历史日志,对所述历史日志进行解密处理,获得明文日志;利用预设日志过滤规则,对所述明文日志进行过滤处理;对过滤处理后的所述明文日志进行压缩处理,获得所述明文日志对应的备选语料;基于预设筛选模型,对所述备选语料进行模型识别处理,生成所述新增语料。3.根据权利要求2所述的方法,其特征在于,所述利用预设日志过滤规则,对所述明文日志进行过滤处理,包括:对所述明文日志进行基础过滤,将所述明文日志中的系统默认消息、用户相关信息、网址、图片和特殊字符过滤掉,对所述明文日志中的表情符号进行替换;对所述明文日志进行会话内去重处理,将每条明文日志中的重复会话过滤掉;对所述明文日志进行长度过滤,将所述明文日志中不符合预设字符长度的日志过滤掉;对所述明文日志进行次数过滤,将所述明文日志中在第二预设时间内出现的次数小于预设次数的日志过滤掉。4.根据权利要求3所述的方法,其特征在于,所述对过滤处理后的所述明文日志进行压缩处理,获得所述明文日志对应的备选语料,包括:按照所述过滤处理后的所述明文日志在第二预设时间内出现的次数,对所述过滤处理后的所述明文日志进行压缩处理,得到所述备选语料。5.根据权利要求2所述的方法,其特征在于,所述基于预设筛选模型,对所述备选语料进行模型识别处理,生成所述新增语料,包括:将所述备选语料输入负向情绪识别模型中,识别出负向情绪语料,将所述备选语料输入敏感合规模型中,识别出不合规语料;将所述负向情绪语料和所述不合规语料从所述备选语料中删除,生成所述新增语料。6.根据权利要求1所述的方法,其特征在于,在利用线上语料库对应的埋点数据和所述线上语料库对应的词语得分表,确定所述线上语料库中的淘汰语料之前,所述方法还包括:获取所述线上语料库中的至少一个线上语料,对所述至少一个线上语料进行分词,获得至少一个线上语料分词;针对所述至少一个线上语料分词中的线上语料分词,统计所述线上语料分词在所述线上语料库中出现的次数,并根据统计的次数确定所述线上语料分...
【专利技术属性】
技术研发人员:肖翔,何刚,何峰,
申请(专利权)人:北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。