The invention provides a method, system, intelligent device, computer device and computer readable storage medium for generating corpora. Among them, including the data generation method: obtaining the information of the scene and the scene in the keyword extraction scene information; through the implementation of web crawler to obtain at least one statement; extracting feature words for each statement; according to the scene and key words of each statement for each statement in the feature classification, the first sentence similarity calculation for each statement and classification; other statements; the similarity is greater than a preset threshold of similarity sentence into second sentence classification; get in the first and two statement statement classification classification at the same time the statement as an effective sentence; the scene keywords and valid statement output to a text file. The method of generating the corpus provided by the invention can automatically classify the sentences obtained by the crawler, so as to improve the speed, efficiency and accuracy of the corpus to generate the corpus.
【技术实现步骤摘要】
语料生成方法及系统、智能设备和计算机装置
本专利技术涉及语料生成
,具体而言,涉及一种语料生成方法、语料生成系统、智能设备、计算机装置和计算机可读存储介质。
技术介绍
随着物联网概念的兴起,智能家电产品进入人们的生活。例如,智能冰箱的产生,使得用户快速、便捷地在冰箱上体验商品购买、菜谱查阅、食材配置、营养健康等,并且厨房情景下的语料整理方法,可以快速、高效、准确地采集用户在厨房情景下可能的问答语句,为厨房语音做语料准备。目前,厨房语料的采集通常采用以下两种方案:方案一,通过人工调查问卷形式采集厨房下的语料,再结合人工校对的方式整理语料;方案二,通过爬虫方式采集厨房下的语料,再结合人工校对的方式整理语料。然而,方案一有如下几种缺点:(1)成本较高,需要印制人工调查问卷;(2)效率较低,很难在短时间内完成采集任务;(3)采集的厨房语料中的问句存在重复,需要人工二次处理,代价比较高。方案二有如下几种缺点:(1)爬虫环节没有清洗、合并等规则,仍需要进行清理工作;(2)需要采取人工审核的方式,效率较低。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此,本专利技术的第一个目的在于,提出一种语料生成方法。本专利技术的第二个目的在于,提出一种语料生成系统。本专利技术的第三个目的在于,提出一种智能设备。本专利技术的第四个目的在于,提出一种计算机设备。本专利技术的第五个目的在于,提出一种计算机可读存储介质。有鉴于此,根据本专利技术的第一个目的,提供了一种语料生成方法,用于智能设备,该语料生成方法包括:获取场景信息,并在场景信息中提取场景关键 ...
【技术保护点】
一种语料生成方法,用于智能设备,其特征在于,所述语料生成方法包括:获取场景信息,并在所述场景信息中提取场景关键词;通过执行网络爬虫获取至少一条语句;提取每条所述语句的特征词;根据所述场景关键词及每条所述语句的特征词对每条所述语句进行分类,得到第一语句分类;计算每条所述语句与其他语句的相似度;将所述相似度大于预设相似度阈值的语句划分成为第二语句分类;获取同时存在于所述第一语句分类及所述第二语句分类中的语句作为有效语句;将所述场景关键词及所述有效语句输出至文本文件。
【技术特征摘要】
1.一种语料生成方法,用于智能设备,其特征在于,所述语料生成方法包括:获取场景信息,并在所述场景信息中提取场景关键词;通过执行网络爬虫获取至少一条语句;提取每条所述语句的特征词;根据所述场景关键词及每条所述语句的特征词对每条所述语句进行分类,得到第一语句分类;计算每条所述语句与其他语句的相似度;将所述相似度大于预设相似度阈值的语句划分成为第二语句分类;获取同时存在于所述第一语句分类及所述第二语句分类中的语句作为有效语句;将所述场景关键词及所述有效语句输出至文本文件。2.根据权利要求1所述的语料生成方法,其特征在于,所述通过执行所述网络爬虫获取至少一条所述语句的步骤,具体包括:判断所述网络爬虫是否满足预设爬虫执行规则;当所述网络爬虫满足所述预设爬虫执行规则时,判断统一资源定位符是否可访问以及网络是否拥堵;当所述统一资源定位符可访问以及所述网络未拥堵时,执行所述网络爬虫,获取至少一条所述语句。3.根据权利要求2所述的语料生成方法,其特征在于,所述预设爬虫执行规则为按照预设数据来源、预设时间点、预设间隔周期、预设重试次数、预设线程数、预设邮件收件人列表、预设邮件正文执行。4.根据权利要求1所述的语料生成方法,其特征在于,在所述提取每条所述语句的特征词的步骤之前,还包括:删除每条所述语句中重复的语句;删除每条所述语句中字数小于预设值的语句;删除每条所述语句中不包含疑问词的语句;删除每条所述语句中不包含烹饪方法词的语句;删除每条所述语句中的疑问副词。5.根据权利要求1所述的语料生成方法,其特征在于,所述根据所述场景关键词及每条所述语句的特征词对每条所述语句进行分类,得到所述第一语句分类的步骤,具体包括:根据所述场景关键词生成所述场景关键词的向量,根据每条所述语句的特征词生成每条所述语句的向量;计算每条所述语句的向量与所述场景关键词的向量的差异度;将所述差异度小于预设差异度阈值的语句划分成为所述第一语句分类。6.根据权利要求1所述的语料生成方法,其特征在于,所述计算每条所述语句与所述其他语句的所述相似度的步骤,具体包括:对每条所述语句进行分词划分;将每条所述语句的分词与其它语句的分词进行比较,得到每条所述语句与所述其他语句的所述相似度。7.一种语料生成系统,用于智能设备,其特征在于,所述语料生成系统包括:关键词提取单元,用于获取场景信息,并在所述场景信息中提取场景关键词;第一获取单元,用于通过执行网络爬虫获取至少一条语句;特征词提取单元,用于提取每条所述语句的特征词;第一分类单元,用于根据所述场景关键词及每条所述语句的特征词...
【专利技术属性】
技术研发人员:沈亮,闫永刚,
申请(专利权)人:合肥美的智能科技有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。