语料生成方法及系统、智能设备和计算机装置制造方法及图纸

技术编号:16427943 阅读:28 留言:0更新日期:2017-10-21 22:52
本发明专利技术提出了一种语料生成方法及系统、智能设备、计算机装置和计算机可读存储介质。其中,该语料生成方法包括:获取场景信息,并在场景信息中提取场景关键词;通过执行网络爬虫获取至少一条语句;提取每条语句的特征词;根据场景关键词及每条语句的特征词对每条语句进行分类,得到第一语句分类;计算每条语句与其他语句的相似度;将相似度大于预设相似度阈值的语句划分成为第二语句分类;获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句;将场景关键词及有效语句输出至文本文件。本发明专利技术提供的语料生成方法,通过自动对网络爬虫获取到的语句进行场景归类,提高该语料生成方法采集语料的速度、效率和准确率。

Method and system for generating corpus, intelligent equipment and computer device

The invention provides a method, system, intelligent device, computer device and computer readable storage medium for generating corpora. Among them, including the data generation method: obtaining the information of the scene and the scene in the keyword extraction scene information; through the implementation of web crawler to obtain at least one statement; extracting feature words for each statement; according to the scene and key words of each statement for each statement in the feature classification, the first sentence similarity calculation for each statement and classification; other statements; the similarity is greater than a preset threshold of similarity sentence into second sentence classification; get in the first and two statement statement classification classification at the same time the statement as an effective sentence; the scene keywords and valid statement output to a text file. The method of generating the corpus provided by the invention can automatically classify the sentences obtained by the crawler, so as to improve the speed, efficiency and accuracy of the corpus to generate the corpus.

【技术实现步骤摘要】
语料生成方法及系统、智能设备和计算机装置
本专利技术涉及语料生成
,具体而言,涉及一种语料生成方法、语料生成系统、智能设备、计算机装置和计算机可读存储介质。
技术介绍
随着物联网概念的兴起,智能家电产品进入人们的生活。例如,智能冰箱的产生,使得用户快速、便捷地在冰箱上体验商品购买、菜谱查阅、食材配置、营养健康等,并且厨房情景下的语料整理方法,可以快速、高效、准确地采集用户在厨房情景下可能的问答语句,为厨房语音做语料准备。目前,厨房语料的采集通常采用以下两种方案:方案一,通过人工调查问卷形式采集厨房下的语料,再结合人工校对的方式整理语料;方案二,通过爬虫方式采集厨房下的语料,再结合人工校对的方式整理语料。然而,方案一有如下几种缺点:(1)成本较高,需要印制人工调查问卷;(2)效率较低,很难在短时间内完成采集任务;(3)采集的厨房语料中的问句存在重复,需要人工二次处理,代价比较高。方案二有如下几种缺点:(1)爬虫环节没有清洗、合并等规则,仍需要进行清理工作;(2)需要采取人工审核的方式,效率较低。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此,本专利技术的第一个目的在于,提出一种语料生成方法。本专利技术的第二个目的在于,提出一种语料生成系统。本专利技术的第三个目的在于,提出一种智能设备。本专利技术的第四个目的在于,提出一种计算机设备。本专利技术的第五个目的在于,提出一种计算机可读存储介质。有鉴于此,根据本专利技术的第一个目的,提供了一种语料生成方法,用于智能设备,该语料生成方法包括:获取场景信息,并在场景信息中提取场景关键词;通过执行网络爬虫获取至少一条语句;提取每条语句的特征词;根据场景关键词及每条语句的特征词对每条语句进行分类,得到第一语句分类;计算每条语句与其他语句的相似度;将相似度大于预设相似度阈值的语句划分成为第二语句分类;获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句;将场景关键词及有效语句输出至文本文件。本专利技术提供的语料生成方法,通过获取场景信息和至少一条语句,并根据在场景信息中提取的场景关键词,以及在获取的语句中提取的每条语句的特征词,对每条语句进行分类,使得将收集来的语句归类到场景关键词中,自动进行第一语句分类,分类结果准确。进一步地,通过对计算出的每条语句与其他语句的相似度大于预设相似度阈值的语句进行划分,使得通过相似度计算自动进行第二语句分类,分类结果准确。进一步地,获取同时存在于第一语句分类及第二语句分类中的语句作为有效语句,并将场景关键词及有效语句输出至文本文件,达到了自动对有效语句进行场景归类的目的,提高了该语料生成方法采集语料的速度、效率和准确率,避免了相关技术中采用人工干预进行语料采集,节省了大量的人力资源。具体实施例中,用户可以自定义网络爬虫的爬虫脚本,通过执行爬虫脚本获取至少一条语句,使得该语料生成方法支持可自定义的爬虫脚本扩展。用户可以自定义场景信息,通过获取用户自定义的场景信息,使得该语料生成方法支持可自定义的场景信息扩展。另外,根据本专利技术上述的语料生成方法,还可以具有如下附加的技术特征:在上述技术方案中,优选地,通过执行网络爬虫获取至少一条语句的步骤,具体包括:判断网络爬虫是否满足预设爬虫执行规则;当网络爬虫满足预设爬虫执行规则时,判断统一资源定位符是否可访问以及网络是否拥堵;当统一资源定位符可访问以及网络未拥堵时,执行网络爬虫,获取至少一条语句。在该技术方案中,当网络爬虫满足预设爬虫执行规则,并且统一资源定位符可访问以及网络是未拥堵时,执行网络爬虫,使得获取到的语句满足预设爬虫执行规则,保证网络爬虫获取语句的速度、效率和准确率。在上述任一技术方案中,优选地,预设爬虫执行规则为按照预设数据来源、预设时间点、预设间隔周期、预设重试次数、预设线程数、预设邮件收件人列表、预设邮件正文执行。在该技术方案中,通过设置预设爬虫执行规则,使得获取到的语句满足预设爬虫执行规则,保证网络爬虫获取语句的速度、效率和准确率。具体地说,预设爬虫执行规则为但不局限于按照预设数据来源、预设时间点、预设间隔周期、预设重试次数、预设线程数、预设邮件收件人列表、预设邮件正文执行。进一步地,用户可以自定义该预设爬虫执行规则,使得网络爬虫获取到的语句满足用户的个性化需求,提升用户的使用体验。具体实施例中,通过设置预设数据来源和预设线程数,使得该语料生成方法支持多数据源和多线程的可配置的爬虫执行规则,充分利用机器资源,提高了该语料生成方法采集语料的速度和效率。通过设置预设重试次数,使得该语料生成方法支持自动重试的可配置的爬虫执行规则。通过设置预设时间点、预设间隔周期、预设邮件收件人列表、预设邮件正文执行,使得在执行网络爬虫后,通过按照预设邮件收件人列表、预设邮件正文执行网络爬虫,以邮件形式告知在多个预设时间点网络爬虫获取的语句条数、获取的语句数据来源等,使得预设邮件收件人及时获悉语料采集的状态,进而使得该语料生成方法对语料采集进行实时监控,实现实时跟踪语料采集的状态。在上述任一技术方案中,优选地,在提取每条语句的特征词的步骤之前,还包括:删除每条语句中重复的语句;删除每条语句中字数小于预设值的语句;删除每条语句中不包含疑问词的语句;删除每条语句中不包含烹饪方法词的语句;删除每条语句中的疑问副词。在该技术方案中,在提取每条语句的特征词的步骤之前,对网络爬虫获取到的至少一条语句进行清洗操作。具体地说,在提取每条语句的特征词的步骤之前,通过删除每条语句中重复的语句,删除每条语句中字数小于预设值的语句,删除每条语句中不包含疑问词的语句,删除每条语句中不包含烹饪方法词的语句,以及删除每条语句中的疑问副词,达到清洗后的语句符合场景信息的要求,进而提高了该语料生成方法采集语料的速度、效率和准确率。在上述任一技术方案中,优选地,根据场景关键词及每条语句的特征词对每条语句进行分类,得到第一语句分类的步骤,具体包括:根据场景关键词生成场景关键词的向量,根据每条语句的特征词生成每条语句的向量;计算每条语句的向量与场景关键词的向量的差异度;将差异度小于预设差异度阈值的语句划分成为第一语句分类。在该技术方案中,通过根据场景关键词和每条语句的特征词生成对应的向量,并计算每条语句的向量与场景关键词的向量的差异度,将差异度小于预设差异度阈值的语句划分成为第一语句分类,使得将收集来的语句归类到场景关键词中,自动进行第一语句分类,保证了该第一语句分类结果的准确性。在上述任一技术方案中,优选地,计算每条语句与其他语句的相似度的步骤,具体包括:对每条语句进行分词划分;将每条语句的分词与其它语句的分词进行比较,得到每条语句与其他语句的相似度。在该技术方案中,通过对每条语句进行分词划分,并将每条语句的分词与其它语句的分词进行比较,得到每条语句与其他语句的相似度,使得通过相似度计算自动进行第二语句分类,保证了该第二语句分类结果的准确性。根据本专利技术的第二个目的,提供了一种语料生成系统,用于智能设备,该语料生成系统包括:关键词提取单元,用于获取场景信息,并在场景信息中提取场景关键词;第一获取单元,用于通过执行网络爬虫获取至少一条语句;特征词提取单元,用于提取每条语句的特征词;第一分类单元,用于根据场景关键词及每条语句的本文档来自技高网...
语料生成方法及系统、智能设备和计算机装置

【技术保护点】
一种语料生成方法,用于智能设备,其特征在于,所述语料生成方法包括:获取场景信息,并在所述场景信息中提取场景关键词;通过执行网络爬虫获取至少一条语句;提取每条所述语句的特征词;根据所述场景关键词及每条所述语句的特征词对每条所述语句进行分类,得到第一语句分类;计算每条所述语句与其他语句的相似度;将所述相似度大于预设相似度阈值的语句划分成为第二语句分类;获取同时存在于所述第一语句分类及所述第二语句分类中的语句作为有效语句;将所述场景关键词及所述有效语句输出至文本文件。

【技术特征摘要】
1.一种语料生成方法,用于智能设备,其特征在于,所述语料生成方法包括:获取场景信息,并在所述场景信息中提取场景关键词;通过执行网络爬虫获取至少一条语句;提取每条所述语句的特征词;根据所述场景关键词及每条所述语句的特征词对每条所述语句进行分类,得到第一语句分类;计算每条所述语句与其他语句的相似度;将所述相似度大于预设相似度阈值的语句划分成为第二语句分类;获取同时存在于所述第一语句分类及所述第二语句分类中的语句作为有效语句;将所述场景关键词及所述有效语句输出至文本文件。2.根据权利要求1所述的语料生成方法,其特征在于,所述通过执行所述网络爬虫获取至少一条所述语句的步骤,具体包括:判断所述网络爬虫是否满足预设爬虫执行规则;当所述网络爬虫满足所述预设爬虫执行规则时,判断统一资源定位符是否可访问以及网络是否拥堵;当所述统一资源定位符可访问以及所述网络未拥堵时,执行所述网络爬虫,获取至少一条所述语句。3.根据权利要求2所述的语料生成方法,其特征在于,所述预设爬虫执行规则为按照预设数据来源、预设时间点、预设间隔周期、预设重试次数、预设线程数、预设邮件收件人列表、预设邮件正文执行。4.根据权利要求1所述的语料生成方法,其特征在于,在所述提取每条所述语句的特征词的步骤之前,还包括:删除每条所述语句中重复的语句;删除每条所述语句中字数小于预设值的语句;删除每条所述语句中不包含疑问词的语句;删除每条所述语句中不包含烹饪方法词的语句;删除每条所述语句中的疑问副词。5.根据权利要求1所述的语料生成方法,其特征在于,所述根据所述场景关键词及每条所述语句的特征词对每条所述语句进行分类,得到所述第一语句分类的步骤,具体包括:根据所述场景关键词生成所述场景关键词的向量,根据每条所述语句的特征词生成每条所述语句的向量;计算每条所述语句的向量与所述场景关键词的向量的差异度;将所述差异度小于预设差异度阈值的语句划分成为所述第一语句分类。6.根据权利要求1所述的语料生成方法,其特征在于,所述计算每条所述语句与所述其他语句的所述相似度的步骤,具体包括:对每条所述语句进行分词划分;将每条所述语句的分词与其它语句的分词进行比较,得到每条所述语句与所述其他语句的所述相似度。7.一种语料生成系统,用于智能设备,其特征在于,所述语料生成系统包括:关键词提取单元,用于获取场景信息,并在所述场景信息中提取场景关键词;第一获取单元,用于通过执行网络爬虫获取至少一条语句;特征词提取单元,用于提取每条所述语句的特征词;第一分类单元,用于根据所述场景关键词及每条所述语句的特征词...

【专利技术属性】
技术研发人员:沈亮闫永刚
申请(专利权)人:合肥美的智能科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1