【技术实现步骤摘要】
文本语料扩增方法、装置、电子设备及存储介质
本专利技术涉及自然语言处理领域,尤其涉及一种文本语料扩增方法、装置、电子设备及存储介质。
技术介绍
随着数据的不断积累,计算能力的不断提升,一些人工智能系统也越来越成熟,然而在人工智能系统广泛应用的语音识别、数据挖掘、图像识别、自然语言处理、视频理解领域,大多都是需要基于一定量的数据,在数据规模达到一定规模后,再构建基于深度学习的模型,才能发挥出较好的效果。例如,深度神经网络在许多任务中表现较好,但深度神经网络通常需要大量数据才能避免过拟合。但是,许多场景下,无法获取大量数据,例如医学图像数据。数据的扩增和增强技术即是为了解决这个问题而使用的技术,通过让有限的数据产生更多等价数据来克服用于训练的训练数据的不足。在语音识别、自然语言处理、机器翻译等领域,尤其是一些特定的场景,常常会遇到数据量不足的问题。因此,文本语料的自动扩增和数据增强方法尤为重要。目前来说,一方面,数据扩增与增强技术,主要用于图像和视频领域。在图像识别领域,常见的数据扩增包括反转、平移、缩放、亮度变 ...
【技术保护点】
1.一种文本语料扩增方法,所述方法包括:/nS11、对原始语料数据预处理,得到原始语料数据的分词结果,基于所述原始语料数据的分词结果生成原始语料关键词;/nS12、基于所述原始语料关键词、搜索引擎的语法、搜索引擎爬取数据的处理方式,生成搜索策略;/nS13、根据所述搜索策略,采集数据;/nS14、对采集到的数据分词得到多个文本词条,基于每个文本词条的PPL,过滤所述多个文本词条;/nS15、将过滤后保留的文本词条输入领域分类系统,获取新的关键词,将所述新的关键词扩充到所述原始语料关键词中,若未迭代完成,进入S12;否则,方法结束。/n
【技术特征摘要】
1.一种文本语料扩增方法,所述方法包括:
S11、对原始语料数据预处理,得到原始语料数据的分词结果,基于所述原始语料数据的分词结果生成原始语料关键词;
S12、基于所述原始语料关键词、搜索引擎的语法、搜索引擎爬取数据的处理方式,生成搜索策略;
S13、根据所述搜索策略,采集数据;
S14、对采集到的数据分词得到多个文本词条,基于每个文本词条的PPL,过滤所述多个文本词条;
S15、将过滤后保留的文本词条输入领域分类系统,获取新的关键词,将所述新的关键词扩充到所述原始语料关键词中,若未迭代完成,进入S12;否则,方法结束。
2.根据权利要求1所述的方法,其中,所述预处理包括格式规范化、文本归一化、分词处理。
3.根据权利要求1所述的方法,其中,所述搜索引擎爬取数据的处理方式包括:
对搜索引擎查找到的页面,仅提取快照、摘要、相关搜索、标题的信息。
4.根据权利要求1所述的方法,所述原始语料关键词包括指定搜索领域的关键词。
5.根据权利要求1所述的方法,其中,所述对采集到的数据分词得到多个文本词条,基于每个文本词条的PPL,过滤所述多个文本词条包括:将采集到的数据处理成多个文本词条,通过预设的领域模型为每个文本词条打分,测算每个文本词条的PPL,将每个文本词条的PPL与预设阈值比较,基于比较结果,确定是否过滤相应的文本词条。
6.根据权利要求1所述的方法,其中,所述将过滤后保留的文本词条输入领域分类系统,获取新的关键词,将所述新的关键词扩充到所述原始语料关键词中包括:其中,将过滤后保留的文本词条输入领域分类系统,基于领域分类的结果,获取更细粒度的新的关键词,再将所述新的关键词扩充到所述原始语料关键词中。
7.一种文本语料扩增装置,包括:
分词模块,配置为对原始语料数据预处理,得到原始语料数据的分词结果,基于所述原始语料数据的分词结果生成原始语料关键词;
搜索策略生成模块、配置为基于所述原始语料关键词、搜...
【专利技术属性】
技术研发人员:温亚,
申请(专利权)人:苏州思必驰信息科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。