【技术实现步骤摘要】
数据增强方法、系统、存储介质及电子设备
[0001]本专利技术属于数据增强领域,具体涉及一种数据增强方法、系统、存储介质及电子设备。
技术介绍
[0002]电商和社区分享类网站存在大量的商品评价内容,特别是美妆领域的文本;将这部分内容进行有效理解,不仅能够丰富产品和人物画像、优化网站的推荐系统,也能够提高品牌厂商对用户需求的理解、从而更好地营销和研发新产品。
[0003]实体识别是美妆评价内容理解不可或缺的一环。原始的文本首先需要经过实体识别,方能进行后续的关系抽取、情感分析、实体对齐等环节。所以,实体识别的效果极大的影响了后续的处理效果。如何在有限的标注数据下提高实体识别的精度成为亟待解决的问题。
[0004]现有的美妆方法采用传统的数据增强方法,比如通过同标签token替换,同义词替换,实体提及替换,shuffle等。
[0005]因为实体识别(NER)是一个token
‑
level的分类任务,传统的数据增强方法会引入新的噪音,可能会让NER模型变得敏感脆弱,导致指标下降。 />
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种数据增强方法,其特征在于,包括:输入步骤:获取待处理数据,将所述待处理数据复制两份输入到Bert模型;模型处理步骤:通过所述Bert模型对所述待处理数据进行处理,获得处理结果;预测步骤:所述Bert模型对所述处理结果进行计算,获得预测结果。2.如权利要求1所述的数据增强方法,其特征在于,所述模型处理步骤包括:模型构建步骤:在基础的NER模型上采用Bert序列构建Bert模型;特征提取步骤:通过所述Bert模型对所述待处理数据进行特征提取获得特征数据;计算步骤:对所述特征数据进行计算后获得所述预测结果。3.如权利要求2所述的数据增强方法,其特征在于,所述模型处理步骤还包括:模型训练步骤:基于两个样本数据通过计算两个所述样本数据特征的交叉熵损失,以权重为4叠加两个所述样本数据特征的KL散度之和对所述Bert模型进行训练。4.如权利要求2所述的数据增强方法,其特征在于,所述特征提取步骤包括:调整所述Bert模型中的Dropout参数。5.一种数据增强系统,其特征在于,包括:输入模块,输入模块所述获取待处理数据,将所述待处理数据复制两份输入到Bert模型;模型处理模块,所述模型处理模块通过所述Bert模型对所述待处理数据进行处理,获得处理结果...
【专利技术属性】
技术研发人员:邓礼志,于皓,张杰,吴信东,吴明辉,
申请(专利权)人:上海明略人工智能集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。