System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及信息获取,具体为一种基于ernie用于由评论提取到评论者关键信息的方法。
技术介绍
1、google最近提出的bert模型,通过随机屏蔽15%的字或者word,利用transformer的多层self-attention双向建模能力,在各项nlp下游任务中都取得了很好的成绩。但是,bert模型主要是聚焦在针对字或者英文word粒度的完形填空学习上面,没有充分利用训练数据当中词法结构,语法结构,以及语义信息去学习建模。而ernie通过对训练数据中的词法结构,语法结构,语义信息进行统一建模,极大地增强了通用语义表示能力,在多项任务中均取得了大幅度超越bert的效果。
2、现有技术中,ernie 3.0的框架分为两个模块:
3、1.universal representation module,负责提取语义特征(可以使用多层的transformer).在任何时候,这里权重都是共享。采用一个多层的transformer-xl作为backbone。
4、2.task-specific representation modules,负责提取task-specific的语义特征,参数是从在执行task-specific任务上学习的。
5、它可以广泛用于预训练、微调和zero/few-shot学习。与普遍的统一预训练策略不同,ernie 3.0设计了一个新的连续多范式统一预训练框架,即对不同的精心设计的cloze任务采用共享的transformer网络,并利用特定的self-atte
技术实现思路
1、本专利技术的目的在于提供一种基于ernie用于由评论提取到评论者关键信息的方法,利用ernie模型进行语言理解,通过预训练后,能够准确理解评论区的语言,然后找到关键的有用的信息。这样的信息大致是非结构化的信息,将其转为结构化信息进行后续的操作。
2、为实现上述目的,本专利技术提供如下技术方案:一种基于ernie用于由评论提取到评论者关键信息的方法,所述方法包括以下步骤:
3、利用大规模的预训练模型和知识强化模型,设计预训练的任务,指定与预训练的过程;
4、设定自定义的数据集,将非结构化数据处理成结构化数据,进行数据输入,数据处理,数据读入,加载模型;
5、利用数据输出得到想从评论中获取的关键字段,评论者的态度,意图,情绪。
6、优选的,还包括:
7、ernie 3.0通过知识mask语言模型训练nlu网络,以提高捕获词汇信息的能力。
8、优选的,还包括:
9、通过训练句子重排任务和句子距离辨别任务来加强捕获句法信息的能力。
10、优选的,还包括:
11、通过通用知识-文本预测任务来优化模型,以提高知识记忆和推理能力。
12、优选的,还包括:
13、ernie 3.0用文档语言模型任务训练nlg网络,以实现各种生成风格。
14、优选的,预训练的过程包括渐进式训练。
15、与现有技术相比,本专利技术的有益效果是:
16、本专利技术提出的基于ernie用于由评论提取到评论者关键信息的方法,通过ernie模型进行语言理解,通过预训练后,能够准确理解评论区的语言,然后找到关键的有用的信息。这样的信息大致是非结构化的信息,将其转为结构化信息进行后续的操作。方便直接从评论中得到大众的看法,方便统计比例,也可以通过文本获取事情对大众的影响。也可以用于处理反馈,不用调查问卷上机械的选项,直接通过文字得到想要的反馈信息。
本文档来自技高网...【技术保护点】
1.一种基于ERNIE用于由评论提取到评论者关键信息的方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种基于ERNIE用于由评论提取到评论者关键信息的方法,其特征在于:还包括:
3.根据权利要求1所述的一种基于ERNIE用于由评论提取到评论者关键信息的方法,其特征在于:还包括:
4.根据权利要求1所述的一种基于ERNIE用于由评论提取到评论者关键信息的方法,其特征在于:还包括:
5.根据权利要求1所述的一种基于ERNIE用于由评论提取到评论者关键信息的方法,其特征在于:还包括:
6.根据权利要求1所述的一种基于ERNIE用于由评论提取到评论者关键信息的方法,其特征在于:预训练的过程包括渐进式训练。
【技术特征摘要】
1.一种基于ernie用于由评论提取到评论者关键信息的方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种基于ernie用于由评论提取到评论者关键信息的方法,其特征在于:还包括:
3.根据权利要求1所述的一种基于ernie用于由评论提取到评论者关键信息的方法,其特征在于:还包括:
4.根...
【专利技术属性】
技术研发人员:徐士强,左鹏,王禹博,李承林,卢炳旭,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。