【技术实现步骤摘要】
自然语言处理的方法及装置
本说明书一个或多个实施例涉及计算机
,尤其涉及通过计算机进行自然语言处理的方法和装置。
技术介绍
随着人工智能技术的发展,自然语言处理的应用也越来越多。例如,对于互联网发布内容的风险防控,进行舆情控制、反欺诈、跨境禁限售、反洗钱、文本垃圾等等场景,就需要通过自然语言处理来识别文本的风险性。而不同场景下,需要的自言语言模型也可能不同。常规技术中,往往针对不同场景,在相应语言框架下,从空白开始建立新的自然语言处理(NLP)模型。这种建模方式中,相同的流程被重复。例如,重新建立语料库、手动扩充数据集,等等。
技术实现思路
本说明书一个或多个实施例描述了一种计算机执行的自然语言处理方法和装置,利用自然语言处理模型建模中存在的规律,自动完成自然语言处理模型的建模,并通过模型评估机制累计优秀经验,从而提高自然语言处理的有效性。根据第一方面,提供了一种计算机执行的自然语言处理的方法,所述方法包括:获取经过人工标注的多个文本作为初始样本;确定所述初始样本中各个文本分别对应的各个文本矩阵;对所述初始样本中的各个文本分别通过预先存储的扩展方案集中的至少一个 ...
【技术保护点】
1.一种计算机执行的自然语言处理的方法,所述方法包括:获取经过人工标注的多个文本作为初始样本;确定所述初始样本中各个文本分别对应的各个文本矩阵;对所述初始样本中的各个文本分别通过预先存储的扩展方案集中的至少一个扩展方案进行扩展,并根据扩展得到的文本生成扩展样本,其中,针对所述初始样本中的各个文本,文本矩阵满足一致性条件的文本对应相同的扩展方案;将所述初始样本和所述扩展样本共同作为训练样本训练自然语言处理模型;对所训练的自然语言处理模型进行评估,并在评估结果满足预定条件的情况下,输出当前自然语言处理模型,以用于自然语言处理。
【技术特征摘要】
1.一种计算机执行的自然语言处理的方法,所述方法包括:获取经过人工标注的多个文本作为初始样本;确定所述初始样本中各个文本分别对应的各个文本矩阵;对所述初始样本中的各个文本分别通过预先存储的扩展方案集中的至少一个扩展方案进行扩展,并根据扩展得到的文本生成扩展样本,其中,针对所述初始样本中的各个文本,文本矩阵满足一致性条件的文本对应相同的扩展方案;将所述初始样本和所述扩展样本共同作为训练样本训练自然语言处理模型;对所训练的自然语言处理模型进行评估,并在评估结果满足预定条件的情况下,输出当前自然语言处理模型,以用于自然语言处理。2.根据权利要求1所述的方法,其中,所述通过人工标注的多个文本是经过分词、去除停用词的预处理的文本。3.根据权利要求1所述的方法,其中,所述一致性条件包括以下至少一项:对应的文本矩阵长度和宽度的偏差都在预定范围内;矩阵相似度大于预定矩阵相似度阈值;聚类到同一类别。4.根据权利要求1所述的方法,其中,所述扩展方案包括词向量扩展,所述词向量包括以下至少一种:基于词嵌入的词向量、基于笔画的词向量、基于词缀的词向量。5.根据权利要求4所述的方法,其中,所述初始样本中的多个文本包括第一文本,所述第一文本包括第一词汇;以及所述对所述初始样本中的各个文本分别通过扩展方案集中的至少一个扩展方案进行扩展包括:针对所述第一词汇,检测语料库中是否存在与所述第一词汇的词向量的相似度大于预定词汇相似度阈值的相似词汇;在存在所述相似词汇的情况下,用所述相似词汇替换所述第一词汇,以对所述第一文本进行扩展。6.根据权利要求1所述的方法,其中,所述扩展方案包括多语种翻译扩展,所述初始样本中的多个文本包括第一文本,所述第一文本通过第一语言描述;所述对所述初始样本中的各个文本分别通过扩展方案集中的至少一个扩展方案进行扩展包括:将所述第一文本通过语言转换模型翻译成第二语言描述的第二文本;将所述第二文本通过语言转换模型翻译成通过所述第一语言描述的第三文本;根据所述第三文本确定扩展得到的文本。7.根据权利要求1所述的方法,其中,所述将扩展得到的文本生成扩展样本包括:通过预先训练的标注模型对扩展所得到的文本进行标注,并将标注结果和对应的扩展得到的文本一起形成扩展样本。8.根据权利要求1所述的方法,其中,所述预定条件包括以下至少一项:所训练的自然语言处理模型的曲线下面积AUC大于第一阈值;所训练的自然语言处理模型的平衡F分数大于第二阈值,其中,所述平衡F分数是准确率和召回率的加权平均。9.一种自然语言处理的装置,所述装置包括:获取单元,配置为获取经过人工标注的多个文本作为初始样本;确定单元,配置...
【专利技术属性】
技术研发人员:袁锦程,王维强,许辽萨,赵闻飙,叶芸,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。