【技术实现步骤摘要】
文本分析方法、装置和存储介质
[0001]本公开涉及人工智能
,特别是一种文本分析方法、装置和存储介质。
技术介绍
[0002]机器翻译系统在设计和优化时,需要经历多次的翻译质量评估过程。翻译的评估在特定的测试文本上进行,一般会给定参考译文,以辅助评估译文质量。译文评估时需要兼顾语言学的多种特征,相关技术中的译文评估方法包括:
[0003]1)基于自动评估指标的评估方法。在自动的评估方法中,依据一些特定的规则自动提取翻译输出和参考译文中的句子特征,并进行比对,得到句子质量的最终得分。
[0004]2)基于人工的评估方法。使用这样的方法时,需要邀请评分员对句子进行评分,其打分也作为自动评估指标好坏的黄金标准。由于直接让评分员打分的方式存在评分分歧,不确定性较大,近两年国际机器翻译比赛中开始采用MQM(Multidimensional Quality Metric,多维质量评估框架),让评分员详细标注错误所在位置,并标定错误严重程度,根据不同的错误严重程度计算最终得分。
技术实现思路
[00 ...
【技术保护点】
【技术特征摘要】
1.一种文本分析方法,包括:根据待分析文本和对应的参考文本,基于预训练的文本评估模型确定所述待分析文本的第一评估值;校正所述待分析文本中的第一类错误,获取校正文本,并确定所述校正文本的第二评估值;根据所述第一评估值和所述第二评估值,确定所述待分析文本的评估结果。2.根据权利要求1所述的方法,其中,所述根据所述第一评估值和所述第二评估值的评估值,确定所述待分析文本的评估结果包括:所述根据所述第一评估值、所述第二评估值和所述参考文本的评估值,确定所述第一类错误的第一惩罚量和第二类错误的第二惩罚量,其中,所述第二类错误为所述校正文本包括的错误;根据所述参考文本的评估值、所述第一惩罚量和所述第二惩罚量,确定所述待分析文本的评估结果。3.根据权利要求2所述的方法,其中,所述根据所述参考文本的评估值、所述第一惩罚量和所述第二惩罚量,确定所述待分析文本的评估结果包括:根据所述第一惩罚量和对应的第一权重、所述第二惩罚量和对应的第二权重,确定所述待分析文本的惩罚量总值,其中,所述第一权重大于所述第二权重;根据所述参考文本的评估值和所述惩罚量总值,确定所述待分析文本的评估结果。4.根据权利要求1所述的方法,其中,所述校正所述待分析文本中的第一类错误,获取校正文本,并确定所述校正文本的第二评估值包括:根据所述预训练的文本评估模型确定所述待分析文本的第一类错误;通过删除、替换或增加词中至少一种方式校正所述待分析文本的所述第一类错误,确定所述校正文本;根据所述校正文本和所述参考文本,基于所述预训练的文本评估模型确定所述校正文本的第二评估值。5.根据权利要求4所述的方法,其中,所述根据所述预训练的文本评估模型确定所述待分析文本的第一类错误包括:基于所述预训练的文本评估模型,确定所述待分析文本中词语的生成概率;根据所述生成概率确定所述待分析文本中属于所述第一类错误的待校正词语。6.根据权利要求5所述的方法,其中,所述通过删除、替换或增加词中至少一种方式校正所述待分析文本校正所述第一类错误,确定所述校正文本包括:通过删除所述待校正词语、替换所述待校正词语或在所述待校正词语的位置增加词语中任意一种方式校正所述待分析文本,获取所述校正文本。7.根据权利要求5所述的方法,其中,所述通过删除、替换或增加词中至少一种方式校正所述待分析文本校正所述第一类错误,确定所述校正文本包括:分别通过删除所述待校正词语、替换所述待校正词语或在所述待校正词语的位置增加词语中至少两种方式校正所述待分析文本,获取待筛选校正文本;根据参考文本和每个所述待筛选校正文本,基于预训练的文...
【专利技术属性】
技术研发人员:丁亮,陆清屿,陶大程,
申请(专利权)人:京东科技信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。