【技术实现步骤摘要】
平行语料构建方法及装置、存储介质及电子设备
[0001]本专利技术涉及机器学习
,特别是涉及一种平行语料构建方法及装置、存储介质及电子设备。
技术介绍
[0002]在新闻网站等具有评论互动的媒体平台的运营领域中,通常会将平台上发布的文本内容,如新闻,输入经训练的预训练语言模型,通过模型生成相应的评论内容,将生成的评论内容发布在对应的评论区,以提高平台用户的参与度和互动性。
[0003]而预训练语言模型生成评论的质量与模型训练的样本质量息息相关。在模型训练中,用于模型训练的一组输入文本和输出文本存在对应关系,称为平行语料,故在评论生成任务中,用于模型训练的文本语料及其对应的评论语料是一对平行语料。
[0004]目前,通常是通过人工标注数据构建平行语料,继而得到平行语料库。基于现有方式,平行语料的构建过程需耗费大量的人力和时间,平行语料构建效率较低。其次,基于现有方式构建得到的平行语料受到标注人员文化水平、喜好偏见等个人主观因素影响,语料质量不稳定,容易对后续模型训练效果造成不良影响。
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种平行语料构建方法,其特征在于,包括:确定多个原始语料;所述多个原始语料由多个文本语料和多个评论语料构成;每个所述评论语料为具有特定语言风格的语料;对每个所述原始语料进行关键词提取处理,得到每个所述原始语料对应的关键词集合;依据每个所述原始语料对应的关键词集合,确定每个所述原始语料对应的情感类型;依据各个所述原始语料对应的情感类型,在所述多个评论语料中,确定每个所述文本语料对应的目标评论语料;依据预设的评论改写策略,对每个所述文本语料对应的目标评论语料进行改写处理,得到每个所述文本语料对应的改写评论语料;对于每个所述文本语料,将该文本语料及其对应的改写评论语料作为一组平行语料。2.根据权利要求1所述的方法,其特征在于,所述对每个所述原始语料进行关键词提取处理,得到每个所述原始语料对应的关键词集合,包括:基于预设的第一关键词提取算法,对每个所述原始语料进行关键词提取,得到每个所述原始语料对应的第一关键词集合;所述第一关键词提取算法为基于词频
‑
逆向文件频率设置的关键词提取算法;基于预设的第二关键词提取算法,对每个所述原始语料进行关键词提取,得到每个所述原始语料对应的第二关键词集合;所述第二关键词提取算法为基于词性标注工具设置的关键词提取算法;对于每个所述原始语料,将该原始语料对应的第一关键词集合和第二关键词集合进行合并处理,将合并结果作为该原始语料对应的关键词集合。3.根据权利要求1所述的方法,其特征在于,所述依据每个所述原始语料对应的关键词集合,确定每个所述原始语料对应的情感类型,包括:对于每个所述原始语料,将该原始语料对应的关键词集合输入预先构建的情感分类模型,经所述情感分类模型处理后,获取所述情感分类模型输出的情感分类结果,并将该情感分类结果作为该原始语料对应的情感类型。4.根据权利要求1所述的方法,其特征在于,所述依据各个所述原始语料对应的情感类型,在所述多个评论语料中,确定每个所述文本语料对应的目标评论语料,包括:对于每个所述文本语料,在所述多个评论语料中,确定该文本语料对应的各个候选评论语料,每个所述候选评论语料对应的情感类型与该文本语料对应的情感类型相同;对于每个所述文本语料,确定该文本语料对应的相似度集合,该相似度集合包括该文本语料与其对应的每个候选评论语料之间的相似度;对于每个所述文本语料,依据该文本语料对应的相似度集合,在该文本语料对应的各个候选评论语料中确定该文本语料对应的目标评论语料。5.根据权利要求4所述的方法,其特征在于,所述确定该文本语料对应的相似度集合,包括:依据该文本语料对应的关键词集合,构建该文本语料对应的关键词向量矩阵;对于该文本语料对应的每个候选评论语料,依据该候选评论语料对应的关键词集合,构建该候选评论语料对应的关键词向量矩阵;
对于该文本语料对应的每个候选评论语料,将该候选评论语料对应的关键词向量矩阵与该文本语料对应的关键词向量矩阵进行乘积运算,将运算结果作为该候选评论语料与该文本语料之...
【专利技术属性】
技术研发人员:黎斯思,亓克娜,王卿云,
申请(专利权)人:北京搜狐新媒体信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。