文本处理方法、模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号:27743543 阅读:40 留言:0更新日期:2021-03-19 13:37
本申请提供一种文本处理方法、模型的训练方法、装置、设备及存储介质,涉及数据处理技术领域。该文本处理方法,包括:获取待处理的文本;根据待处理的文本,采用预先训练获取的文本处理模型,得到待处理的文本对应的文本编辑操作序列,文本编辑操作序列为待处理的文本中各字符所组成的序列,序列中包括每个字符所需执行的编辑操作的标识,文本处理模型使用标记有文本编辑操作序列标签的样本文本训练得到,文本编辑操作序列标签根据样本文本以及样本文本对应的标注目标文本得到;根据文本编辑操作序列,得到待处理的文本对应的目标文本,目标文本包括待处理的文本对应的压缩文本或改写文本。本方案得到的待处理的文本的目标文件可读性较高。

【技术实现步骤摘要】
文本处理方法、模型的训练方法、装置、设备及存储介质
本申请涉及数据处理
,具体而言,涉及一种文本处理方法、模型的训练方法、装置、设备及存储介质。
技术介绍
随着互联网和AI(ArtificialIntelligent,人工智能)技术的高速发展,社交媒体等多个领域中,存在大量字数的商品描述,也称为样本文本。如何可以将样本文本的内容压缩到字数更少更容易令人理解的短语或者短句是这些领域有待解决的一些问题。在NLP(NaturalLanguageProcess,自然语言处理)领域中,文本压缩(文本简化)比较适合上述场景,文本压缩,即输入一段文字,希望系统输出一小段核心语义不变、但更为简洁的表达。现有技术中,将文本压缩任务视为一个序列标注任务,基于单纯字符的考虑,对训练样本中的每个字符进行标注以进行模型训练,训练完成后,会基于用户输入,输出一段序列,表示这段文本中哪些词应该被保留、哪些应该被删去,将这样的序列进行还原后可得到一段压缩后的文本。但是,现有技术缺乏整句上的语义把控,从而导致得到的压缩后的文本的语义表示不清晰,文本压缩结果的准确性较差。
技术实现思路
本申请的目的在于,针对上述现有技术中的不足,提供一种文本处理方法、模型的训练方法、装置、设备及存储介质,以便于解决现有技术中存在的单纯基于字符考虑,判断每个字符的编辑操作,缺乏整体语义的把控,从而导致得到的压缩后的文本可读性较差,语义表达不清晰的问题。为实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请实施例提供了一种文本处理方法,包括:获取待处理的文本;根据所述待处理的文本,采用预先训练获取的文本处理模型,得到所述待处理的文本对应的文本编辑操作序列,所述文本编辑操作序列为所述待处理的文本中各字符所组成的序列,所述序列中包括每个字符所需执行的编辑操作的标识,所述文本处理模型使用标记有文本编辑操作序列标签的样本文本训练得到,所述文本编辑操作序列标签根据所述样本文本以及所述样本文本对应的标注目标文本得到;根据所述文本编辑操作序列,得到所述待处理的文本对应的目标文本,所述待处理的文本对应的目标文本包括所述待处理的文本对应的压缩文本或改写文本。可选地,所述根据所述待处理的文本,采用预先训练获取的文本处理模型,得到所述待处理的文本对应的文本编辑操作序列之前,所述方法还包括:采用预先构建的领域词词典,对所述待处理的文本进行领域词替换,得到替换后的待处理的文本;对所述替换后的待处理的文本进行复制,并将复制得到的文本与所述待处理的文本进行拼接,得到预处理后的待处理的文本;所述根据所述待处理的文本,采用预先训练获取的文本处理模型,得到所述待处理的文本对应的文本编辑操作序列,包括:根据所述预处理后的待处理的文本,采用预先训练获取的文本处理模型,得到所述预处理后的待处理的文本对应的文本编辑操作序列。可选地,所述文本处理模型包括:编码层和解码层;所述根据所述预处理后的待处理的文本,采用预先训练获取的文本处理模型,得到所述预处理后的待处理的文本对应的文本编辑操作序列,包括:将所述预处理后的待处理的文本输入所述编码层进行语义编码,得到所述预处理后的待处理的文本的语义向量;将所述预处理后的待处理的文本的语义向量输入所述解码层进行解码,得到所述预处理后的待处理的文本对应的文本编辑操作序列。可选地,所述根据所述文本编辑操作序列,得到所述待处理的文本对应的目标文本,包括:根据所述文本编辑操作序列中每个字符所需执行的编辑操作的标识、以及所述编辑操作的标识与预设的编辑操作的映射关系,得到所述待处理的文本对应的目标文本。可选地,所述每个字符所需执行的编辑操作包括:删除操作、保留操作或替换操作。第二方面,本申请实施例提供了一种文本处理模型的训练方法,包括:采集样本文本数据集,所述样本文本数据集中包括多个样本文本,每个所述样本文本标记有:文本编辑操作序列标签,每个样本文本所包括的字符数量小于预设数量,所述文本编辑操作序列标签用于标识所述样本文本中各字符所需执行的编辑操作,所述文本编辑操作序列标签根据所述样本文本以及所述样本文本对应的标注目标文本得到;对所述样本文本数据集中的每个所述样本文本进行预处理,得到预处理后的样本文本数据集;采用所述预处理后的样本文本数据集,训练获取所述文本处理模型,所述文本处理模型用于获取待处理的文本对应的文本编辑操作序列,所述文本编辑操作序列为所述待处理的文本中各字符所组成的序列,所述序列中包括每个字符所需执行的编辑操作的标识。可选地,所述对所述样本文本数据集中的每个所述样本文本进行预处理,得到预处理后的样本文本数据集,包括:根据知识图谱信息和/或领域指导信息,从所述样本文本数据集中每个所述样本文本中获取领域词,所述领域词用于表征实体信息;构建每个所述样本文本和领域词的对应关系,形成初始的领域词数据集;根据所述初始的领域词数据集,得到领域词词典;根据所述领域词词典,得到所述预处理后的样本文本数据集。可选地,所述根据所述初始的领域词数据集,得到领域词词典,包括:根据所述初始的领域词数据集,训练获取序列标注模型,所述序列标注模型用于识别文本中的领域词;将所述样本文本数据集输入所述序列标注模型中,识别获取所述样本文本数据集中包含的领域词;根据识别获取的所述样本文本数据集中包含的领域词、以及所述初始的领域词数据集中包含的领域词,得到所述领域词词典。可选地,所述根据所述领域词词典,得到所述预处理后的样本文本数据集,包括:根据所述领域词词典,对所述样本文本数据集中的每个所述样本文本进行领域词替换,得到替换后的样本文本数据集;对所述替换后的样本文本数据集中每个样本文本进行复制,得到每个所述样本文本对应的复制文本,并将所述复制文本与每个所述样本文本进行拼接,得到多个预处理后的样本文本;根据所述多个预处理后的样本文本,得到所述预处理后的样本文本数据集。可选地,对所述样本文本数据集中的每个所述样本文本进行预处理,得到预处理后的样本文本数据集之前,还包括:获取所述样本文本数据集中每个样本文本对应的初始目标文本;根据领域词词典,对所述初始目标文本进行领域词替换,得到所述每个样本文本对应的标注目标文本。可选地,所述采用所述预处理后的样本文本数据集,训练获取所述文本处理模型,包括:根据所述预处理后的样本文本数据集、以及所述每个样本文本对应的标注目标文本,采用文本编辑算法,得到所述预处理后的样本文本数据集中每个样本文本标记的文本编辑操作序列标签;根据所述预处理后的样本文本数据集、以及所述预处理后的样本文本数据集中每个样本文本标记的文本编辑操作序列标签,训练获取所述文本处理模型。可选地,所述根据所述预处理后的样本文本数据集、以及所述预处理后的样本文本数据集中每个样本文本标记的文本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n获取待处理的文本;/n根据所述待处理的文本,采用预先训练获取的文本处理模型,得到所述待处理的文本对应的文本编辑操作序列,所述文本编辑操作序列为所述待处理的文本中各字符所组成的序列,所述序列中包括每个字符所需执行的编辑操作的标识,所述文本处理模型使用标记有文本编辑操作序列标签的样本文本训练得到,所述文本编辑操作序列标签根据所述样本文本以及所述样本文本对应的标注目标文本得到;/n根据所述文本编辑操作序列,得到所述待处理的文本对应的目标文本,所述待处理的文本对应的目标文本包括所述待处理的文本对应的压缩文本或改写文本。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
获取待处理的文本;
根据所述待处理的文本,采用预先训练获取的文本处理模型,得到所述待处理的文本对应的文本编辑操作序列,所述文本编辑操作序列为所述待处理的文本中各字符所组成的序列,所述序列中包括每个字符所需执行的编辑操作的标识,所述文本处理模型使用标记有文本编辑操作序列标签的样本文本训练得到,所述文本编辑操作序列标签根据所述样本文本以及所述样本文本对应的标注目标文本得到;
根据所述文本编辑操作序列,得到所述待处理的文本对应的目标文本,所述待处理的文本对应的目标文本包括所述待处理的文本对应的压缩文本或改写文本。


2.根据权利要求1所述的方法,其特征在于,所述根据所述待处理的文本,采用预先训练获取的文本处理模型,得到所述待处理的文本对应的文本编辑操作序列之前,所述方法还包括:
采用预先构建的领域词词典,对所述待处理的文本进行领域词替换,得到替换后的待处理的文本;
对所述替换后的待处理的文本进行复制,并将复制得到的文本与所述待处理的文本进行拼接,得到预处理后的待处理的文本;
所述根据所述待处理的文本,采用预先训练获取的文本处理模型,得到所述待处理的文本对应的文本编辑操作序列,包括:
根据所述预处理后的待处理的文本,采用预先训练获取的文本处理模型,得到所述预处理后的待处理的文本对应的文本编辑操作序列。


3.根据权利要求2所述的方法,其特征在于,所述文本处理模型包括:编码层和解码层;
所述根据所述预处理后的待处理的文本,采用预先训练获取的文本处理模型,得到所述预处理后的待处理的文本对应的文本编辑操作序列,包括:
将所述预处理后的待处理的文本输入所述编码层进行语义编码,得到所述预处理后的待处理的文本的语义向量;
将所述预处理后的待处理的文本的语义向量输入所述解码层进行解码,得到所述预处理后的待处理的文本对应的文本编辑操作序列。


4.根据权利要求3所述的方法,其特征在于,所述根据所述文本编辑操作序列,得到所述待处理的文本对应的目标文本,包括:
根据所述文本编辑操作序列中每个字符所需执行的编辑操作的标识、以及所述编辑操作的标识与预设的编辑操作的映射关系,得到所述待处理的文本对应的目标文本。


5.根据权利要求1-4任一所述的方法,其特征在于,所述每个字符所需执行的编辑操作包括:删除操作、保留操作或替换操作。


6.一种文本处理模型的训练方法,其特征在于,包括:
采集样本文本数据集,所述样本文本数据集中包括多个样本文本,每个所述样本文本标记有:文本编辑操作序列标签,每个样本文本所包括的字符数量小于预设数量,所述文本编辑操作序列标签用于标识所述样本文本中各字符所需执行的编辑操作,所述文本编辑操作序列标签根据所述样本文本以及所述样本文本对应的标注目标文本得到;
对所述样本文本数据集中的每个所述样本文本进行预处理,得到预处理后的样本文本数据集;
采用所述预处理后的样本文本数据集,训练获取所述文本处理模型,所述文本处理模型用于获取待处理的文本对应的文本编辑操作序列,所述文本编辑操作序列为所述待处理的文本中各字符所组成的序列,所述序列中包括每个字符所需执行的编辑操作的标识。


7.根据权利要求6所述的方法,其特征在于,所述对所述样本文本数据集中的每个所述样本文本进行预处理,得到预处理后的样本文本数据集,包括:
根据知识图谱信息和/或领域指导信息,从所述样本文本数据集中每个所述样本文本中获取领域词,所述领域词用于表征实体信息;
构建每个所述样本文本和领域词的对应关系,形成初始的领域词数据集;
根据所述初始的领域词数据集,得到领域词词典;
根据所述领域词词典,得到所述预处理后的样本文本数据集。


8.根据权利要求7所述的方法,其特征在于,所述根据所述初始的领域词数据集,得到领域词词典,包括:
根据所述初始的领域词数据集,训练获取序列标注模型,所述序列标注模型用于识别文本中的领域词;
将所述样本文本数据集输入所述序列标注模型中,识别获取所述样本文本数据集中包含的领域词;
根据识别获取的所述样本文本数据集中包含的领域词、以及所述初始的领域词数据集中包含的领域词,得到所述...

【专利技术属性】
技术研发人员:汪硕芃张荣升黄诗磊张聪范长杰胡志鹏
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1