成语润色方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37047823 阅读:15 留言:0更新日期:2023-03-29 19:26
本发明专利技术涉及人工智能技术领域,提供一种成语润色方法、装置、电子设备和存储介质,其中方法包括:确定待润色文本;基于成语润色模型,应用所述待润色文本中各字符的语义特征,对所述待润色文本进行成语润色边界检测,得到文本边界,并基于所述文本边界对应文本片段的语义特征生成润色文本;所述成语润色模型是基于样本文本对、成语标签和文本边界标签训练得到的。本发明专利技术提供的成语润色方法、装置、电子设备和存储介质,通过成语润色模型,能够实现自动生成成语润色后的文本,从而可以帮助更快地构建成语使用体系。成语使用体系。成语使用体系。

【技术实现步骤摘要】
成语润色方法、装置、电子设备和存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种成语润色方法、装置、电子设备和存储介质。

技术介绍

[0002]成语润色具体是指,给出一段文字表述,若这段文字表述存在潜在的可以升格的成语,则会自动捕捉表述中的词义、语境等信息,合理推测原文的思想表达,最终呈现出一段包含成语的润色表述。
[0003]成语润色使得学生可以更加有效,更加有针对性,更加容易地学习优秀的表达方法、优美的成语用法样例等等,从而达到快速提高写作能力,以及锻炼学生自主学习能力的目的。
[0004]虽然现有的自然语言生成技术已经十分成熟,但是在具体任务上需要进行不同的调整,然而目前在成语润色领域与文本生成相关的研究是不充分的,并没有成型的成语润色系统。

技术实现思路

[0005]本专利技术提供一种成语润色方法、装置、电子设备和存储介质,用以解决现有技术中在成语润色领域与文本生成相关的研究不充分,没有成型的成语润色系统的缺陷。
[0006]本专利技术提供一种成语润色方法,包括:
[0007]确定待润色文本;
[0008]基于成语润色模型,应用所述待润色文本中各字符的语义特征,对所述待润色文本进行成语润色边界检测,得到文本边界,并基于所述文本边界对应文本片段的语义特征生成润色文本;
[0009]所述成语润色模型是基于样本文本对、成语标签和文本边界标签训练得到的。
[0010]根据本专利技术提供的成语润色方法,所述成语润色模型的获取步骤包括
[0011]获取样本文本对和初始模型,所述样本文本对包括样本输入文本和样本生成文本;
[0012]基于所述初始模型,应用所述样本输入文本中各字符的语义特征,对所述样本输入文本进行成语润色边界检测,得到预测文本边界,并基于所述预测文本边界对应文本片段的语义特征生成预测润色文本;
[0013]基于文本边界标签和所述预测文本边界之间的差异,以及所述样本生成文本和所述预测润色文本之间的差异,对所述初始模型进行参数迭代,得到所述成语润色模型。
[0014]根据本专利技术提供的成语润色方法,所述获取样本文本对,包括如下步骤中的至少一种:
[0015]获取包含成语的第一样本文本,并对所述第一样本文本进行反向翻译,基于反向翻译文本和所述第一样本文本,确定第一样本文本对;
[0016]获取包含成语的第二样本文本,基于所述第二样本文本的改写文本和所述第二样本文本,确定第二样本文本对;
[0017]获取成语的释义文本,并对所述成语的释义文本进行分句,基于任一分句和所述成语确定第三样本文本对。
[0018]根据本专利技术提供的成语润色方法,所述初始模型的获取步骤包括:
[0019]获取第四样本文本和语言模型;
[0020]将所述第四样本文本中的成语,以及与所述成语相邻的预设数量个分词进行掩码处理,得到掩码文本;
[0021]基于所述第四样本文本、所述掩码文本以及成语标签,对所述语言模型进行参数迭代,得到预训练成语模型,并将所述预训练成语模型作为所述初始模型。
[0022]根据本专利技术提供的成语润色方法,所述基于所述预测文本边界对应文本片段的语义特征生成预测润色文本,之后还包括:
[0023]基于所述预测润色文本中各字符的语义特征,对所述预测润色文本进行语义评分,得到所述预测润色文本的语义评分;
[0024]基于所述预测润色文本的字符和字符数量,对所述预测润色文本进行困惑度评分,得到所述预测润色文本的困惑度评分;
[0025]基于所述预测润色文本和所述样本输入文本之间的最长公共子序列相似度,对所述预测润色文本进行相似度评分,得到所述预测润色文本的相似度评分;
[0026]基于所述预测润色文本的语义评分、困惑度评分和相似度评分中的至少一种,确定所述预测润色文本的生成概率,所述生成概率用于训练所述成语润色模型。
[0027]根据本专利技术提供的成语润色方法,所述基于所述预测润色文本的语义评分、困惑度评分和相似度评分中的至少一种,确定所述预测润色文本的生成概率,包括:
[0028]基于所述预测润色文本的语义评分、困惑度评分和相似度评分,确定综合评分;
[0029]基于所述综合评分和评分阈值,确定所述预测润色文本的生成概率。
[0030]根据本专利技术提供的成语润色方法,所述基于成语润色模型,应用所述待润色文本中各字符的语义特征,对所述待润色文本进行成语润色边界检测,得到文本边界,并基于所述文本边界对应文本片段的语义特征生成润色文本,包括:
[0031]基于编码器,对所述待润色文本中各字符进行编码,得到所述待润色文本中各字符的语义特征;
[0032]基于指示器,应用所述待润色文本中各字符的语义特征,对所述待润色文本进行成语润色边界检测,得到文本边界;
[0033]基于解码器,应用所述文本边界对应文本片段的语义特征,生成润色文本;所述编码器、指示器和解码器构成所述成语润色模型。
[0034]本专利技术还提供一种成语润色装置,包括:
[0035]文本确定单元,用于确定待润色文本;
[0036]文本生成单元,用于基于成语润色模型,应用所述待润色文本中各字符的语义特征,对所述待润色文本进行成语润色边界检测,得到文本边界,并基于所述文本边界对应文本片段的语义特征生成润色文本;所述成语润色模型是基于样本文本对、成语标签和文本边界标签训练得到的。
[0037]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述成语润色方法。
[0038]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述成语润色方法。
[0039]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述成语润色方法。
[0040]本专利技术提供的成语润色方法、装置、电子设备和存储介质,通过基于成语润色模型,应用待润色文本中各字符的语义特征,对待润色文本进行成语润色边界检测,得到文本边界,并基于文本边界对应文本片段的语义特征生成润色文本。通过该成语润色模型,能够实现自动生成成语润色后的文本,从而可以帮助更快地构建成语使用体系。
附图说明
[0041]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]图1是本专利技术提供的成语润色方法的流程示意图之一;
[0043]图2是本专利技术提供的成语润色模型的获取方法流程示意图;
[0044]图3是本专利技术提供的样本文本对获取方法流程示意图;
[0045]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种成语润色方法,其特征在于,包括:确定待润色文本;基于成语润色模型,应用所述待润色文本中各字符的语义特征,对所述待润色文本进行成语润色边界检测,得到文本边界,并基于所述文本边界对应文本片段的语义特征生成润色文本;所述成语润色模型是基于样本文本对、成语标签和文本边界标签训练得到的。2.根据权利要求1所述的成语润色方法,其特征在于,所述成语润色模型的获取步骤包括:获取样本文本对和初始模型,所述样本文本对包括样本输入文本和样本生成文本;基于所述初始模型,应用所述样本输入文本中各字符的语义特征,对所述样本输入文本进行成语润色边界检测,得到预测文本边界,并基于所述预测文本边界对应文本片段的语义特征生成预测润色文本;基于文本边界标签和所述预测文本边界之间的差异,以及所述样本生成文本和所述预测润色文本之间的差异,对所述初始模型进行参数迭代,得到所述成语润色模型。3.根据权利要求2所述的成语润色方法,其特征在于,所述获取样本文本对,包括如下步骤中的至少一种:获取包含成语的第一样本文本,并对所述第一样本文本进行反向翻译,基于反向翻译文本和所述第一样本文本,确定第一样本文本对;获取包含成语的第二样本文本,基于所述第二样本文本的改写文本和所述第二样本文本,确定第二样本文本对;获取成语的释义文本,并对所述成语的释义文本进行分句,基于任一分句和所述成语确定第三样本文本对。4.根据权利要求2所述的成语润色方法,其特征在于,所述初始模型的获取步骤包括:获取第四样本文本和语言模型;将所述第四样本文本中的成语,以及与所述成语相邻的预设数量个分词进行掩码处理,得到掩码文本;基于所述第四样本文本、所述掩码文本以及成语标签,对所述语言模型进行参数迭代,得到预训练成语模型,并将所述预训练成语模型作为所述初始模型。5.根据权利要求2所述的成语润色方法,其特征在于,所述基于所述预测文本边界对应文本片段的语义特征生成预测润色文本,之后还包括:基于所述预测润色文本中各字符的语义特征,对所述预测润色文本进行语义评分,得到语义评分;基于所述预测润色文本的字符和字符数量,对所述预测润色文本进...

【专利技术属性】
技术研发人员:申资卓肖子豪巩捷甫盛志超宋巍章继东王士进胡国平秦兵刘挺
申请(专利权)人:河北省讯飞人工智能研究院科大讯飞北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1