基于图注意网络的口语到书面语转换方法、装置和设备制造方法及图纸

技术编号:37259200 阅读:12 留言:0更新日期:2023-04-20 23:34
本发明专利技术提供一种基于图注意网络的口语到书面语转换方法、装置和设备,其中方法包括:对口语文档进行语义编码,得到口语文档的语义表示;基于口语文档的语义表示,确定口语文档的文档结构图中各节点的初始表示,文档结构图中包括文档节点、语句节点和分词节点;基于注意力机制,对文档结构图中各节点的初始表示进行消息传播,得到文档结构图的结构图表示;基于结构图表示进行语义解码,得到口语文档对应的书面文档。本发明专利技术提供的方法、装置和设备,通过构建文档图结构示意图,能够得到更加简洁的、可读性强的书面文档,避免了跨越句子边界的口语术语在进行文本转换时被遗漏的问题,保证了文档级口语文本的书面转换效果。文档级口语文本的书面转换效果。文档级口语文本的书面转换效果。

【技术实现步骤摘要】
基于图注意网络的口语到书面语转换方法、装置和设备


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于图注意网络的口语到书面语转换方法、装置和设备。

技术介绍

[0002]由于人们在说话和写作时的语言应用方式存在差异,且说话时可能存在句法和语法错误、不流利的情况,以及语音录制时携带的噪声,都会对语音识别所得的口语文本的可访问性和可读性造成影响。
[0003]因此,将口语文本转换为书面文本,对于降低文本内容理解难度十分重要。目前的口语到书面的文本转换研究,通常是逐句转换。但实际上,在文档级的口语文本中,口语术语可能会跨越句子边界,且口语文本本身十分冗长,组织不善,逐句转换无法检测前后句子之间的影响,且只能删除口语术语,无法实现文档级口语文本的重组简化,转换效果并不理想。

技术实现思路

[0004]本专利技术提供一种基于图注意网络的口语到书面语转换方法、装置和设备,用以解决现有技术中逐句进行口语到书面语的转换方式,不适用于文档级的转换场景,转换效果不理想问题。
[0005]本专利技术提供一种基于图注意网络的口语到书面语转换方法,包括:
[0006]对口语文档进行语义编码,得到所述口语文档的语义表示;
[0007]以所述口语文档的语义表示,确定所述口语文档的文档结构图中各节点的初始表示,所述文档结构图中包括文档节点、语句节点和分词节点,所述文档节点与属于所述口语文档的口语语句对应的语句节点连接,所述语句节点与属于所述口语语句的各分词对应的分词节点连接;
[0008]以注意力机制,对所述文档结构图中各节点的初始表示进行消息传播,得到所述文档结构图的结构图表示;
[0009]以所述结构图表示进行语义解码,得到所述口语文档对应的书面文档。
[0010]根据本专利技术提供的一种基于图注意网络的口语到书面语转换方法,所述基于注意力机制,对所述文档结构图中各节点的初始表示进行消息传播,得到所述文档结构图的结构图表示,包括:
[0011]基于所述注意力机制,对所述文档结构图中同一层级节点的初始表示进行消息传播,得到所述文档结构图中各节点的层级化表示;
[0012]基于所述注意力机制,对所述文档结构图中各节点的层级化表示进行消息传播,得到所述文档结构图的结构图表示。
[0013]根据本专利技术提供的一种基于图注意网络的口语到书面语转换方法,所述基于所述注意力机制,对所述文档结构图中同一层级节点的初始表示进行消息传播,得到所述文档
结构图中各节点的层级化表示,包括:
[0014]基于所述文档结构图中的各分词节点,构建词级全连接图;
[0015]基于所述文档结构图中的各语句节点,构建句级全连接图;
[0016]基于所述注意力机制,对所述词级全连接图中各分词节点的初始表示进行消息传播,得到所述各分词节点的层级化表示;
[0017]基于所述注意力机制,对所述句级全连接图中各语句节点的初始表示进行消息传播,得到所述各语句节点的层级化表示。
[0018]根据本专利技术提供的一种基于图注意网络的口语到书面语转换方法,所述基于所述结构图表示进行语义解码,得到所述口语文档对应的书面文档,包括:
[0019]对所述语义表示和所述结构图表示进行特征融合,得到融合表示;
[0020]基于所述融合表示进行语义解码,得到所述口语文档对应的书面文档。
[0021]根据本专利技术提供的一种基于图注意网络的口语到书面语转换方法,所述对所述语义表示和所述结构图表示进行特征融合,得到融合表示,包括:
[0022]基于所述语义表示和所述结构图表示进行门控注意力机制计算,得到注意力权重;
[0023]基于所述注意力权重,对所述结构图表示进行增强,得到增强图表示;
[0024]对所述语义表示和所述增强图表示进行特征融合,得到所述融合表示。
[0025]根据本专利技术提供的一种基于图注意网络的口语到书面语转换方法,所述基于所述口语文档的语义表示,确定所述口语文档的文档结构图中各节点的初始表示,包括:
[0026]将所述口语文档中各分词的语义表示,作为所述文档结构图中各分词节点的初始表示;
[0027]基于所述口语文档中各语句下的分词的语义表示,确定所述文档结构图中的各语句节点的初始表示;
[0028]基于所述文档结构图中的各语句节点的初始表示,确定所述文档结构图中所述文档节点的初始表示。
[0029]本专利技术还提供一种基于图注意网络的口语到书面语转换装置,包括:
[0030]编码单元,用于对口语文档进行语义编码,得到所述口语文档的语义表示;
[0031]图表示单元,用于基于所述口语文档的语义表示,确定所述口语文档的文档结构图中各节点的初始表示,所述文档结构图中包括文档节点、语句节点和分词节点,所述文档节点与属于所述口语文档的口语语句对应的语句节点连接,所述语句节点与属于所述口语语句的各分词对应的分词节点连接;
[0032]图传播单元,用于基于注意力机制,对所述文档结构图中各节点的初始表示进行消息传播,得到所述文档结构图的结构图表示;
[0033]解码单元,用于基于所述结构图表示进行语义解码,得到所述口语文档对应的书面文档。
[0034]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于图注意网络的口语到书面语转换方法。
[0035]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算
机程序被处理器执行时实现如上述任一种所述基于图注意网络的口语到书面语转换方法。
[0036]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于图注意网络的口语到书面语转换方法。
[0037]本专利技术提供的基于图注意网络的口语到书面语转换方法、装置和设备,以对口语文档进行语义编码,得到所述口语文档的语义表示。以注意力机制,对所述文档结构图中各节点的初始表示进行消息传播,得到所述文档结构图的结构图表示。以所述结构图表示进行语义解码,得到更加简洁的、可读性强的书面文档,避免了跨越句子边界的口语术语在进行文本转换时被遗漏的问题,保证了文档级口语文本的书面转换效果。
附图说明
[0038]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1是本专利技术提供的基于图注意网络的口语到书面语转换方法的流程示意图之一;
[0040]图2是本专利技术提供的文档结构图;
[0041]图3是本专利技术提供的基于图注意网络的口语到书面语转换方法的流程示意图之二;
[0042]图4是本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图注意网络的口语到书面语转换方法,其特征在于,包括:对口语文档进行语义编码,得到所述口语文档的语义表示;基于所述口语文档的语义表示,确定所述口语文档的文档结构图中各节点的初始表示,所述文档结构图中包括文档节点、语句节点和分词节点,所述文档节点与属于所述口语文档的口语语句对应的语句节点连接,所述语句节点与属于所述口语语句的各分词对应的分词节点连接;基于注意力机制,对所述文档结构图中各节点的初始表示进行消息传播,得到所述文档结构图的结构图表示;基于所述结构图表示进行语义解码,得到所述口语文档对应的书面文档。2.根据权利要求1所述的基于图注意网络的口语到书面语转换方法,其特征在于,所述基于注意力机制,对所述文档结构图中各节点的初始表示进行消息传播,得到所述文档结构图的结构图表示,包括:基于所述注意力机制,对所述文档结构图中同一层级节点的初始表示进行消息传播,得到所述文档结构图中各节点的层级化表示;基于所述注意力机制,对所述文档结构图中各节点的层级化表示进行消息传播,得到所述文档结构图的结构图表示。3.根据权利要求2所述的基于图注意网络的口语到书面语转换方法,其特征在于,所述基于所述注意力机制,对所述文档结构图中同一层级节点的初始表示进行消息传播,得到所述文档结构图中各节点的层级化表示,包括:基于所述文档结构图中的各分词节点,构建词级全连接图;基于所述文档结构图中的各语句节点,构建句级全连接图;基于所述注意力机制,对所述词级全连接图中各分词节点的初始表示进行消息传播,得到所述各分词节点的层级化表示;基于所述注意力机制,对所述句级全连接图中各语句节点的初始表示进行消息传播,得到所述各语句节点的层级化表示。4.根据权利要求1所述的基于图注意网络的口语到书面语转换方法,其特征在于,所述基于所述结构图表示进行语义解码,得到所述口语文档对应的书面文档,包括:对所述语义表示和所述结构图表示进行特征融合,得到融合表示;基于所述融合表示进行语义解码,得到所述口语文档对应的书面文档。5.根据权利要求4所述的基于图注意网络的口语到书面语转换方法,其特征在于,所述对所述语义表...

【专利技术属性】
技术研发人员:赵云龙徐爽徐波
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1