【技术实现步骤摘要】
基于图注意网络的口语到书面语转换方法、装置和设备
[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于图注意网络的口语到书面语转换方法、装置和设备。
技术介绍
[0002]由于人们在说话和写作时的语言应用方式存在差异,且说话时可能存在句法和语法错误、不流利的情况,以及语音录制时携带的噪声,都会对语音识别所得的口语文本的可访问性和可读性造成影响。
[0003]因此,将口语文本转换为书面文本,对于降低文本内容理解难度十分重要。目前的口语到书面的文本转换研究,通常是逐句转换。但实际上,在文档级的口语文本中,口语术语可能会跨越句子边界,且口语文本本身十分冗长,组织不善,逐句转换无法检测前后句子之间的影响,且只能删除口语术语,无法实现文档级口语文本的重组简化,转换效果并不理想。
技术实现思路
[0004]本专利技术提供一种基于图注意网络的口语到书面语转换方法、装置和设备,用以解决现有技术中逐句进行口语到书面语的转换方式,不适用于文档级的转换场景,转换效果不理想问题。
[0005]本专利技术提 ...
【技术保护点】
【技术特征摘要】
1.一种基于图注意网络的口语到书面语转换方法,其特征在于,包括:对口语文档进行语义编码,得到所述口语文档的语义表示;基于所述口语文档的语义表示,确定所述口语文档的文档结构图中各节点的初始表示,所述文档结构图中包括文档节点、语句节点和分词节点,所述文档节点与属于所述口语文档的口语语句对应的语句节点连接,所述语句节点与属于所述口语语句的各分词对应的分词节点连接;基于注意力机制,对所述文档结构图中各节点的初始表示进行消息传播,得到所述文档结构图的结构图表示;基于所述结构图表示进行语义解码,得到所述口语文档对应的书面文档。2.根据权利要求1所述的基于图注意网络的口语到书面语转换方法,其特征在于,所述基于注意力机制,对所述文档结构图中各节点的初始表示进行消息传播,得到所述文档结构图的结构图表示,包括:基于所述注意力机制,对所述文档结构图中同一层级节点的初始表示进行消息传播,得到所述文档结构图中各节点的层级化表示;基于所述注意力机制,对所述文档结构图中各节点的层级化表示进行消息传播,得到所述文档结构图的结构图表示。3.根据权利要求2所述的基于图注意网络的口语到书面语转换方法,其特征在于,所述基于所述注意力机制,对所述文档结构图中同一层级节点的初始表示进行消息传播,得到所述文档结构图中各节点的层级化表示,包括:基于所述文档结构图中的各分词节点,构建词级全连接图;基于所述文档结构图中的各语句节点,构建句级全连接图;基于所述注意力机制,对所述词级全连接图中各分词节点的初始表示进行消息传播,得到所述各分词节点的层级化表示;基于所述注意力机制,对所述句级全连接图中各语句节点的初始表示进行消息传播,得到所述各语句节点的层级化表示。4.根据权利要求1所述的基于图注意网络的口语到书面语转换方法,其特征在于,所述基于所述结构图表示进行语义解码,得到所述口语文档对应的书面文档,包括:对所述语义表示和所述结构图表示进行特征融合,得到融合表示;基于所述融合表示进行语义解码,得到所述口语文档对应的书面文档。5.根据权利要求4所述的基于图注意网络的口语到书面语转换方法,其特征在于,所述对所述语义表...
【专利技术属性】
技术研发人员:赵云龙,徐爽,徐波,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。