文本快速生成方法、计算机可读存储介质、电子设备技术

技术编号:27975613 阅读:33 留言:0更新日期:2021-04-06 14:09
本发明专利技术公开了一种文本快速生成方法、计算机可读存储介质、电子设备,其中,文本快速生成方法包括:获取表格数据;对表格数据中的内容进行分词后再进行词向量化处理,以获得表格属性层的词向量化序列和表格内容层的词向量化序列;分别对表格属性层的词向量化序列和表格内容层的词向量化序列进行编码,并结合注意力机制进行解码,以获得目标词id序列;对目标词id序列进行文本转换,并进行关联词替换和未知词拷贝,以生成作为输出文本的最终单词序列。由此,该文本快速生成方法能够在保证文本生成正确的同时,提高文本生成速度。

【技术实现步骤摘要】
文本快速生成方法、计算机可读存储介质、电子设备
本专利技术涉及自然语言生成
,尤其涉及一种文本快速生成方法、一种计算机可读存储介质和一种电子设备。
技术介绍
自然语言生成技术是自然语言处理领域的一个重要分支,专指从机器可读数据生成自然语言文本的技术。表格到文本生成是自然语言生成领域的一个重要研究方向,在一些应用中经常会用到,例如搜索引擎和问答系统,可以帮助人们更好地理解表,特别是那些使用复杂数据的表格,如天气数据和医疗数据等。表格数据不同于文本或图像这种只有单一维度序列或者维度之间无相关性的序列,它由属性和内容两部分构成,属性之间、内容之间、属性和内容之间都存在相关性。目前已有的生成方法并未能全面考虑表格数据的相关性。由于文本词汇量大,目标词汇表的规格大小有限,常常仅将多次出现的词汇进行统计,而无法包含出现次数非常少的词汇,所以在生成文本的过程中,会将这些词用未知词符号代替,但这些词在文本中或许非常重要,比如罕见的人名、地名等等,从而导致了生成文本并不准确。
技术实现思路
本专利技术旨在至少在一定程度上解决相关本文档来自技高网...

【技术保护点】
1.一种文本快速生成方法,其特征在于,包括:/n获取表格数据;/n对所述表格数据中的内容进行分词后再进行词向量化处理,以获得表格属性层的词向量化序列和表格内容层的词向量化序列;/n分别对所述表格属性层的词向量化序列和所述表格内容层的词向量化序列进行编码,并结合注意力机制进行解码,以获得目标词id序列;/n对所述目标词id序列进行文本转换,并进行关联词替换和未知词拷贝,以生成作为输出文本的最终单词序列。/n

【技术特征摘要】
1.一种文本快速生成方法,其特征在于,包括:
获取表格数据;
对所述表格数据中的内容进行分词后再进行词向量化处理,以获得表格属性层的词向量化序列和表格内容层的词向量化序列;
分别对所述表格属性层的词向量化序列和所述表格内容层的词向量化序列进行编码,并结合注意力机制进行解码,以获得目标词id序列;
对所述目标词id序列进行文本转换,并进行关联词替换和未知词拷贝,以生成作为输出文本的最终单词序列。


2.如权利要求1所述的文本快速生成方法,其特征在于,对所述表格数据中的内容进行分词,以将表格中的每个词表示为词本身、对应的属性、每个词在其属性下出现正向和逆向的位置。


3.如权利要求1所述的文本快速生成方法,其特征在于,分别对所述表格属性层的词向量化序列和所述表格内容层的词向量化序列进行编码,包括:
以属性为主、内容为辅的方式,基于属性门的LSTM对所述表格属性层的词向量化序列进行编码,以获得属性编码结果;
以内容为主、属性为辅的方式,基于内容门的LSTM对所述表格内容层的词向量化序列进行编码,以获得内容编码结果。


4.如权利要求3所述的文本快速生成方法,其特征在于,所述解码过程包括:
利用LSTM-RNN,将编码后获得的属性编码结果和内容编码结果作为解码层的输入,再利用注意力机制,将每一步解码获得的隐藏状态与相应的编码结果关联,以获得当前解码状态与编码中各词的相关性;
将当前解码状态与编码中各词的相关性进行加权变换,以获得属性层解码结果和内容层解码结果;
将所述属性层解码结果和所述内容层解码结果进行加权变换,以获得对应目标词汇的概率,并根据所述概率的大小选择输出的词id,直到遇到结束id为止,以构成所述目标词id序列。


5.如权利要求2所述的文本快速生成方法,其特征在于,对所述目标词id序列进行文本转换,包括:
根据目标词汇表对所述目标词id序列进行逆向转换,以生成中间文本,其中,所述中间文本中的...

【专利技术属性】
技术研发人员:曹娟张鹏洲龚隽鹏温宇俊
申请(专利权)人:中国传媒大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1