【技术实现步骤摘要】
一种文本序列生成方法、装置、设备和介质
本公开实施例涉及人工智能领域,尤其涉及一种文本序列生成方法、装置、设备和介质。
技术介绍
随着资讯类应用软件的流行,需要处理大量资讯类数据,提供给用户。资讯类数据可以以各种形式呈现,例如文本、图片、和视频等。基于文本形成的文章是一种资讯展示的重要形式。由于要处理的文章众多,所以目前已经采用了各种各样的自动化文本转化技术来生成或转换文章,以便把原始文本素材,转换为符合当前需求的文本文章。这种技术用于不同语种的语言之间或不同文本形式之间的转换就是机器翻译,用于文章和摘要之间的转换就是文章自动摘要。但是,现有的文本转化技术会存在事实错误或疏漏的情况,并且转化后得到文本文章一般比较生硬、不流畅。
技术实现思路
本公开实施例提供一种文本序列生成方法、装置、设备和介质,以实现优化作为文本序列的文本文章的生成方法,提高文本文章的准确性和流畅度。第一方面,本公开实施例提供了一种文本序列的生成方法,包括:获取初始文本序列,从所述初始文本序列中提取初始文本特征;获取结构化文本序列,从所述结构化文本序列中提取结构化特征;其中,所述结构化文本序列与所述初始文本序列中的事实相关联;根据所述初始文本特征和所述结构化特征,融合生成目标文本序列。第二方面,本公开实施例还提供了一种文本序列的生成装置,该装置包括:初始文本特征提取模块:用于提取初始文本序列的初始文本特征;结构化特征提取模块:用于提取结构化文本序列的结构化特 ...
【技术保护点】
1.一种文本序列的生成方法,其特征在于,包括:/n获取初始文本序列,从所述初始文本序列中提取初始文本特征;/n获取结构化文本序列,从所述结构化文本序列中提取结构化特征;其中,所述结构化文本序列与所述初始文本序列中的事实相关联;/n根据所述初始文本特征和所述结构化特征,融合生成目标文本序列。/n
【技术特征摘要】
1.一种文本序列的生成方法,其特征在于,包括:
获取初始文本序列,从所述初始文本序列中提取初始文本特征;
获取结构化文本序列,从所述结构化文本序列中提取结构化特征;其中,所述结构化文本序列与所述初始文本序列中的事实相关联;
根据所述初始文本特征和所述结构化特征,融合生成目标文本序列。
2.根据权利要求1所述的方法,其特征在于,根据所述初始文本特征和所述结构化特征,融合生成目标文本序列包括:
根据所述结构化特征对所述初始文本特征进行过滤,且根据所述结构化特征对所述初始文本特征的文本内容进行纠正,以融合生成所述目标文本序列。
3.根据权利要求2所述的方法,其特征在于,根据所述结构化特征对所述初始文本特征进行过滤,且根据所述结构化特征对所述初始文本特征的文本内容进行纠正,以融合生成所述目标文本序列包括:
分别将每个初始文本特征作为当前初始文本特征;
将所述当前初始文本特征与所述结构化特征进行事实匹配,并根据事实匹配结果确定对所述当前初始文本特征的执行动作;
根据所述执行动作,对所述当前初始文本特征进行处理,以生成所述目标文本序列。
4.根据权利要求3所述的方法,其特征在于,根据事实匹配结果确定对所述当前初始文本特征的执行动作包括:
如果存在与当前初始文本特征匹配的结构化特征,且所述当前初始文本特征和匹配的结构化特征的文本内容匹配,则执行动作为保留;
如果存在与当前初始文本特征匹配的结构化特征,且所述当前初始文本特征和匹配的结构化特征的文本内容不一致,则执行动作为拼接生成;
如果不存在与当前初始文本特征匹配的结构化特征,则执行动作为丢弃;
相应的,根据所述执行动作,对所述当前初始文本特征进行处理,以生成所述目标文本序列包括:
如果执行动作为保留,则保留所述当前初始文本特征为所述目标文本特征;
如果执行动作为拼接生成,则根据所述当前初始文本特征和匹配的结构化特征,拼接生成为所述目标文本特征;
如果执行动作为丢弃,则过滤丢弃当前初始文本特征;
根据所述目标文本特征生成所述目标文本序列。
5.根据权利要求3所述的方法,其特征在于,将所述当前初始文本特征与所述结构化特征进行事实匹配,并根据事实匹配结果确定对所述当前初始文本特征的执行动作包括:
将所述当前初始文本特征与所述结构化特征输入长短记忆循环神经网络进行事实匹配,并根据事实匹配结果确定对所述当前初始文本特征的执行动作。
6.根据权利要求1所述的方法,其特征在于,获取初始文本序列,从所述初始文本序列中提取初始文本特征包括:
获取初始文本序列,输入双向长短记忆循环神经网络,以提取所述初始文本特征。
7.根据权利要求1所述的方法,其特征在于,获取结构化文本序列,从所述结构化文本序列中提取结构化特征包括:
根据所述结构化文本序列确定至少一个事实三元组,所述事实三元组包括主语、谓语和宾语;
将所述事实三元组输入全连接神经网络,以拼接形成事实三元组序列,作为所述结构化特征。
8.根据权利要求3所述的方法,其特征在于,将所述当前初始文本特征与所述结构化特征进行事实匹配,并根据事实匹配结果确定对所述当前初始文本特征的执行动作包括:
基于如下公式计算当前事实向量
其中,αt,j按照如下公式确定:
其中,Wα和为待训练参数;bt为当前初始文本特征;st为当前目标文本特征,下标t为文本特征的序号;tj为结构化特征,1≤j≤M,M为结构化特征的数量;exp(...
【专利技术属性】
技术研发人员:李航,乔超,伊曾飒,
申请(专利权)人:北京字节跳动网络技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。