用于输出信息的方法和装置制造方法及图纸

技术编号:24888850 阅读:18 留言:0更新日期:2020-07-14 18:16
本公开的实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:获取待提取摘要的文档;将文档进行切句,得到句子列表;对于句子列表中的每个句子,提取该句子的特征;将句子列表中各句子的特征输入预先训练的滑动transformer模型,得到各句子是否为摘要句的预测结果;对于预测结果中因为滑动导致的重复预测的每个句子,按照投票方式确定该句子是否为摘要句;将确定出的摘要句作为模型摘要句输出。该实施方式能够将深度学习与规则相结合来抽取摘要抽取,提取了摘要的可靠性和准确性,具有一定的灵活性和普适性。

【技术实现步骤摘要】
用于输出信息的方法和装置
本公开的实施例涉及计算机
,具体涉及用于输出信息的方法和装置。
技术介绍
随着互联网的发展,自动摘要抽取在各个领域中的应用越来越多,一个良好的自动摘要抽取系统可以帮助审计人员降低文档审阅的人工处理量,提高整体审计效率。文本自动摘要按照抽取方法划分,可以分为抽取式摘要和生成式摘要。抽取式摘要方法通过抽取文档中的句子生成摘要,首先对文档中句子进行二分类,然后选取分为摘要的若干个句子组成摘要,或者根据每个句子的分数进行排序获取摘要。生成式摘要方法不是单纯地利用原文档中的单词或短语组成摘要,而是从原文档中获取主要思想后以不同的表达方式将其表达出来。目前生成式摘要的结果由于存在语句不通顺等问题,效果较差。现有抽取式摘要方法常见的有基于统计学的方法、基于图排序方法、基于机器学习/深度学习方法。基于统计学的方法根据文本形式上的规律判断摘要,基于图排序的方法将句子集合中的每个句子当作图的一个定点,集合之间的关系对应边,最后通过图排序的算法计算各个顶点(句子)最后的得分,生成文本摘要。基于机器学习/深度学习的方法通过人工标注数据集,使用预训练的语义模型表示句子,然后就通过机器学习或深度学习模型如深度置信网络进行学习句子的语义表达,最终生成摘要。基于统计学习的摘要自动抽取方法通常利用统计特征如词频、句子中心性(即与其他句子的相似性),然后结合TF-IDF模型对候选短语进行排序选出摘要,该方法只是单纯利用了单词表层特征,没有充分挖掘词义关系和语义特征,存在较大局限性。基于图排序的方法主要是通过把文章分成若干个段落或句子的集合,每个集合对应一个图的顶点,集合之间的关系对应边。最后通过图排序的算法如PageRank计算各个顶点最后的得分,然后依据得分高低生成文本摘要。往往只考虑了句子节点间的相似关系,忽略了整个文档的结构以及句子的上下文信息,对数据利用不充分。基于机器学习/深度学习的方法使用预训练的语义模型表示句子,然后就通过机器学习或深度学习模型如深度置信网络进行学习句子的语义表达,最终生成摘要。该方法能够充分利用语义特征以及文档结构信息,克服前面两种方法的缺点。但是其往往只简单的学习句子语义特征,没有利用到句子本身的其它信息,例如句子的标题特征、表格特征等,句子的表征信息量少,角度单一。其次现有的深度学习方法往往固定窗口提取摘要,容易丢失句子的上下文信息,例如将同一个段落的句子分为两个窗口进行抽取,第二个窗口的句子则丢失了第一个窗口中的上文性能,导致抽取性能有限。另外文档中的表格短文本内容同样需要抽取摘要,往往是多个单元格的内容组成一个摘要句子,基于深度学习/机器学的方法只能按照句子抽取,无法解决表格短文本摘要的抽取问题。
技术实现思路
本公开的实施例提出了用于输出信息的方法和装置。第一方面,本公开的实施例提供了用于输出信息的方法,包括:获取待提取摘要的文档;将文档进行切句,得到句子列表;对于句子列表中的每个句子,提取该句子的特征;将句子列表中各句子的特征输入预先训练的滑动transformer模型,得到各句子是否为摘要句的预测结果;对于预测结果中因为滑动导致的重复预测的每个句子,按照投票方式确定该句子是否为摘要句;将确定出的摘要句作为模型摘要句输出。第二方面,本公开的实施例提供了一种用于输出信息的装置,包括:获取单元,被配置成获取待提取摘要的文档;切句单元,被配置成将文档进行切句,得到句子列表;特征提取单元,被配置成对于句子列表中的每个句子,提取该句子的特征;预测单元,被配置成将句子列表中各句子的特征输入预先训练的滑动transformer模型,得到各句子是否为摘要句的预测结果;投票单元,被配置成对于预测结果中因为滑动导致的重复预测的每个句子,按照投票方式确定该句子是否为摘要句;输出单元,被配置成将确定出的摘要句作为模型摘要句输出。第三方面,本公开的实施例提供了一种用于输出信息的电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。本公开的实施例提供的用于输出信息的方法和装置,通过综合句向量特征、统计特征、文档分析特征等多个维度的特征进行句子表征。通过transformer学习文档上下文关系,充分利用了句子和文档之间的关系,提高摘要的模型抽取速度和准确率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:图1是本公开的一个实施例可以应用于其中的示例性系统架构图;图2是根据本公开的用于输出信息的方法的一个实施例的流程图;图3是根据本公开的用于输出信息的方法的又一个实施例的流程图;图4是根据本公开的用于输出信息的方法的一个应用场景的示意图;图5是根据本公开的用于输出信息的装置的一个实施例的结构示意图;图6是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。图1示出了可以应用本公开的用于输出信息的方法或用于输出信息的装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如文档编辑类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持文档编辑的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设本文档来自技高网
...

【技术保护点】
1.一种用于输出信息的方法,包括:/n获取待提取摘要的文档;/n将所述文档进行切句,得到句子列表;/n对于所述句子列表中的每个句子,提取该句子的特征;/n将所述句子列表中各句子的特征输入预先训练的滑动transformer模型,得到各句子是否为摘要句的预测结果;/n对于所述预测结果中因为滑动导致的重复预测的每个句子,按照投票方式确定该句子是否为摘要句;/n将确定出的摘要句作为模型摘要句输出。/n

【技术特征摘要】
1.一种用于输出信息的方法,包括:
获取待提取摘要的文档;
将所述文档进行切句,得到句子列表;
对于所述句子列表中的每个句子,提取该句子的特征;
将所述句子列表中各句子的特征输入预先训练的滑动transformer模型,得到各句子是否为摘要句的预测结果;
对于所述预测结果中因为滑动导致的重复预测的每个句子,按照投票方式确定该句子是否为摘要句;
将确定出的摘要句作为模型摘要句输出。


2.根据权利要求1所述的方法,其中,所述方法还包括:
若所述文档包括表格,则将表格进行切分,得到表格列表;
对于所述表格列表中的每个表格,基于获取的摘要模板、该表格的段落分类类别和该表格上一段的文本内容信息,匹配该表格对应的模板名;
将模板名匹配成功的表格进行单元格key值匹配和value值匹配;
将key值匹配和value值匹配成功的单元格内容填充到所述摘要模板中,得到模板摘要句;
输出所述模板摘要句。


3.根据权利要求1或2所述的方法,其中,所述将确定出的摘要句作为模型摘要句输出,包括:
将所述滑动transformer模型计算出的句子属于摘要句的概率按照由大到小的顺序选择至少一个句子,使得所选择的句子的总长度不超过规定的摘要长度;
将所选择的句子作为模型摘要句输出。


4.根据权利要求1或2所述的方法,其中,所述特征包括以下至少一项:
句向量特征、统计特征、文档特征。


5.根据权利要求1或2所述的方法,其中,所述方法还包括:
将样本文档的原文按照句子顺序划分为若干固定长度的窗口;
按照固定的滑动步长基于每一个窗口的句子构造样本集,其中,每个样本包括一个窗口的句子和用于表征该窗口的各句子是否是摘要句的标签;
从所述样本集中选取样本,以及执行以下训练步骤:将选取的样本的一个窗口的句子输入初始滑动transformer模型,得到各句子属于摘要句的概率;将各句子属于摘要句的概率与各句子是否是摘要句的标签进行分析,确定损失值;将所述损失值与目标值进行比较;根据比较结果确定初始滑动transformer模型是否训练完成;响应于确定出所述初始滑动transformer模型训练完成,将所述初始滑动transformer模型确定为滑动transformer模型;
响应于确定出初始滑动transformer模型未训练完成,调整初始滑动transformer模型中的相关参数,以及从所述样本集中重新选取样本,使用调整后的初始滑动transformer模型作为初始滑动transformer模型,继续执行上述训练步骤。


6.根据权利要求5所述的方法,其中,按照预定的比例对摘要句的标签损失值进行加权。


7.根据权利要求2所述的方法,其中,所述将模板名匹配成功的表格进行单元格key值匹配,包括:
计算包括key值的候选单元格;
将所述候选单元格内容和key值的相似词典进行匹配,如果匹配到则直接返回匹配成功的结果。


8.根据权利要求7所述的方法,其中,所述将模板名匹配成功的表格进行单元格key值匹配,还包括:
计算所述候选单元格的内容和所述摘要模板中key值的相似度;
将相似度大于预定相似度阈值的候选单元格的内容当作key值返回。


9.根据权利要求2所述的方法,其中,所述将模板名匹配成功的表格进行单元格value值匹配,包括:
查找匹配当前key值的单元格的下一列和下一行单元格内容,去除和当前key值相同的单元格。


10.根据权利要求2所述的方法,其中,所述将模板名匹配成功的表格进行单元格value值匹配,包括:
通过value值的规则,匹配下一列和下一行单元格,符合所述规则的单元格内容则为需要填空的value值。


11.根据权利要求2所述的方法,其中,所述将模板名匹配成功的表格进行单元格value值匹配,包括:
如果匹配到的摘要模板产生多条结果,则根据上一次的匹配方向继续生成下一条摘要,直到匹配到不符合value值的规则的单元格为止。


12.一种用于输出信息的装置,包括:
获取单元,被配置成获取待提取摘要的文档;
切句单元,被配置成将所述文档进行切句,得到句子列表;
特征提取单元,被配置成对于所述句子列表中的每个句子,提取该句子的特...

【专利技术属性】
技术研发人员:张真张亦鹏刘明浩郭江亮
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1