数据处理方法、及数据处理装置制造方法及图纸

技术编号:24290009 阅读:18 留言:0更新日期:2020-05-26 20:12
本公开提供了一种数据处理方法。所述方法包括首先获取一中文文本,然后将所述中文文本输入到句子评价模型,接着基于所述句子评价模型输出的评分最高的一组句子,输出所述中文文本的摘要。其中,所述句子评价模型被设置为包括语言解析层和评价层。所述语言解析层对所述中文文本进行解析,以得到所述中文文本中的句子的信息;所述评价层基于所述句子的信息对所述句子在所述中文文本中的重要程度进行评分。本公开还提供了一种数据处理装置。

Data processing method and data processing device

【技术实现步骤摘要】
数据处理方法、及数据处理装置
本公开涉及一种数据处理方法和一种数据处理装置。
技术介绍
目前在互联网或企业中存在丰富的文档信息,有的文档中信息是非结构化和无序的,想要短时间内获取核心内容,较为困难。一种可行的解方案是可以通过抽取文档的摘要的方式来获取文档的关键信息。抽取文档的摘要可以广泛应用于互联网阅读、搜索、检索等场景中。当前抽取文档摘要时主要是基于统计学、图排序、深度学习方法等。基于统计学的方法,如TF-IDF等,一般只单纯利用了单词表层特征,没有充分挖掘词义关系和语义特征,局限性很大。基于图排序方法,如LexRank,TextRank等,通常只考虑了句子节点间的相似关系,而忽略了文档整篇文章及句子上下文的信息,相似度的好坏决定了关键词和句子重要性排序正确与否,也有较大的局限性。基于深度学习的方法,如DCA(deepcountautoencodernetwork,深度计数自动编码器网络)、BERTSUM等,一般可解释性差,对计算机的性能有一定要求,而且通常只能抽取英文摘要。
技术实现思路
本公开的一个方面提供了一种数据处理方法。所述方法包括:获取一中文文本;将所述中文文本输入到句子评价模型;以及基于所述句子评价模型输出的评分最高的一组句子,输出所述中文文本的摘要。其中,所述句子评价模型被设置为包括语言解析层和评价层。所述语言解析层对所述中文文本进行解析,以得到所述中文文本中的句子的信息。所述评价层基于所述句子的信息对所述句子在所述中文文本中的重要程度进行评分。可选地,所述句子评价模型被设置为还包括筛选层。所述筛选层按照所述句子所满足的条件设置对应的权重系数,以通过所述权重系数调整所述评价层对所述句子的评分。可选地,所述句子所满足的条件包括以下至少之一:所述句子的长度;或者所述句子在所述中文文本的所有句子中所处的位置。可选地,所述语言解析层包括BERT模型。可选地,所述评价层包括Transformer模型。可选地,所述方法还包括利用BERT模型对对所述中文文本进行预处理。所述将所述中文文本输入到句子评价模型,包括将预处理后的所述中文文本输入至所述句子评价模型。可选地,所述利用BERT模型对对所述中文文本进行预处理,包括:对所述中文文本中的每个字进行格式化处理;标记所述中文文本中每个字在对应的句子中的位置;以及标记所述中文文本中每个句子的起始位置和结束位置。可选地,所述方法还包括训练所述句子评价模型。所述训练所述句子评价模型包括获取至少一个已标注中文文本、以及对所述已标注中文文本中的每个句子标注的评分,以及以所述至少一个已标注中文文本作为所述语言解析层的训练输入,以对所述已标注中文文本中的每个句子标注的评分作为所述评价层的输出参考,反复训练所述句子评价模型。本公开的另一方面提供了一种数据处理装置。所述装置包括获取模块、句子评价模块、以及摘要输出模块。所述获取模块用于获取一中文文本。所述句子评价模块用于将所述中文文本输入到句子评价模型,所述句子评价模型被设置为包括语言解析层和评价层;其中:所述语言解析层对所述中文文本进行解析,以得到所述中文文本中的句子的信息;所述评价层基于所述句子的信息对所述句子在所述中文文本中的重要程度进行评分。所述摘要输出模块用于基于所述句子评价模型输出的评分最高的一组句子,输出所述中文文本的摘要。可选地,所述句子评价模型被设置为还包括筛选层。所述筛选层按照所述句子所满足的条件设置对应的权重系数,以通过所述权重系数调整所述评价层对所述句子的评分。可选地,所述装置还包括预处理模块。所述预处理模块用于利用BERT模型对对所述中文文本进行预处理。所述句子评价模块用于将预处理后的所述中文文本输入至所述句子评价模型。可选地,所述预处理模块具体用于:对所述中文文本中的每个字进行格式化处理;标记所述中文文本中每个字在对应的句子中的位置;以及标记所述中文文本中每个句子的起始位置和结束位置。可选地,所述装置还包括训练模块。所述训练模块用于训练所述句子评价模型,包括获取至少一个已标注中文文本、以及对所述已标注中文文本中的每个句子标注的评分,以及以所述至少一个已标注中文文本作为所述语言解析层的训练输入,以对所述已标注中文文本中的每个句子标注的评分作为所述评价层的输出参考,反复训练所述句子评价模型。本公开的另一方面提供了一种计算机系统。所述计算机系统包括一个或多个存储器、以及一个或多个处理器。所述存储器上存储有计算机可执行指令。所述处理器执行所述指令,以实现如上所述的方法。本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。附图说明为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:图1示意性示出了根据本公开实施例的数据处理方法和数据处理装置的应用场景;图2示意性示出了根据本公开实施例的数据处理方法的流程图;图3示意性示出了根据本公开实施例的数据处理方法中通过句子评价模型处理中文文本的流程图;图4示意性示出了根据本公开另一实施例的数据处理方法的流程图;图5示意性示出了根据本公开实施例的训练句子评价模型的方法流程图;图6示意性示出了根据本公开一实施例的训练句子评价模型的流程图;图7示意性示出了根据本公开实施例的基于BERT模型和Transformer模型的句子评价模型的数据处理过程示意;图8示意性示出了根据本公开实施例的数据处理装置的框图;以及图9示意性示出了适于实现根据本公开实施例的数据处理方法的计算机系统的框图。具体实施方式以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B本文档来自技高网...

【技术保护点】
1.一种数据处理方法,包括:/n获取一中文文本;/n将所述中文文本输入到句子评价模型,所述句子评价模型被设置为包括语言解析层和评价层;其中:/n所述语言解析层对所述中文文本进行解析,以得到所述中文文本中的句子的信息;/n所述评价层基于所述句子的信息对所述句子在所述中文文本中的重要程度进行评分;/n以及/n基于所述句子评价模型输出的评分最高的一组句子,输出所述中文文本的摘要。/n

【技术特征摘要】
1.一种数据处理方法,包括:
获取一中文文本;
将所述中文文本输入到句子评价模型,所述句子评价模型被设置为包括语言解析层和评价层;其中:
所述语言解析层对所述中文文本进行解析,以得到所述中文文本中的句子的信息;
所述评价层基于所述句子的信息对所述句子在所述中文文本中的重要程度进行评分;
以及
基于所述句子评价模型输出的评分最高的一组句子,输出所述中文文本的摘要。


2.根据权利要求1所述的方法,其中,所述句子评价模型被设置为还包括筛选层:
所述筛选层按照所述句子所满足的条件设置对应的权重系数,以通过所述权重系数调整所述评价层对所述句子的评分。


3.根据权利要求2所述的方法,其中,所述句子所满足的条件包括以下至少之一:
所述句子的长度;或者
所述句子在所述中文文本的所有句子中所处的位置。


4.根据权利要求1所述的方法,其中,所述语言解析层包括BERT模型。


5.根据权利要求1所述的方法,其中,所述评价层包括Transformer模型。


6.根据权利要求1所述的方法,其中,
所述方法还包括:利用BERT模型对对所述中文文本进行预处理;以及
所述将所述中文文本输入到句子评价模型包括:将预处理后的所述中文文本输入至所述句子评价模型。


7.根据权利要求6所述的方...

【专利技术属性】
技术研发人员:沈强谭松波
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1