数据处理方法、及数据处理装置制造方法及图纸

技术编号：24290009 阅读：18 留言：0更新日期：2020-05-26 20:12

本公开提供了一种数据处理方法。所述方法包括首先获取一中文文本，然后将所述中文文本输入到句子评价模型，接着基于所述句子评价模型输出的评分最高的一组句子，输出所述中文文本的摘要。其中，所述句子评价模型被设置为包括语言解析层和评价层。所述语言解析层对所述中文文本进行解析，以得到所述中文文本中的句子的信息；所述评价层基于所述句子的信息对所述句子在所述中文文本中的重要程度进行评分。本公开还提供了一种数据处理装置。

Data processing method and data processing device

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、及数据处理装置
本公开涉及一种数据处理方法和一种数据处理装置。
技术介绍
目前在互联网或企业中存在丰富的文档信息，有的文档中信息是非结构化和无序的，想要短时间内获取核心内容，较为困难。一种可行的解方案是可以通过抽取文档的摘要的方式来获取文档的关键信息。抽取文档的摘要可以广泛应用于互联网阅读、搜索、检索等场景中。当前抽取文档摘要时主要是基于统计学、图排序、深度学习方法等。基于统计学的方法，如TF-IDF等，一般只单纯利用了单词表层特征，没有充分挖掘词义关系和语义特征，局限性很大。基于图排序方法，如LexRank，TextRank等，通常只考虑了句子节点间的相似关系，而忽略了文档整篇文章及句子上下文的信息，相似度的好坏决定了关键词和句子重要性排序正确与否，也有较大的局限性。基于深度学习的方法，如DCA(deepcountautoencodernetwork，深度计数自动编码器网络)、BERTSUM等，一般可解释性差，对计算机的性能有一定要求，而且通常只能抽取英文摘要。
技术实现思路
本公开的一个方面提供了一种数据处理方法。所述方法包括：获取一中文文本；将所述中文文本输入到句子评价模型；以及基于所述句子评价模型输出的评分最高的一组句子，输出所述中文文本的摘要。其中，所述句子评价模型被设置为包括语言解析层和评价层。所述语言解析层对所述中文文本进行解析，以得到所述中文文本中的句子的信息。所述评价层基于所述句子的信息对所述句子在所述中文文本中的重要程度进行评分。可选地，所述句子评...

【技术保护点】
1.一种数据处理方法，包括：/n获取一中文文本；/n将所述中文文本输入到句子评价模型，所述句子评价模型被设置为包括语言解析层和评价层；其中：/n所述语言解析层对所述中文文本进行解析，以得到所述中文文本中的句子的信息；/n所述评价层基于所述句子的信息对所述句子在所述中文文本中的重要程度进行评分；/n以及/n基于所述句子评价模型输出的评分最高的一组句子，输出所述中文文本的摘要。/n

【技术特征摘要】
1.一种数据处理方法，包括：
获取一中文文本；
将所述中文文本输入到句子评价模型，所述句子评价模型被设置为包括语言解析层和评价层；其中：
所述语言解析层对所述中文文本进行解析，以得到所述中文文本中的句子的信息；
所述评价层基于所述句子的信息对所述句子在所述中文文本中的重要程度进行评分；
以及
基于所述句子评价模型输出的评分最高的一组句子，输出所述中文文本的摘要。

2.根据权利要求1所述的方法，其中，所述句子评价模型被设置为还包括筛选层：
所述筛选层按照所述句子所满足的条件设置对应的权重系数，以通过所述权重系数调整所述评价层对所述句子的评分。

3.根据权利要求2所述的方法，其中，所述句子所满足的条件包括以下至少之一：
所述句子的长度；或者
所述句子在所述中文文本的所有句子中所处的位置。

4.根据权利要求1所述的方法，其中，所述语言解析层包括BERT模型。

5.根据权利要求1所述的方法，其中，所述评价层包括Transformer模型。

6.根据权利要求1所述的方法，其中，
所述方法还包括：利用BERT模型对对所述中文文本进行预处理；以及
所述将所述中文文本输入到句子评价模型包括：将预处理后的所述中文文本输入至所述句子评价模型。

7.根据权利要求6所述的方...

【专利技术属性】
技术研发人员：沈强，谭松波，
申请(专利权)人：联想北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人