文本分割方法、相关设备及可读存储介质技术

技术编号:24290008 阅读:38 留言:0更新日期:2020-05-26 20:12
本申请公开了一种文本分割方法、相关设备及可读存储介质,在获取待分割文本之后,获取待分割文本中每个文本单元的分割特征,并根据每个文本单元的分割特征,确定待分割文本的分割边界,最后基于所述待分割文本的分割边界,对所述待分割文本进行分割。基于上述方案,能够实现对待分割文本的分割。

Text segmentation methods, related devices and readable storage media

【技术实现步骤摘要】
文本分割方法、相关设备及可读存储介质
本申请涉及自然语言处理
,更具体的说,是涉及一种文本分割方法、相关设备及可读存储介质。
技术介绍
随着统计自然语言处理技术的快速发展,文本分割日益成为一个重要的研究方向。文本分割是确定出长篇幅无分割文本的分割边界,并依据确定出的分割边界将长篇幅无分割文本分割为文本片段,相比于长篇幅无分割文本,分割后的文本片段长度短小,符合用户阅读习惯;同时,分割后的文本片段内部具有简单明确的主题,能够帮助用户快速抽取关键信息,缓解阅读压力。因此,需要提供一种文本分割方法。
技术实现思路
鉴于上述问题,本申请提出了一种文本分割方法、相关设备及可读存储介质。具体方案如下:一种文本分割方法,包括:获取待分割文本;获取所述待分割文本中每个文本单元的分割特征;根据每个文本单元的分割特征,确定所述待分割文本的分割边界;基于所述待分割文本的分割边界,对所述待分割文本进行分割。可选地,所述获取所述待分割文本中每个文本单元的分割特征,包括:获取所述待分割文本中每个文本单元的单词序列和线索词特征,所述每个文本单元的单词序列和线索词特征作为所述每个文本单元的分割特征。可选地,提取获取所述待分割文本中每个文本单元的单词序列和线索词特征,包括:对每个文本单元进行分词,得到每个文本单元的单词序列;基于预先确定的线索词集合,从所述单词序列中确定线索词;获取所述线索词在对应文本单元中的位置信息;根据每个文本单元中线索词的位置信息,生成每个文本单元的线索词特征。可选地,所述根据每个文本单元的分割特征,确定所述待分割文本的分割边界,包括:将每个文本单元的分割特征,输入文本分割模型,得到每个文本单元是否为所述待分割文本的分割边界的输出结果;所述文本分割模型是以训练文本中各文本单元的分割特征为训练样本,以训练文本的分割边界标识标注信息为样本标签训练得到。可选地,所述文本分割模型,包括:词编码层、注意力层、融合层、句编码层和输出层。可选地,所述将每个文本单元的分割特征,输入文本分割模型,得到每个文本单元的起始位置是否为所述待分割文本的分割边界的输出结果,包括:利用文本分割模型获取每个文本单元的段长特征,所述段长特征用于表示每个文本单元的上一分割边界到每个文本单元的段长信息;利用文本分割模型的词编码层,对每个文本单元的分割特征进行词编码,得到每个文本单元的语义表征;利用文本分割模型的注意力层,对每个文本单元的语义表征进行注意力计算,得到每个文本单元的句子的语义表征;利用文本分割模型的融合层,将每个文本单元的句子的语义表征以及每个文本单元的段长特征进行融合,得到每个文本单元的句子的完整词表征;利用文本分割模型的句编码层,对每个文本单元的句子的完整词表征进行句编码,得到每个文本单元的句表征;利用文本分割模型的输出层对每个文本单元的句表征以及上一时刻的句表征进行计算,得到每个文本单元是否为所述待分割文本的分割边界的输出结果。可选地,所述利用文本分割模型的词编码层,对每个文本单元的分割特征进行词编码,得到每个文本单元的语义表征,包括:对每个文本单元的分割特征中的单词序列进行词编码,得到每个文本单元的词语义表征;基于所述每个文本单元的词语义表征和每个文本单元的分割特征中的线索词特征,得到每个文本单元的线索词语义表征;所述词语义表征和线索词语义表征作为所述语义表征。可选地,所述利用所述文本分割模型的注意力层,对每个文本单元的语义表征进行注意力计算,得到每个文本单元的句子语义表征,包括:对所述词语义表征进行注意力计算,得到每个文本单元的第一句子语义表征;对所述线索词语义表征进行注意力计算,得到每个文本单元的第二句子语义表征,所述第一句子语义表征和第二句子语义表征作为所述句子语义表征。一种文本分割装置,包括:分割文本获取单元,用于获取待分割文本;分割特征获取单元,用于获取所述待分割文本中每个文本单元的分割特征;分割边界确定单元,用于根据每个文本单元的分割特征,确定所述待分割文本的分割边界;分割单元,用于基于所述待分割文本的分割边界,对所述待分割文本进行分割。可选地,所述分割特征获取单元,包括:单词序列和线索词特征获取单元,用于获取所述待分割文本中每个文本单元的单词序列和线索词特征,所述每个文本单元的单词序列和线索词特征作为所述每个文本单元的分割特征。可选地,单词序列和线索词特征获取单元,包括:分词单元,用于对每个文本单元进行分词,得到每个文本单元的单词序列;线索词确定单元,用于基于预先确定的线索词集合,从所述单词序列中确定线索词;线索词位置信息获取单元,用于获取所述线索词在对应文本单元中的位置信息;线索词特征生成单元,用于根据每个文本单元中线索词的位置信息,生成每个文本单元的线索词特征。可选地,所述分割边界确定单元,包括:模型应用单元,用于将每个文本单元的分割特征,输入文本分割模型,得到每个文本单元是否为所述待分割文本的分割边界的输出结果;所述文本分割模型是以训练文本中各文本单元的分割特征为训练样本,以训练文本的分割边界标识标注信息为样本标签训练得到。可选地,所述文本分割模型,包括:词编码层、注意力层、融合层、句编码层和输出层。可选地,所述模型应用单元,包括:段长特征获取单元,用于利用文本分割模型获取每个文本单元的段长特征,所述段长特征用于表示每个文本单元的上一分割边界到每个文本单元的段长信息;词编码单元,用于利用文本分割模型的词编码层,对每个文本单元的分割特征进行词编码,得到每个文本单元的语义表征;注意力计算单元,用于利用文本分割模型的注意力层,对每个文本单元的语义表征进行注意力计算,得到每个文本单元的句子的语义表征;融合单元,用于利用文本分割模型的融合层,将每个文本单元的句子的语义表征以及每个文本单元的段长特征进行融合,得到每个文本单元的句子的完整词表征;句编码单元,用于利用文本分割模型的句编码层,对每个文本单元的句子的完整词表征进行句编码,得到每个文本单元的句表征;计算单元,用于利用文本分割模型的输出层对每个文本单元的句表征以及上一时刻的句表征进行计算,得到每个文本单元是否为所述待分割文本的分割边界的输出结果。可选地,所述词编码单元,包括:第一词编码子单元,用于对每个文本单元的分割特征中的单词序列进行词编码,得到每个文本单元的词语义表征;第二词编码子单元,用于基于所述每个文本单元的词语义表征和每个文本单元的分割特征中的线索词特征,得到每个文本单元的线索词语义表征;所述词语义表征和线索词语义表征作为所述语义表征。可选地,所述注意力计算单元,包括:第一注意力计算单元,用于对所述词语义表征进行注意力计算,本文档来自技高网...

【技术保护点】
1.一种文本分割方法,其特征在于,包括:/n获取待分割文本;/n获取所述待分割文本中每个文本单元的分割特征;/n根据每个文本单元的分割特征,确定所述待分割文本的分割边界;/n基于所述待分割文本的分割边界,对所述待分割文本进行分割。/n

【技术特征摘要】
1.一种文本分割方法,其特征在于,包括:
获取待分割文本;
获取所述待分割文本中每个文本单元的分割特征;
根据每个文本单元的分割特征,确定所述待分割文本的分割边界;
基于所述待分割文本的分割边界,对所述待分割文本进行分割。


2.根据权利要求1所述的方法,其特征在于,所述获取所述待分割文本中每个文本单元的分割特征,包括:
获取所述待分割文本中每个文本单元的单词序列和线索词特征,所述每个文本单元的单词序列和线索词特征作为所述每个文本单元的分割特征。


3.根据权利要求2所述的方法,其特征在于,获取所述待分割文本中每个文本单元的单词序列和线索词特征,包括:
对每个文本单元进行分词,得到每个文本单元的单词序列;
基于预先确定的线索词集合,从所述单词序列中确定线索词;
获取所述线索词在对应文本单元中的位置信息;
根据每个文本单元中线索词的位置信息,生成每个文本单元的线索词特征。


4.根据权利要求2所述的方法,其特征在于,所述根据每个文本单元的分割特征,确定所述待分割文本的分割边界,包括:
将每个文本单元的分割特征,输入文本分割模型,得到每个文本单元是否为所述待分割文本的分割边界的输出结果;所述文本分割模型是以训练文本中各文本单元的分割特征为训练样本,以训练文本的分割边界标识标注信息为样本标签训练得到。


5.根据权利要求4所述的方法,其特征在于,所述文本分割模型,包括:
词编码层、注意力层、融合层、句编码层和输出层。


6.根据权利要求5所述的方法,其特征在于,所述将每个文本单元的分割特征,输入文本分割模型,得到每个文本单元的起始位置是否为所述待分割文本的分割边界的输出结果,包括:
利用文本分割模型获取每个文本单元的段长特征,所述段长特征用于表示每个文本单元的上一分割边界到每个文本单元的段长信息;
利用文本分割模型的词编码层,对每个文本单元的分割特征进行词编码,得到每个文本单元的语义表征;
利用文本分割模型的注意力层,对每个文本单元的语义表征进行注意力计算,得到每个文本单元的句子的语义表征;
利用文...

【专利技术属性】
技术研发人员:闫莉孔常青万根顺高建清
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1