【技术实现步骤摘要】
文本分割方法、装置、设备及存储介质
本专利技术涉及文本分割
,尤其涉及一种文本分割方法、装置、设备及存储介质。
技术实现思路
现有的文本分割方法一般采用以下两种方式:第一种是基于外部结构信息的方法。例如,在对网页的超文本标记语言(HTML,HyperTextMarkupLanguage)文本进行分割时,可以参考HTML标签信息。如,<head>标签中的内容通常是标题,需要与<p>标签下的正文分割开;<list>标签下的内容会以列表形式展现,其内容也与普通文本有明显区别,需要从文本中单独提取出来;遇到<strong>标示的加粗文本,可能代表总结或者强调的含义,可以酌情在此段文字后执行分割。第二种是基于语义相关性的方法。在文本摘要领域中,一些方法会参考句子与文章标题、主题的关系,判断文本的分割点。首先计算每个句子与文章标题或主题的相关性得分,之后设置一个相关性阈值,将连续的几个相关性高于或低于阈值的句子作为一个短文本片段。可见,上述第一种方法的应用场景受限于数据格式。当数据格式发生改变,或者没有可依赖的外部结构信息 ...
【技术保护点】
1.一种文本分割方法,其特征在于,包括:针对第一文本中的每个句子间隔,分别确定所述句子间隔的前句与后句的关联度;根据所述关联度确定所述句子间隔是否为文本分割点;在所述句子间隔是文本分割点的情况下,在所述句子间隔的位置分割所述第一文本。
【技术特征摘要】
1.一种文本分割方法,其特征在于,包括:针对第一文本中的每个句子间隔,分别确定所述句子间隔的前句与后句的关联度;根据所述关联度确定所述句子间隔是否为文本分割点;在所述句子间隔是文本分割点的情况下,在所述句子间隔的位置分割所述第一文本。2.根据权利要求1所述的方法,其特征在于,所述确定所述句子间隔的前句与后句的关联度,包括:根据所述前句与所述后句的语义关联、所述前句及所述后句的句式结构以及所述后句的引导词中的至少一项,确定所述句子间隔的前句与后句的关联度。3.根据权利要求2所述的方法,其特征在于,所述根据所述前句与所述后句的语义关联、所述前句及所述后句的句式结构以及所述后句的引导词中的至少一项,确定所述句子间隔的前句与后句的关联度,包括:确定所述前句与所述后句的语义关联对应的语义关联矩阵,确定所述前句及所述后句的句式结构对应的句式矩阵,并确定所述后句的引导词对应的引导词矩阵;对所述语义关联矩阵、所述句式矩阵及所述引导词矩阵分别进行线性变换;将所述线性变换的结果组合成所述前句与后句的关联信息向量;将所述关联信息向量输入预先训练的关联度预测模型,得到所述前句与后句的关联度。4.根据权利要求3所述的方法,其特征在于,所述确定所述前句与所述后句的语义关联对应的语义关联矩阵,包括:对所述前句中的词对应的词向量进行计算,得到所述前句的语义表示矩阵;并对所述后句中的词对应的词向量进行计算,得到所述后句的语义表示矩阵;将所述前句的语义表示矩阵与所述后句的语义表示矩阵相乘,得到所述前句与所述后句的语义关联对应的语义关联矩阵。5.根据权利要求4所述的方法,其特征在于,所述计算的方式为:采用双向长短期记忆模型、词袋模型或基于转换器的双向编码表示模型进行计算。6.根据权利要求3所述的方法,其特征在于,所述确定所述前句及所述后句的句式结构对应的句式矩阵,包括:采用预先设计的句式模板,分别确定所述前句的句式信息及所述后句的句式信息;根据所述前句的句式信息生成所述前句的句式向量,并根据所述后句的句式信息生成所述后句的句式向量;将所述前句的句式向量与所述后句的句式向量组合,得到所述前句及所述后句的句式结构对应的句式矩阵。7.根据权利要求3所述的方法,其特征在于,所述确定所述后句的引导词对应的引导词矩阵,包括:分别确定所述后句中的前N个词对应的词向量,所述N为整数;将确定的所述词向量拼接为所述后句的引导词对应的引导词矩阵。8.根据权利要求1至7任一所述的方法,其特征在于,所述针对第一文本中的每个句子间隔,分别确定所述句子间隔的前句与后句的关联度之前,还包括:采用预先设置的列表模板,识别原始文本中的列表文本;将所述原始文本中的列表文本分割出去,将所述原始文本中剩余的部分作为所述第一文本。9.一种关联度预测模型的训练方法,其特征在于,所述方法包括:生成两个相邻样本句子的关联信息向量,并获取所述两个相邻样本句子的实际关联度;...
【专利技术属性】
技术研发人员:丁宇辰,刘凯,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。