【技术实现步骤摘要】
文本的语义段落识别方法和装置
本申请实施例涉及自然语言处理领域,具体涉及文本段落切分领域,尤其涉及文本的语义段落识别方法和装置。
技术介绍
文本段落切分是指给定几个连续的文本行,利用计算机自动判定给定的几个文本行是否应该合并为一个具有语义关系的段落。该技术可以用在多个场景,例如手机拍照翻译、图片翻译等。目前,现有的文本段落切分技术主要采用基于规则的方法,即通过每一行文字的位置信息、文字的大小写信息、标点符号等信息来判断该段文字与上一段文字是否应该合并为一个段落。
技术实现思路
本申请实施例提出了文本的语义段落识别方法和装置。第一方面,本申请实施例提供了一种文本的语义段落识别方法,包括:将预先获取的至少两个待识别文本段输入预先训练的语言模型,得到用于表征至少两个待识别文本段的语义连续性的连续性特征;基于所得到的连续性特征,确定至少两个待识别文本段是否属于同一语义段落。在一些实施例中,在基于所得到的连续性特征,确定至少两个待识别文本段是否属于同一语义段落之前,方法还包括:将至少两个待识别文本段中的一个作为当前待识别文本段,并对当前待识别文本段输入预先生成的规则特征提取模型 ...
【技术保护点】
1.一种文本的语义段落识别方法,包括:将预先获取的至少两个待识别文本段输入预先训练的语言模型,得到用于表征所述至少两个待识别文本段的语义连续性的连续性特征;基于所得到的连续性特征,确定所述至少两个待识别文本段是否属于同一语义段落。
【技术特征摘要】
1.一种文本的语义段落识别方法,包括:将预先获取的至少两个待识别文本段输入预先训练的语言模型,得到用于表征所述至少两个待识别文本段的语义连续性的连续性特征;基于所得到的连续性特征,确定所述至少两个待识别文本段是否属于同一语义段落。2.根据权利要求1所述的方法,其中,在所述基于所得到的连续性特征,确定所述至少两个待识别文本段是否属于同一语义段落之前,所述方法还包括:将所述至少两个待识别文本段中的一个作为当前待识别文本段,并对所述当前待识别文本段输入预先生成的规则特征提取模型进行规则特征提取,以确定所述当前待识别文本段在预先设置的规则下的规则特征;所述基于所得到的连续性特征,确定所述至少两个待识别文本段是否属于同一语义段落,包括:将所得到的连续性特征和所确定的规则特征输入预先训练的语义段落识别模型,以确定所述至少两个待识别文本段是否属于同一语义段落。3.根据权利要求2所述的方法,其中,所述语义段落识别模型利用预先生成的训练样本集训练得到;其中,所述训练样本集中的训练样本包括连续性样本特征和规则样本特征,所述连续性样本特征通过将第一样本词序列和第二样本词序列输入所述语言模型得到,所述规则样本特征通过将所述第二样本词序列输入所述规则特征提取模型得到;所述训练样本集中的训练样本还包括标注,所述标注用于标识所述第一样本词序列和第二样本词序列是否属于同一语义段落。4.根据权利要求1所述的方法,其中,所述将预先获取的至少两个待识别文本段输入预先训练的语言模型,得到用于表征所述至少两个待识别文本段的语义连续性的连续性特征,包括:将预先获取的至少两个待识别文本段输入预先训练的语言模型;利用所述语言模型,对所述至少两个待识别文本段进行如下处理,以得到所述连续性特征:对所述至少两个待识别文本段进行分词,得到词序列;基于所述词序列中的词在预设语料库中的历史共现度,确定所述连续性特征。5.根据权利要求1-4之一所述的方法,其中,所述至少两个待识别文本段通过以下方式得到:按照预先设置的识别顺序,从包含文字的图片中确定出文本区域序列;对文本区域序列中的各文本区域进行文字识别,得到识别结果序列;将所述识别结果序列中,相邻的至少两个识别结果作为所述至少两个待识别文本。6.一种文本的语义段落识别装置,包括:连续性特征生成单元,被配置成将预先获取的至少两...
【专利技术属性】
技术研发人员:朱晓宁,张睿卿,何中军,吴华,王海峰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。