【技术实现步骤摘要】
文本切分方法、装置、计算机设备和可读存储介质
本申请涉及自然语言处理
,尤其涉及一种文本切分方法、装置、计算机设备和可读存储介质。
技术介绍
在目前的自媒体时代,人们可以在网络上发表文章。然而,由于作者的发文水平参差不齐,甚至有些作者为了发文数量而粗制滥造,例如,作者将不同文章的不同章节进行堆砌或者组合,生成一个新的文章,从而导致所写的文章往往存在多个主题。这种疑似作弊的文章,由于来源于正常文章,因此审核人员往往很难发现其为作弊文章。因此,如何将文章的不同主题的段落进行切分,从而便于审核人员进行审核至关重要。现有技术中,为了实现将文章切分为不同主题的段落,通常基于词频计算相邻语句的余弦相似度,对文章进行切分。然而,实际应用时,申请人发现,这种切分方式,切分结果往往不够准确。
技术实现思路
本申请提出一种文本切分方法、装置、计算机设备和可读存储介质,以实现依据主题关系,对待切分文本进行切分,得到属于同一主题的各段落,提升切分结果的准确性,用于解决现有技术中基于词频计算相邻语句的余弦相似度,对文章进行切分,切分结果的准确性较低的技术问题。本申请第一方面实施例提出了一 ...
【技术保护点】
1.一种文本切分方法,其特征在于,所述方法包括以下步骤:对待切分文本采用滑动窗口划分为多个识别单元;对所述多个识别单元,进行主题特征提取;根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系;根据各识别单元与相邻识别单元的主题关系,对所述待切分文本进行切分。
【技术特征摘要】
1.一种文本切分方法,其特征在于,所述方法包括以下步骤:对待切分文本采用滑动窗口划分为多个识别单元;对所述多个识别单元,进行主题特征提取;根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系;根据各识别单元与相邻识别单元的主题关系,对所述待切分文本进行切分。2.根据权利要求1所述的文本切分方法,其特征在于,所述对待切分文本采用滑动窗口划分为多个识别单元之后,还包括:对各识别单元进行语义识别,得到相应识别单元的语义特征;根据各识别单元的语义特征,确定相邻识别单元之间的语义相似度;所述根据各识别单元的主题特征,识别得到各识别单元与相邻识别单元的主题关系,包括:将各识别单元的主题特征,以及相应识别单元的语义特征和相应识别单元与相邻识别单元之间的语义相似度,输入经过训练的识别模型,以识别得到各识别单元与相邻识别单元的主题关系。3.根据权利要求2所述的文本切分方法,其特征在于,所述输入经过训练的识别模型之前,还包括:对语料采用所述滑动窗口划分为多个样本单元;根据各样本单元之间的主题特征,确定相邻样本单元之间的主题相似度;根据所述相邻样本单元之间的主题相似度,对所述多个样本单元进行组合得到至少一个目标样本;采用经过主题关系标注的目标样本,对所述识别模型进行训练。4.根据权利要求3所述的文本切分方法,其特征在于,所述根据所述相邻样本单元之间的主题相似度,对所述多个样本单元进行组合得到至少一个目标样本,包括:对所述相邻样本单元之间的主题相似度,依据样本单元在所述语料中的顺序排序,以得到相似度序列;从所述相似度序列中,确定小于相邻主题相似度的目标相似度;将所述目标相似度所属的两个相邻样本单元分别组合到不同的目标样本中。5.根据权利要求4所述的文本切分方法,其特征在于,所述将所述目标相似度所属的相邻样本单元分别组合到不同的目标样本中之前,还包括:根据所述相似度序列中,各目标相似度之间所...
【专利技术属性】
技术研发人员:杨宇鸿,付志宏,袁德璋,何径舟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。