【技术实现步骤摘要】
文本规整方法、相关设备及可读存储介质
[0001]本申请涉及自然语言处理
,更具体的说,是涉及一种文本规整方法、相关设备及可读存储介质。
技术介绍
[0002]随着互联网技术的迅速发展,人们面对越来越多的文本,如各种网页中的文本、语音识别后得到的文本等,这些文本中通常会存在大量口语化描述。比如,语音识别后得到的文本中常存在用户自身在说话时由于说话不流畅或其他因素导致的重复内容,以及,用户自身在说话时由于日常讲话方式存在口语化(如,语气词、应答语、口头禅等)导致的无意义内容。由于口语化描述的存在,导致文本不够书面化。
[0003]因此,如何对文本进行规整,以去除文本中的口语化描述,使规整后的文本更书面化,成为本领域技术人员亟待解决的技术问题。
技术实现思路
[0004]鉴于上述问题,本申请提出了一种文本规整方法、相关设备及可读存储介质。具体方案如下:
[0005]一种文本规整方法,所述方法包括:
[0006]获取待规整的文本;
[0007]确定所述文本的全局特征;所述全局特征用于表征所述文本中各个句子之间的关联关系;
[0008]基于所述文本的全局特征,对所述文本进行规整,得到规整后的文本。
[0009]可选地,所述确定所述文本的全局特征,包括:
[0010]确定所述文本中每个句子的词级特征,所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征,所述文本中每个句子的句子级特征用于表征所述句子与所述文本中除所述句子之外的其他句 ...
【技术保护点】
【技术特征摘要】
1.一种文本规整方法,其特征在于,所述方法包括:获取待规整的文本;确定所述文本的全局特征;所述全局特征用于表征所述文本中各个句子之间的关联关系;基于所述文本的全局特征,对所述文本进行规整,得到规整后的文本。2.根据权利要求1所述的方法,其特征在于,所述确定所述文本的全局特征,包括:确定所述文本中每个句子的词级特征,所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征,所述文本中每个句子的句子级特征用于表征所述句子与所述文本中除所述句子之外的其他句子之间的关联关系;将所述文本中每个句子的词级特征、所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征按照句子对应关系进行拼接,得到所述文本的全局特征。3.根据权利要求2所述的方法,其特征在于,所述确定所述文本中每个句子的词级特征,所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征,包括:将所述文本输入到文本句子分类模型,所述文本句子分类模型对所述文本进行特征提取,得到所述文本中每个句子的词级特征、所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征;其中,所述文本句子分类模型是以规整前训练文本为训练样本,以规整前训练文本中每个句子的句子标签为样本标签,训练得到的,句子标签用于表征句子的语义类型。4.根据权利要求3所述的方法,其特征在于,所述将所述文本输入到文本句子分类模型,所述文本句子分类模型对所述文本进行特征提取,得到所述文本中每个句子的词级特征、所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征,包括:所述文本句子分类模型中的词编码网络,对所述文本中每个句子进行词级编码,得到所述文本中每个句子的词级特征;所述文本句子分类模型中的文本句子特征提取模块,基于所述文本中每个句子的词级特征对所述文本中每个句子进行句子级特征提取,得到所述文本中每个句子的句子级特征;所述文本句子分类模型中的文本句子分类模块,对所述文本中每个句子的句子级特征进行识别,得到所述文本中每个句子的语义类型特征。5.根据权利要求4所述的方法,其特征在于,所述文本句子分类模型中的文本句子特征提取模块,基于所述文本中每个句子的词级特征对所述文本中每个句子进行句子级特征提取,得到所述文本中每个句子的句子级特征,包括:对所述文本中每个句子的词级特征进行压缩,得到所述文本中每个句子的第一特征;采用注意力机制对所述文本中各个句子的第一特征进行聚合,得到所述文本中每个句子的第二特征;基于所述文本中各个句子间的交互信息,对所述文本中各个句子的第一特征进行聚合,得到所述文本中每个句子的第...
【专利技术属性】
技术研发人员:戚婷,万根顺,高建清,王智国,刘聪,胡国平,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。