长文本处理方法、装置、设备和介质制造方法及图纸

技术编号:46622475 阅读:1 留言:0更新日期:2025-10-14 21:17
本申请提供了长文本处理方法、装置、设备和介质,涉及人工智能技术领域,可以应用于云技术、人工智能、智慧交通、辅助驾驶等场景,方法包括获取目标长文本的关键词序列和词权重信息,关键词序列包括目标长文本对应的多个关键词且基于目标长文本的文本顺序排序,词权重信息包括多个关键词中每一关键词的词权重,词权重用于表征关键词对目标长文本的重要程度;对关键词序列和词权重信息进行特征映射,得到文本映射特征,文本映射特征用于表征关键词序列中关键词的词特征、权重特征和位置特征;基于文本映射特征进行目标长文本的特征提取,得到长文本表征结果。本申请能够确保长文本关键内容表达的完整性、均衡性和连续性,摆脱文本长度限制。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种长文本处理方法、装置、设备和介质


技术介绍

1、长文本的特征表征是各种文本数据应用场景的数据基础,如作为长文本检索或匹配等任务的相似性比较元素,实现文本召回和精排等。现有的长文本表征提取方法主要包括截断法和分片池化法,截断法通常会将文章的开头及结尾部分的文本分词拼接在一起输入文本模型,或者先借助摘要生成模型对整篇文章进行总结,再进行表征提取,这样可以保证输入到文本模型的文本长度不会超过最大限制。分片池化法则保留了全部的文章内容,参考图3,通过滑动窗口切分成文本分片(batch),依次输入文本模型(如bert等),然后将各分片的特征池化(pooling)得到文本表征。然而,截断法虽然快捷,但会造成信息的丢失、输入内容不均衡,并且表征效果依赖于前置的摘要生成模型。分片池化法虽然没有直接的信息丢失,但忽略了不同片段之间的联系,本质上没有进行全文章的建模,同时在效率上大打折扣,推理成本随文章长度线性增加。


技术实现思路

1、本申请提供了一种长文本处理方法、装置、设备和介质,可以显著提本文档来自技高网...

【技术保护点】

1.一种长文本处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取目标长文本的关键词序列和词权重信息包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述关键词序列和所述词权重信息进行特征映射,得到文本映射特征包括:

4.根据权利要求1所述的方法,其特征在于,在所述获取目标长文本的关键词序列和词权重信息之前,所述方法还包括:

5.根据权利要求1-4中任一项所述的方法,其特征在于,所述基于所述文本映射特征进行所述目标长文本的特征提取,得到长文本表征结果包括:

6.根据权利要求1-4中任一项...

【技术特征摘要】

1.一种长文本处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取目标长文本的关键词序列和词权重信息包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述关键词序列和所述词权重信息进行特征映射,得到文本映射特征包括:

4.根据权利要求1所述的方法,其特征在于,在所述获取目标长文本的关键词序列和词权重信息之前,所述方法还包括:

5.根据权利要求1-4中任一项所述的方法,其特征在于,所述基于所述文本映射特征进行所述目标长文本的特征提取,得到长文本表征结果包括:

6.根据权利要求1-4中任一项所述的方法,其特征在于,所述基于所述文本映射特征进行所述目标长文本的特征提取,得到长文本表征结果包括:

7.根据权利要求6所述的方法,其特征在于,所述对所述参考序列进行特征映射,得到参考映射特征包括:

8.根据权利要求6所述的方法,其特征在于,所述特征编码模块包括第一特征提取...

【专利技术属性】
技术研发人员:赵靖赵哲
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1