【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种长文本处理方法、装置、设备和介质。
技术介绍
1、长文本的特征表征是各种文本数据应用场景的数据基础,如作为长文本检索或匹配等任务的相似性比较元素,实现文本召回和精排等。现有的长文本表征提取方法主要包括截断法和分片池化法,截断法通常会将文章的开头及结尾部分的文本分词拼接在一起输入文本模型,或者先借助摘要生成模型对整篇文章进行总结,再进行表征提取,这样可以保证输入到文本模型的文本长度不会超过最大限制。分片池化法则保留了全部的文章内容,参考图3,通过滑动窗口切分成文本分片(batch),依次输入文本模型(如bert等),然后将各分片的特征池化(pooling)得到文本表征。然而,截断法虽然快捷,但会造成信息的丢失、输入内容不均衡,并且表征效果依赖于前置的摘要生成模型。分片池化法虽然没有直接的信息丢失,但忽略了不同片段之间的联系,本质上没有进行全文章的建模,同时在效率上大打折扣,推理成本随文章长度线性增加。
技术实现思路
1、本申请提供了一种长文本处理方法、装置、设
...【技术保护点】
1.一种长文本处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取目标长文本的关键词序列和词权重信息包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述关键词序列和所述词权重信息进行特征映射,得到文本映射特征包括:
4.根据权利要求1所述的方法,其特征在于,在所述获取目标长文本的关键词序列和词权重信息之前,所述方法还包括:
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述基于所述文本映射特征进行所述目标长文本的特征提取,得到长文本表征结果包括:
6.根据权
...【技术特征摘要】
1.一种长文本处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取目标长文本的关键词序列和词权重信息包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述关键词序列和所述词权重信息进行特征映射,得到文本映射特征包括:
4.根据权利要求1所述的方法,其特征在于,在所述获取目标长文本的关键词序列和词权重信息之前,所述方法还包括:
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述基于所述文本映射特征进行所述目标长文本的特征提取,得到长文本表征结果包括:
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述基于所述文本映射特征进行所述目标长文本的特征提取,得到长文本表征结果包括:
7.根据权利要求6所述的方法,其特征在于,所述对所述参考序列进行特征映射,得到参考映射特征包括:
8.根据权利要求6所述的方法,其特征在于,所述特征编码模块包括第一特征提取...
【专利技术属性】
技术研发人员:赵靖,赵哲,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。