【技术实现步骤摘要】
文本内容的特征提取方法、装置、设备、介质及程序产品
[0001]本申请实施例涉及自然语言处理领域,特别涉及一种文本内容的特征提取方法、装置、设备、介质及程序产品。
技术介绍
[0002]自注意力(self attention,SA)机制在自然语言处理(Natural LanguageProcessing,NLP)领域有着非常广泛的应用,采用自注意力机制的软/硬件则可称为自注意力模型,自注意力模型是NLP领域当前最流行的转换(Transformer)模型的主要组成部分。
[0003]相关技术中,Transformer模型中的self attention是一种全局的注意力机制,计算当前字符串特征和其他字符串特征之间的依赖关系(相似度),再将所有字符串特征的自注意力评分结果进行拼接。
[0004]然而,在计算自注意力评分结果时,要全面分析每一个字符串特征与其他所有字符串特征之间的依赖关系,势必会造成信息冗余,以及字符串特征对应的关键位置信息获取不充分的问题,一定程度上降低Transformer模型获取重要信息的效率 ...
【技术保护点】
【技术特征摘要】
1.一种文本内容的特征提取方法,其特征在于,所述方法包括:对目标文本内容进行字符分割,得到字符串序列,所述字符串序列对应字符串长度;对所述字符串序列中的字符串进行特征提取,得到所述字符串序列对应的序列特征表示;按照预设窗口的窗口长度,对所述序列特征表示中的第i个特征表示进行自注意力分析,得到所述第i个特征表示对应的自注意力特征表示,其中,所述窗口长度小于所述字符串长度,i为正整数;结合所述序列特征表示中各特征表示分别对应的自注意力特征表示,得到所述目标文本内容对应的内容特征表示,所述内容特征表示用于对所述目标文本内容进行内容预测。2.根据权利要求1所述的方法,其特征在于,所述按照预设窗口的窗口长度,对所述序列特征表示中的第i个特征表示进行自注意力分析,得到所述第i个特征表示对应的自注意力特征表示,包括:基于所述预设窗口的窗口长度,获取所述第i个特征表示之前n个字符串的特征表示和所述第i个特征表示之后m个字符串的特征表示;其中,前n个字符串和后m个字符串符合所述窗口长度的长度要求,n和m为正整数;对所述前n个字符串的特征表示、所述第i个特征表示和所述后m前个字符串的特征表示进行融合,得到所述第i个特征表示对应的自注意力特征表示。3.根据权利要求2所述的方法,其特征在于,所述基于所述预设窗口的窗口长度,获取所述第i个特征表示之前n个字符串的特征表示和所述第i个特征表示之后m个字符串的特征表示,包括:在所述第i个特征表示之前存在与所述窗口长度对应的连续字符串的情况下,获取与所述窗口长度对应的字符串的特征表示;在所述第i个特征表示之前字符串数量小于所述窗口长度的情况下,获取所述第i个特征表示之前的所有字符串的特征表示;在所述第i个特征表示之后存在与所述窗口长度对应的连续字符串的情况下,获取与所述窗口长度对应的字符串的特征表示;在所述第i个特征表示之后字符串数量小于所述窗口长度的情况下,获取所述第i个特征表示之后的所有字符串的特征表示。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述前n个字符串的数量未达到所述窗口长度的情况下,在所述前n个字符串特征表示之前以所述窗口长度为基准进行补零处理;在所述后m个字符串的数量未达到所述窗口长度的情况下,在所述后m个字符串特征表示之后以所述窗口长度为基准进行补零处理。5.根据权利要求1至4任一所述的方法,其特征在于,所述按照预设窗口的窗口长度,对所述序列特征表示中的第i个特征表示进行自注意力分析,得到所述第i个特征表示对应的自注意力特征表示,包括:按照多种窗口长度分别对应的预设窗口,对所述序列特征表示中的第i个特征表示分别进行自注意力分析,得到所述第i个特征表示与所述多种窗口长度分别对应的自注意力特征表示;对所述第i个特征表示与所述多种窗口长度分别对应的自注意力特征表示进行聚合,得到所述第i个特征表示对应的自注意力特征表示。
6.根据权利要求5所述的方法,其特征在于,所述对所述第i个特征表示与所述多种窗口长度分别对应的自注意力特征表示进行聚合,得到...
【专利技术属性】
技术研发人员:凡子威,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。