System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及大数据技术和金融科技,更具体地涉及一种文本特征提取方法、装置、设备、介质和程序产品。
技术介绍
1、为了实现多标签文本分类的任务,如何对文本进行特征提取是首要的问题。但是,传统的特征提取方案依赖于专家制定规则,特征的有效性依赖于对业务的理解,特征复杂且维度高,且无法将文本语义加入其中。
2、在现有技术中,通常基于深度学习对文本进行特征提取,但是基于深度学习的文本特征提取方法容易出现语义模糊,信息缺失等问题,进而导致提取到的特征无法准确体现文本的信息。
技术实现思路
1、鉴于上述问题,本公开提供了文本特征提取方法、装置、设备、介质和程序产品。
2、根据本公开的第一个方面,提供了一种文本特征提取方法,包括:对待处理文本中每个词的语义进行特征提取,得到上述待处理文本的语义特征;基于预设组合顺序,对语料库中的每个词进行扩充,得到扩充语料库,其中,上述语料库包括上述待处理文本中每个词;基于上述扩充语料库,对上述待处理文本进行主题特征扩展,得到扩展主题特征;以及将上述语义特征和上述扩展主题特征进行融合,得到上述待处理文本的融合特征。
3、根据本公开的实施例,上述对待处理文本中每个词的语义进行特征提取,得到上述待处理文本的语义特征,包括:对上述待处理文本中每个词进行词嵌入表示,得到每个词对应的词向量;根据上述每个词对应的词向量,得到上述待处理文本的语义特征。
4、根据本公开的实施例,在上述对上述待处理文本中每个词进行词嵌入表示,得到每个词
5、根据本公开的实施例,扩充语料库包括多个初始词和多个组合词;上述基于预设组合顺序,对语料库中的每个词进行扩充,得到扩充语料库,包括:对上述语料库中的每个词进行排序,得到具有先后顺序的上述多个初始词;根据上述预设组合顺序,将每个初始词进行词与词之间的组合,得到上述多个组合词。
6、根据本公开的实施例,上述将上述语义特征和上述扩展主题特征进行融合,得到上述待处理文本的融合特征,包括:在确定上述待处理文本的文本长度小于等于长度阈值的情况下,根据上述文本长度和上述长度阈值的比值,确定针对上述扩展主题特征的第一融合权重值;根据上述扩展主题特征与上述第一融合权重值的乘积,确定第一子融合特征;根据上述第一融合权重值,确定针对上述语义特征的第二融合权重值;根据上述语义特征与上述第二融合权重值的乘积,确定第二子融合特征;根据上述第一子融合特征和上述第二子融合特征的和,得到上述待处理文本的融合特征。
7、根据本公开的实施例,上述将上述语义特征和上述扩展主题特征进行融合,得到上述待处理文本的融合特征,包括:在确定上述待处理文本的文本长度大于长度阈值的情况下,获取针对上述语义特征的语义权重值和针对上述扩展主题特征的主题权重值;根据上述语义特征和上述语义权重值的乘积,确定第三子融合特征;根据上述扩展主题特征和上述主题权重值的乘积,确定第四子融合特征;根据上述第三子融合特征和上述第四子融合特征的和,得到上述待处理文本的融合特征。
8、根据本公开的实施例,上述基于上述扩充语料库,对上述待处理文本进行主题特征扩展,得到扩展主题特征,包括:将上述待处理文本输入主题模型,输出上述待处理文本属于不同主题的主题特征,其中,上述主题模型是利用上述扩充语料库训练得到的;在确定上述主题特征满足预设条件的情况下,将上述主题特征确定为上述扩展主题特征
9、本公开的第二方面提供了一种文本特征提取装置,包括:第一提取模块,用于对待处理文本中每个词的语义进行特征提取,得到上述待处理文本的语义特征;扩充模块,用于利用滑动窗口对语料库中的每个词进行扩充,得到扩充语料库,其中,上述语料库包括上述待处理文本中每个词,上述滑动窗口用于表征词与词之间形成的窗口;第二提取模块,用于基于上述扩充语料库,对上述待处理文本进行扩展主题特征扩展,得到扩展主题特征;以及融合模块,用于将上述语义特征和上述扩展主题特征进行融合,得到上述待处理文本的融合特征。
10、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得一个或多个处理器执行上述文本特征提取方法。
11、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述文本特征提取方法。
12、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述文本特征提取方法。
13、根据本公开的实施例,通过基于扩充语料库对待处理文本进行主题特征扩展,在扩充了待处理文本的语义特征信息的同时,还可以对待处理文本的主题特征进行扩展,解决了文本特征稀疏、主题不明确的问题。通过将语义特征和扩展主题特征进行融合,使得得到的融合特征可以准确、完整地表示文本的信息。
本文档来自技高网...【技术保护点】
1.一种文本特征提取方法,包括:
2.根据权利要求1所述的方法,其中,所述对待处理文本中每个词的语义进行特征提取,得到所述待处理文本的语义特征,包括:
3.根据权利要求2所述的方法,其中,在所述对所述待处理文本中每个词进行词嵌入表示,得到每个词对应的词向量之后,还包括:
4.根据权利要求1~3任一项所述的方法,其中,所述扩充语料库包括多个初始词和多个组合词;
5.根据权利要求4所述的方法,其中,所述将所述语义特征和所述扩展主题特征进行融合,得到所述待处理文本的融合特征,包括:
6.根据权利要求4所述的方法,其中,所述将所述语义特征和所述扩展主题特征进行融合,得到所述待处理文本的融合特征,包括:
7.根据权利要求4所述的方法,其中,所述基于所述扩充语料库,对所述待处理文本进行主题特征扩展,得到扩展主题特征,包括:
8.一种文本特征提取装置,包括:
9.一种电子设备,包括:
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中
11.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~7中任一项所述的方法。
...【技术特征摘要】
1.一种文本特征提取方法,包括:
2.根据权利要求1所述的方法,其中,所述对待处理文本中每个词的语义进行特征提取,得到所述待处理文本的语义特征,包括:
3.根据权利要求2所述的方法,其中,在所述对所述待处理文本中每个词进行词嵌入表示,得到每个词对应的词向量之后,还包括:
4.根据权利要求1~3任一项所述的方法,其中,所述扩充语料库包括多个初始词和多个组合词;
5.根据权利要求4所述的方法,其中,所述将所述语义特征和所述扩展主题特征进行融合,得到所述待处理文本的融合特征,包括:
6.根据权利要求4所述的方法...
【专利技术属性】
技术研发人员:朱子坤,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。