System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本特征提取方法、系统及装置制造方法及图纸_技高网

文本特征提取方法、系统及装置制造方法及图纸

技术编号:40352474 阅读:9 留言:0更新日期:2024-02-09 14:37
本公开涉及一种文本特征提取方法、系统及装置。文本特征提取流程包括依次执行的分词步骤和词特征提取步骤。本公开针对分词步骤提供多个第一组件,每个第一组件对应一种分词算法,第一组件用于使用分词算法对待进行文本特征提取的文本进行分词处理,得到多个分词。针对词特征提取步骤提供多个第二组件,每个第二组件对应一种词特征提取算法,第二组件用于使用词特征提取算法对各个分词进行词特征提取。获取用户针对文本特征提取流程中的至少部分步骤选取的组件。基于用户选取的组件执行文本特征提取流程。由此,可以满足用户在不同场景下的文本特征提取需求,具有通用性和普适性。

【技术实现步骤摘要】

本公开涉及人工智能领域,特别是涉及一种文本特征提取方法、系统及装置


技术介绍

1、文本特征提取的目的是,将无法直接用于建模任务的字符型数据,转换为数值型数据。

2、目前,主要是由用户手动构造文本特征提取方案,实现文本特征提取。

3、手动构造文本特征提取方案费时费力,且构造的文本特征提取方案只能用于当前场景,当应用场景发生变动时,需要重新构造文本特征提取方案。

4、因此,需要一种具备通用性和普适性的文本特征提取方案。


技术实现思路

1、本公开要解决的一个技术问题是,如何设计一种具备通用性和普适性的文本特征提取方案。

2、根据本公开的第一个方面,提供了一种文本特征提取方法,其中,文本特征提取流程包括依次执行的分词步骤和词特征提取步骤,该方法包括:针对所述分词步骤提供多个第一组件,每个所述第一组件对应一种分词算法,所述第一组件用于使用所述分词算法对待进行文本特征提取的文本进行分词处理,得到多个分词;针对所述词特征提取步骤提供多个第二组件,每个所述第二组件对应一种词特征提取算法,所述第二组件用于使用所述词特征提取算法对各个所述分词进行词特征提取;获取用户针对所述文本特征提取流程中的至少部分步骤选取的组件;以及基于用户选取的组件执行所述文本特征提取流程。

3、可选地,该方法还包括:针对所述第一组件和/或所述第二组件,提供使用参考信息,所述使用参考信息用于表征组件所使用的算法的适用场景和/或使用效果。

4、可选地,该方法还包括:若用户仅针对所述文本特征提取流程中的部分步骤选取组件,则对所述文本在用户未选取组件的步骤所适于使用的组件进行分析,确定用户未选取组件的步骤的推荐组件,其中,基于用户选取的组件执行所述文本特征提取流程,包括:基于用户针对所述部分步骤选取的组件以及未选取组件的步骤所对应的推荐组件,执行所述文本特征提取流程。

5、可选地,该方法还包括:针对一种或多种文本场景,预先设定与各个所述文本场景对应的文本特征提取推荐流程,所述文本特征提取推荐流程包括针对所述文本特征提取流程中的各个所述步骤设定的推荐组件,其中,获取用户针对所述文本特征提取流程中的至少部分步骤选取的组件,包括:获取用户选取的文本场景,基于用户选取的组件执行所述文本特征提取流程,包括:基于用户选取的文本场景所对应的文本特征提取推荐流程中的推荐组件,执行所述文本特征提取流程。

6、可选地,所述第一组件和/或所述第二组件为基于统一封装规范对所述算法进行封装得到的,不同的组件具有格式统一的输入和输出。

7、可选地,所述多个第一组件包括:使用空格分词算法实现分词的组件和使用无监督分词算法实现分词的组件,并且/或者所述多个第二组件包括:使用基于词频的特征提取算法实现词特征提取的组件、使用词向量算法实现词特征提取的组件、使用全局词表示向量算法实现词特征提取的组件、使用词向量与文本分类算法实现词特征提取的组件、使用深度双向语言表征算法实现词特征提取的组件、使用零样本学习算法实现词特征提取的组件中的至少两个。

8、可选地,所述文本特征提取流程还包括位于所述词特征提取步骤之后的特征降维步骤,该方法还包括:针对所述特征降维步骤提供多个第三组件,每个所述第三组件对应一种特征降维算法,所述第三组件用于使用所述特征降维算法对词特征提取结果进行特征降维。

9、可选地,所述多个第三组件包括使用有监督的特征降维算法实现特征降维的组件和使用无监督的特征降维算法实现特征降维的组件。

10、根据本公开的第二个方面,提供了一种文本特征提取方法,包括:将文本特征提取流程划分为多个步骤,所述多个步骤包括分词步骤和词特征提取步骤;针对每个所述步骤提供多种实现方法;获取用户针对一个或多个所述步骤选取的实现方法;基于用户选取的实现方法执行所述文本特征提取流程。

11、根据本公开的第三个方面,提供了一种文本特征提取系统,其中,文本特征提取流程包括依次执行的分词步骤和词特征提取步骤,该系统包括:与所述分词步骤对应的第一类组件,所述第一类组件包括多个第一组件,每个所述第一组件对应一种分词算法,所述第一组件用于使用所述分词算法对待进行文本特征提取的文本进行分词处理,得到多个分词;与所述词特征提取步骤对应的第二类组件,所述第二类组件包括多个第二组件,每个所述第二组件对应一种词特征提取算法,所述第二组件用于使用所述词特征提取算法对各个所述分词进行词特征提取;以及调度装置,用于获取用户针对所述文本特征提取流程中的至少部分步骤选取的组件,调用用户选取的组件执行所述文本特征提取流程。

12、可选地,所述文本特征提取流程还包括位于所述词特征提取步骤之后的特征降维步骤,该系统还包括:与所述特征降维步骤对应的第三类组件,所述第三类组件包括多个第三组件,每个所述第三组件对应一种特征降维算法,所述第三组件用于使用所述特征降维算法对词特征提取结果进行特征降维。

13、可选地,所述多个第一组件包括:使用空格分词算法实现分词的组件和使用无监督分词算法实现分词的组件,并且/或者所述多个第二组件包括:使用基于词频的特征提取算法实现词特征提取的组件、使用词向量算法实现词特征提取的组件、使用全局词表示向量算法实现词特征提取的组件、使用词向量与文本分类算法实现词特征提取的组件、使用深度双向语言表征算法实现词特征提取的组件、使用零样本学习算法实现词特征提取的组件以及使用平滑逆词频算法实现词特征提取的组件中的至少两个,并且/或者所述多个第三组件包括使用有监督的特征降维算法实现特征降维的组件和使用无监督的特征降维算法实现特征降维的组件。

14、根据本公开的第四个方面,提供了一种文本特征提取装置,其中,文本特征提取流程包括依次执行的分词步骤和词特征提取步骤,该装置包括:第一提供模块,用于针对所述分词步骤提供多个第一组件,每个所述第一组件对应一种分词算法,所述第一组件用于使用所述分词算法对待进行文本特征提取的文本进行分词处理,得到多个分词;第二提供模块,用于针对所述词特征提取步骤提供多个第二组件,每个所述第二组件对应一种词特征提取算法,所述第二组件用于使用所述词特征提取算法对各个所述分词进行词特征提取;获取模块,用于获取用户针对所述文本特征提取流程中的至少部分步骤选取的组件;以及执行模块,用于基于用户选取的组件执行所述文本特征提取流程。

15、可选地,该装置还包括:第三提供模块,用于针对所述第一组件和/或所述第二组件,提供使用参考信息,所述使用参考信息用于表征组件所使用的算法的适用场景和/或使用效果。

16、可选地,该装置还包括:分析模块,用于在用户仅针对所述文本特征提取流程中的部分步骤选取组件的情况下,对所述文本在用户未选取组件的步骤所适于使用的组件进行分析,确定用户未选取组件的步骤的推荐组件,其中,所述执行模块基于用户针对所述部分步骤选取的组件以及未选取组件的步骤所对应的推荐组件,执行所述文本特征提取流程。

17、可选地,本文档来自技高网...

【技术保护点】

1.一种文本特征提取方法,其中,文本特征提取流程包括依次执行的分词步骤和词特征提取步骤,该方法包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1所述的方法,还包括:

4.根据权利要求1所述的方法,还包括:针对一种或多种文本场景,预先设定与各个所述文本场景对应的文本特征提取推荐流程,所述文本特征提取推荐流程包括针对所述文本特征提取流程中的各个所述步骤设定的推荐组件,

5.根据权利要求1所述的方法,其中,

6.根据权利要求1所述的方法,其中,

7.一种文本特征提取方法,包括:

8.一种文本特征提取系统,其中,文本特征提取流程包括依次执行的分词步骤和词特征提取步骤,该系统包括:

9.一种文本特征提取装置,其中,文本特征提取流程包括依次执行的分词步骤和词特征提取步骤,该装置包括:

10.一种计算设备,包括:

【技术特征摘要】

1.一种文本特征提取方法,其中,文本特征提取流程包括依次执行的分词步骤和词特征提取步骤,该方法包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1所述的方法,还包括:

4.根据权利要求1所述的方法,还包括:针对一种或多种文本场景,预先设定与各个所述文本场景对应的文本特征提取推荐流程,所述文本特征提取推荐流程包括针对所述文本特征提取流程中的各个所述步骤设定的推荐组件...

【专利技术属性】
技术研发人员:戴亨玮蔡恒兴涂威威
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1