System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能,特别是涉及一种文本主题分类方法、装置、芯片及终端。
技术介绍
1、文本分类是自然语言处理的一个热门问题。随着我国经济的持续发展,信息成爆发式增长,由于文本的多样性和复杂性,而且文本的内容交叉、内容相近、类别间相关度较高,以及界限不明确,因此快速对海量的文本进行分类有着重要的意义。
2、而不同于英文语境中使用同一个单词进行字符级的变化适应多种词性和时态表示特定含义,语境中每一个字是独立的,想要表达时态等信息需要通过特定词语进行表示,可见将英文的文本的特征提取方法应用于中文文本,势必会影响关键特征的提取任务,最终导致分类不准确。
技术实现思路
1、基于此,本专利技术提供一种文本主题分类方法、装置、芯片及终端,用于提高文本分类的准确率。
2、第一方面,提供一种文本主题分类方法,包括:
3、获取待分类的文本主题,并对所述文本主题依次进行去除噪声、去停用词、分词和混淆映射处理,得到第一词集合;
4、将所述第一词集合输入至预先训练好的ernie-bigru模型中,通过所述ernie-bigru模型对所述第一词集合中的各词语进行语义分类得到第二词集合;
5、将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算;
6、基于各第二词集合与所述预设领域词语本体的相关度,确定所述文本主题的分类。
7、可选的,将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关
8、规则1:若第二词集合中的词语与所述预设领域词语本体中的词语相同,则继续执行所述基于各第二词集合与所述预设领域词语本体的相关度,确定所述文本主题的分类的步骤;若不相同,则执行规则2;
9、规则2:对所述第二词集合中的词语与所述预设领域词语本体中的词语进行概念匹配,若概念匹配成功,则计算概念相关度;若概念匹配不成功,则执行规则3;
10、规则3:对所述第二词集合中的词语与所述预设领域词语本体中的词语进行义元匹配,计算义元相关度。
11、可选的,将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算,之后还包括:
12、将相关度的值大于预设阈值的词语对应添加到所述预设领域词语本体中以更新所述预设领域词语本体。
13、可选的,获取待分类的文本主题,并对所述文本主题依次进行去除噪处理、分词处理和混淆映射处理,得到第一词集合,包括:
14、采集网页或者用户输入的文本主题,并基于语境中词语、句子之间的无意义连接字符查询所述文本主题中的噪音字符和停用词,得到语句短文本;
15、将所述语句短文本转换为有向无环图,并利用隐性马尔科夫模型预测所述有向无环图中词语的分割节点,并进行标记,得到分词序列;
16、识别所述分词序列中的英文和网络用语,查询网络词典中所述英文和所述网络用语对应的含义,并替换,得到第一词集合。
17、可选的,将所述语句短文本转换为有向无环图,并利用隐性马尔科夫模型预测所述有向无环图中词语的分割节点,并进行标记,得到分词序列,包括:
18、将所述语句短文本中的待拆分句子与词典中的字或词进行匹配,生成的前缀树;
19、根据所述前缀树中各字或词,按照不同的组词长度生成一个有向无环图;
20、利用提前训练好的隐性马尔科夫转移概率矩阵、观测概率矩阵,使用viterbi算法找到概率最大的子路径,并记录下所述概率的最大子路径在所述有向无环图中的起始节点和结束节点位置;
21、基于所述起始节点和所述结束节点位置作为分割位置,对所述待拆分句子重新组合标记,得到分词序列。
22、可选的,预先训练好的ernie-bigru模型由ernie预训练子模型、bigru子模型和softmax子模型组成,所述将所述第一词集合输入至预先训练好的ernie-bigru模型中,通过所述ernie-bigru模型对所述第一词集合中的各词语进行语义分类得到第二词集合,包括:
23、将所述第一词集合输入至所述ernie预训练子模型,对所述第一词集合进行预训练,得到句子级的词向量表示序列;
24、利用所述bigru子模型提取所述词向量表示序列中各词语的上下文信息;
25、利用所述softmax子模型,基于提取到的上下文信息进行语义分类,得到第二词集合。
26、可选的,ernie预训练子模型所述ernie预训练子模型为transformer编码和知识整合两个部分组成的网络,所述将所述第一词集合输入至所述ernie预训练子模型,对所述第一词集合进行预训练,得到句子级的词向量表示序列,包括:
27、将所述第一词集合输入至所述transformer编码,通过所述transformer编码器利用全注意力机制提取所述第一词集合中每个句子的关键词,并基于提取到的关键词进行编码,得到所有词语的向量表示;
28、将所有词语的向量表示进行加权求和,基于求和对各向量表示进行排序,得到向量序列;
29、通过多阶段的知识遮蔽策略,对所述第一词集合中各词语进行随机遮掩,并对遮掩后的短语进行语义解析并整合;
30、将整合得到的短语,对所述向量序列进行调整,得到句子级的词向量表示序列。
31、第二方面,提供一种文本主题分类装置,包括:
32、获取模块,用于获取待分类的文本主题,并对所述文本主题依次进行去除噪声、去停用词、分词和混淆映射处理,得到第一词集合;
33、预测模块,用于将所述第一词集合输入至预先训练好的ernie-bigru模型中,通过所述ernie-bigru模型对所述第一词集合中的各词语进行语义分类得到第二词集合;
34、计算模块,用于将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算;
35、分类模块,用于基于各第二词集合与所述预设领域词语本体的相关度,确定所述文本主题的分类。
36、可选的,获取模块包括:
37、去燥单元,用于采集网页或者用户输入的文本主题,并基于语境中词语、句子之间的无意义连接字符查询所述文本主题中的噪音字符和停用词,得到语句短文本;
38、标记单元,用于将所述语句短文本转换为有向无环图,并利用隐性马尔科夫模型预测所述有向无环图中词语的分割节点,并进行标记,得到分词序列;
39、替换单元,用于识别所述分词序列中的英文和网络用语,查询网络词典中所述英文和所述网络用语对应的含义,并替换,得到第一词集合。
40、可选的,所述标记单元具体用于:
41、将所述语句短文本中的待拆分句子与词典中的字或词进行匹配,生成的前缀树;
42、根据所述前缀树中各字或词,按照不同的组词长度生成一个有向无环图;
43、利用提前本文档来自技高网...
【技术保护点】
1.一种文本主题分类方法,其特征在于,包括:
2.如权利要求1所述的文本主题分类方法,其特征在于,所述获取待分类的文本主题,并对所述文本主题依次进行去除噪声、去停用词、分词和混淆映射处理,得到第一词集合,包括:
3.如权利要求2所述的文本主题分类方法,其特征在于,所述将所述语句短文本转换为有向无环图,并利用隐性马尔科夫模型预测所述有向无环图中词语的分割节点,并进行标记,得到分词序列,包括:
4.如权利要求1-3中任意一项所述的文本主题分类方法,其特征在于,所述将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算,包括:
5.如权利要求4所述的文本主题分类方法,其特征在于,所述将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算,之后还包括:
6.如权利要求1-3中任意一项所述的文本主题分类方法,其特征在于,预先训练好的ERNIE-BiGRU模型由ERNIE预训练子模型、BiGRU子模型和softmax子模型组成,所述将所述第一词集合输入至预先训练好的ERNIE-BiGRU模型中
7.如权利要求6所述的文本主题分类方法,其特征在于,所述ERNIE预训练子模型所述ERNIE预训练子模型为transformer编码和知识整合两个部分组成的网络;
8.一种文本主题分类装置,其特征在于,包括:
9.一种芯片,其特征在于,包括:第一处理器,用于从第一存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如权利要求1至7任一项所述的文本主题分类方法的步骤。
10.一种终端,其特征在于,包括第二存储器、第二处理器以及存储在所述第二存储器中并在所述第二处理器上运行的计算机程序,其特征在于,所述第二处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的文本主题分类方法的步骤。
...【技术特征摘要】
1.一种文本主题分类方法,其特征在于,包括:
2.如权利要求1所述的文本主题分类方法,其特征在于,所述获取待分类的文本主题,并对所述文本主题依次进行去除噪声、去停用词、分词和混淆映射处理,得到第一词集合,包括:
3.如权利要求2所述的文本主题分类方法,其特征在于,所述将所述语句短文本转换为有向无环图,并利用隐性马尔科夫模型预测所述有向无环图中词语的分割节点,并进行标记,得到分词序列,包括:
4.如权利要求1-3中任意一项所述的文本主题分类方法,其特征在于,所述将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算,包括:
5.如权利要求4所述的文本主题分类方法,其特征在于,所述将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算,之后还包括:
6.如权利要求1-3中任意一项所述的文本主题分类方法,其特征在于,预先训练好的ernie-bigru模型由ernie...
【专利技术属性】
技术研发人员:郭军,柯武生,翁国权,
申请(专利权)人:山东睿芯半导体科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。