【技术实现步骤摘要】
佛学领域词汇的处理方法、装置、设备及存储介质
本专利技术涉及人工智能的分类算法领域,尤其涉及一种佛学领域词汇的处理方法、装置、设备及存储介质。
技术介绍
随着互联网技术的飞速发展,人们对于从互联网络中获取佛学知识的需求日益剧增,对于佛学词汇的解释信息的获取便是其中一种需求,而前期所进行的领域词汇处理,对于佛学词汇的解释信息的获取准确度起到重要作用。目前,对于佛学领域词汇的处理,一般是采用基于规则的词汇挖掘方法或有监督词汇挖掘方法对佛学词汇进行词汇挖掘。但是,基于规则的词汇挖掘方法主要面向的对象是表格或其它结构化数据,对于自由文本等非结构化数据的挖掘效果不好;有监督词汇挖掘方法,主要基于机器学习算法模型进行词汇挖掘,需要进行大量的语料标注,从而导致对佛学领域词汇进行词汇挖掘处理的准确性低。
技术实现思路
本专利技术提供一种佛学领域词汇的处理方法、装置、设备及存储介质,提高对佛学领域词汇进行词汇挖掘处理的准确性。本专利技术第一方面提供了一种佛学领域词汇的处理方法,包括:获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集;通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵;通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集;获取所述目标领域词汇集中每个目标领域词汇对应的释义信息,将所述目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接, ...
【技术保护点】
1.一种佛学领域词汇的处理方法,其特征在于,所述佛学领域词汇的处理方法包括:/n获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集;/n通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵;/n通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集;/n获取所述目标领域词汇集中每个目标领域词汇对应的释义信息,将所述目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,得到初始领域词汇信息;/n通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库,所述集成词汇过滤模型由多个文本分类模型集成而得。/n
【技术特征摘要】
1.一种佛学领域词汇的处理方法,其特征在于,所述佛学领域词汇的处理方法包括:
获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集;
通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵;
通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集;
获取所述目标领域词汇集中每个目标领域词汇对应的释义信息,将所述目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,得到初始领域词汇信息;
通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库,所述集成词汇过滤模型由多个文本分类模型集成而得。
2.根据权利要求1所述的佛学领域词汇的处理方法,其特征在于,所述通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库,包括:
通过预置的目标集成词汇过滤模型中的多个文本分类模型,分别计算所述初始领域词汇信息的佛学领域词汇概率,得到多个分类概率值;
将所述多个分类概率值进行相加,得到目标分类概率值,并对所述目标分类概率值与预设阈值进行对比分析;
将所述目标分类概率值大于所述预设阈值的初始领域词汇信息确定为与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库。
3.根据权利要求1所述的佛学领域词汇的处理方法,其特征在于,所述通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵,包括:
通过预置的无监督学习模型和词嵌入矩阵,将所述备选词汇集中每个备选词汇映射成词向量,得到词汇向量集;
对所述词汇向量集中每两个词汇向量进行相似度计算,得到多个相似度,并根据所述多个相似度生成词汇矩阵。
4.根据权利要求1所述的佛学领域词汇的处理方法,其特征在于,所述通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集,包括:
通过预置聚类模型中的吸引子传播算法,对所述词汇矩阵进行聚类分析,得到多个聚类簇;
将每个聚类簇中排位为预设位置的词汇确定为目标领域词汇,得到目标领域词汇集。
5.根据权利要求1所述的佛学领域词汇的处理方法,其特征在于,所述获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集之前,还包括:
获取佛学领域文本训练语料中的初始词汇集,对所述初始词汇集依次进行词向量转换、矩阵转换、聚类处理和领域词提取,得到训练词汇集;
获取所述训练词汇集中每个训练词汇的释义信息,将所述训练词汇集中每个训练词汇和每个训练词汇对应的释义信息进行字符串拼接,得到训练词汇信...
【专利技术属性】
技术研发人员:郝凯风,李剑锋,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。