佛学领域词汇的处理方法、装置、设备及存储介质制造方法及图纸

技术编号:28978661 阅读:16 留言:0更新日期:2021-06-23 09:24
本发明专利技术涉及人工智能技术领域,提供一种佛学领域词汇的处理方法、装置、设备及存储介质,用于对佛学领域词汇进行词汇挖掘处理的准确性。佛学领域词汇的处理方法包括:对佛学领域文本语料进行分词和去停用词处理得到备选词汇集;通过无监督学习模型,对备选词汇集依次进行词向量转换和矩阵转换得到词汇矩阵;通过预置聚类模型对词汇矩阵依次进行聚类处理和领域词提取得到目标领域词汇集;将目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接得到初始领域词汇信息;通过目标集成词汇过滤模型对初始领域词汇信息进行分类得到目标领域词汇信息。此外,本发明专利技术还涉及区块链技术,佛学领域文本语料可存储于区块链中。

【技术实现步骤摘要】
佛学领域词汇的处理方法、装置、设备及存储介质
本专利技术涉及人工智能的分类算法领域,尤其涉及一种佛学领域词汇的处理方法、装置、设备及存储介质。
技术介绍
随着互联网技术的飞速发展,人们对于从互联网络中获取佛学知识的需求日益剧增,对于佛学词汇的解释信息的获取便是其中一种需求,而前期所进行的领域词汇处理,对于佛学词汇的解释信息的获取准确度起到重要作用。目前,对于佛学领域词汇的处理,一般是采用基于规则的词汇挖掘方法或有监督词汇挖掘方法对佛学词汇进行词汇挖掘。但是,基于规则的词汇挖掘方法主要面向的对象是表格或其它结构化数据,对于自由文本等非结构化数据的挖掘效果不好;有监督词汇挖掘方法,主要基于机器学习算法模型进行词汇挖掘,需要进行大量的语料标注,从而导致对佛学领域词汇进行词汇挖掘处理的准确性低。
技术实现思路
本专利技术提供一种佛学领域词汇的处理方法、装置、设备及存储介质,提高对佛学领域词汇进行词汇挖掘处理的准确性。本专利技术第一方面提供了一种佛学领域词汇的处理方法,包括:获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集;通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵;通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集;获取所述目标领域词汇集中每个目标领域词汇对应的释义信息,将所述目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,得到初始领域词汇信息;通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库,所述集成词汇过滤模型由多个文本分类模型集成而得。可选的,在本专利技术第一方面的第一种实现方式中,所述通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库,包括:通过预置的目标集成词汇过滤模型中的多个文本分类模型,分别计算所述初始领域词汇信息的佛学领域词汇概率,得到多个分类概率值;将所述多个分类概率值进行相加,得到目标分类概率值,并对所述目标分类概率值与预设阈值进行对比分析;将所述目标分类概率值大于所述预设阈值的初始领域词汇信息确定为与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库。可选的,在本专利技术第一方面的第二种实现方式中,所述通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵,包括:通过预置的无监督学习模型和词嵌入矩阵,将所述备选词汇集中每个备选词汇映射成词向量,得到词汇向量集;对所述词汇向量集中每两个词汇向量进行相似度计算,得到多个相似度,并根据所述多个相似度生成词汇矩阵。可选的,在本专利技术第一方面的第三种实现方式中,所述通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集,包括:通过预置聚类模型中的吸引子传播算法,对所述词汇矩阵进行聚类分析,得到多个聚类簇;将每个聚类簇中排位为预设位置的词汇确定为目标领域词汇,得到目标领域词汇集。可选的,在本专利技术第一方面的第四种实现方式中,所述获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集之前,还包括:获取佛学领域文本训练语料中的初始词汇集,对所述初始词汇集依次进行词向量转换、矩阵转换、聚类处理和领域词提取,得到训练词汇集;获取所述训练词汇集中每个训练词汇的释义信息,将所述训练词汇集中每个训练词汇和每个训练词汇对应的释义信息进行字符串拼接,得到训练词汇信息;按照预置的集成学习策略,对预置的快速文本分类模型、卷积神经网络文本分类模型和预训练的语言表征模型进行集成,得到初始集成词汇过滤模型;通过所述训练词汇信息,对所述初始集成词汇过滤模型进行词汇过滤,得到过滤结果;根据预置的损失函数和所述过滤结果,对所述初始集成词汇过滤模型的参数进行迭代更新,得到目标集成词汇过滤模型。可选的,在本专利技术第一方面的第五种实现方式中,所述通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库之后,还包括:获取用户咨询信息,通过预置目标佛学问答模型对所述用户咨询信息进行佛学词汇提取,得到咨询词汇;通过预置的多模匹配算法,将所述咨询词汇和所述预置数据库中的目标领域词汇信息进行匹配,得到所述用户咨询信息对应的释义信息。可选的,在本专利技术第一方面的第六种实现方式中,所述通过预置的多模匹配算法,将所述咨询词汇和所述预置数据库中的目标领域词汇信息进行匹配,得到所述用户咨询信息对应的释义信息,包括:通过预置的多模匹配算法和所述咨询词汇,对所述目标领域词汇集进行滑动匹配,得到与所述咨询词汇对应的目标词汇;对所述预置数据库中的目标领域词汇信息进行检索,得到与所述目标词汇对应的释义信息。本专利技术第二方面提供了一种佛学领域词汇的处理装置,包括:处理模块,用于获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集;转换模块,用于通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵;提取模块,用于通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集;拼接模块,用于获取所述目标领域词汇集中每个目标领域词汇对应的释义信息,将所述目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,得到初始领域词汇信息;分类模块,用于通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库,所述集成词汇过滤模型由多个文本分类模型集成而得。可选的,在本专利技术第二方面的第一种实现方式中,所述分类模块具体用于:通过预置的目标集成词汇过滤模型中的多个文本分类模型,分别计算所述初始领域词汇信息的佛学领域词汇概率,得到多个分类概率值;将所述多个分类概率值进行相加,得到目标分类概率值,并对所述目标分类概率值与预设阈值进行对比分析;将所述目标分类概率值大于所述预设阈值的初始领域词汇信息确定为与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库。可选的,在本专利技术第二方面的第二种实现方式中,所述转换模块具体用于:通过预置的无监督学习模型和词嵌入矩阵,将所述备选词汇集中每个备选词汇映射成词向量,得到词汇向量集;对所述词汇向量集中每两个词汇向量进行相似度计算,得到多个相似度,并根据所述多个相似度生成词汇矩阵。可选的,在本专利技术第二方本文档来自技高网...

【技术保护点】
1.一种佛学领域词汇的处理方法,其特征在于,所述佛学领域词汇的处理方法包括:/n获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集;/n通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵;/n通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集;/n获取所述目标领域词汇集中每个目标领域词汇对应的释义信息,将所述目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,得到初始领域词汇信息;/n通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库,所述集成词汇过滤模型由多个文本分类模型集成而得。/n

【技术特征摘要】
1.一种佛学领域词汇的处理方法,其特征在于,所述佛学领域词汇的处理方法包括:
获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集;
通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵;
通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集;
获取所述目标领域词汇集中每个目标领域词汇对应的释义信息,将所述目标领域词汇集中每个目标领域词汇和每个目标领域词汇对应的释义信息进行字符串拼接,得到初始领域词汇信息;
通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库,所述集成词汇过滤模型由多个文本分类模型集成而得。


2.根据权利要求1所述的佛学领域词汇的处理方法,其特征在于,所述通过预置的目标集成词汇过滤模型,对所述初始领域词汇信息进行分类,得到与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库,包括:
通过预置的目标集成词汇过滤模型中的多个文本分类模型,分别计算所述初始领域词汇信息的佛学领域词汇概率,得到多个分类概率值;
将所述多个分类概率值进行相加,得到目标分类概率值,并对所述目标分类概率值与预设阈值进行对比分析;
将所述目标分类概率值大于所述预设阈值的初始领域词汇信息确定为与佛学领域词汇相关的目标领域词汇信息,并将所述目标领域词汇信息存储至预置数据库。


3.根据权利要求1所述的佛学领域词汇的处理方法,其特征在于,所述通过预置的无监督学习模型,对所述备选词汇集依次进行词向量转换和矩阵转换,得到词汇矩阵,包括:
通过预置的无监督学习模型和词嵌入矩阵,将所述备选词汇集中每个备选词汇映射成词向量,得到词汇向量集;
对所述词汇向量集中每两个词汇向量进行相似度计算,得到多个相似度,并根据所述多个相似度生成词汇矩阵。


4.根据权利要求1所述的佛学领域词汇的处理方法,其特征在于,所述通过预置聚类模型对所述词汇矩阵依次进行聚类处理和领域词提取,得到目标领域词汇集,包括:
通过预置聚类模型中的吸引子传播算法,对所述词汇矩阵进行聚类分析,得到多个聚类簇;
将每个聚类簇中排位为预设位置的词汇确定为目标领域词汇,得到目标领域词汇集。


5.根据权利要求1所述的佛学领域词汇的处理方法,其特征在于,所述获取佛学领域文本语料,对所述佛学领域文本语料进行分词和去停用词处理,得到备选词汇集之前,还包括:
获取佛学领域文本训练语料中的初始词汇集,对所述初始词汇集依次进行词向量转换、矩阵转换、聚类处理和领域词提取,得到训练词汇集;
获取所述训练词汇集中每个训练词汇的释义信息,将所述训练词汇集中每个训练词汇和每个训练词汇对应的释义信息进行字符串拼接,得到训练词汇信...

【专利技术属性】
技术研发人员:郝凯风李剑锋
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1