智能语义分类方法、装置、设备及存储介质制造方法及图纸

技术编号：25803483 阅读：27 留言：0更新日期：2020-09-29 18:37

本案涉及人工智能领域，应用于语义解析，提供一种智能语义分类方法、装置、设备及存储介质。本方法包括：获取原始文本数据，通过预置意图角色标注模型对原始文本数据进行标注，得到原始文本数据的粗粒度语段和各粗粒度语段对应的意图角色，分别将各粗粒度语段归类至对应意图角色下，并对得到各意图角色对应的粗粒度语段集中的粗粒度语段进行聚类，得到各意图角色下各粗粒度语段集对应的语义族群并进行命名。本发明专利技术无需标注数据即可将语段进行语义分类，提高了数据分类效率。此外，本发明专利技术还涉及区块链技术，各意图角色下各粗粒度语段集对应的语义族群可存储于区块链中。

全部详细技术资料下载

【技术实现步骤摘要】
智能语义分类方法、装置、设备及存储介质
本专利技术涉及人工智能领域，应用于语义解析，尤其涉及一种智能语义分类方法、装置、设备及存储介质。
技术介绍
随着社会的进步和大数据的发展，口语语言理解技术在当前业界备受关注的语音助手研发流程中，起着至关重要的作用。尤其是金融等领域的语音助手，它们往往需要解决多种场景，多种领域，包括很多专业领域下的用户问题。随着对应语料覆盖话题和领域的广度迅速增加，传统的口语语言理解技术已经不能提供有效的服务。现有的SLU采用的方法需要进行意图分类和槽位填充工作，这些都是细粒度的分类工作，且粒度非常细。因此，完成这些任务所需的分类器就往往有多个意图角色；从而加大了分类的难度，降低了分类的效果。同时，传统的SLU方法是个自下而上的流程，由下游函数及其参数决定SLU输出数据的格式和内容。这样的设计局限性较大，且往往只能运用于单个下游任务，同时对于其他业务场景迁移能力较差。
技术实现思路
本专利技术的主要目的在于解决意图角色分类难度大，分类效率低下的技术问题。本专利技术第一方面提供了一种智能语义分类方法，包括：从预置语料库中获取原始文本数据；通过预置意图角色标注模型，对所述原始文本数据进行标注，得到所述原始文本数据中的粗粒度语段以及所述各粗粒度语段对应的意图角色；分别将所述各粗粒度语段归类至对应意图角色下，得到各意图角色对应的粗粒度语段集；分别对所述各粗粒度语段集进行聚类，得到各意图角色下各粗粒度语段集对应的语义族群并进行命名。>可选地，在本专利技术第一方面的第一种实现方式中，在所述通过预置意图角色标注模型，对所述原始文本数据进行标注，得到所述原始文本数据中的粗粒度语段以及所述各粗粒度语段对应的意图角色之前，还包括：读取文本语料；根据BIO标注格式，对所述文本语料的进行标注，得到所述文本语料的标注语料；将所述标注语料作为训练集输入预置序列化标注模型进行训练，输出意图角色标注模型。可选地，在本专利技术第一方面的第二种实现方式中，所述将所述标注语料作为训练集输入预置序列化标注模型进行训练，输出意图角色标注模型包括：将所述标注语料输入预置序列化标注模型进行预训练，并通过所述序列化标注模型对所述标注语料进行序列标注，得到多个任务的预测标注结果；根据所述预测标注结果，计算模型损失值；将所述模型损失值反向输入所述序列化标注模型，判断所述模型损失值是否达到预设损失值；若未达到，则采用反向传播算法根据所述模型损失值更新所述序列化标注模型的参数；通过参数更新后的序列化标注模型对所述标注语料进行处理，得到多个任务的预测标注结果；基于所述预测标注结果，重新计算所述模型损失值；若所述模型损失值达到预设损失值，则确认模型收敛，并将所述参数更新后的序列化标注模型作为最终训练得到的意图角色标注模型。可选地，在本专利技术第一方面的第三种实现方式中，所述通过预置意图角色标注模型，对所述原始文本数据进行标注，得到所述原始文本数据中的粗粒度语段以及所述各粗粒度语段对应的意图角色包括：通过预置意图角色标注模型对所述原始文本数据进行意图角色标注，得到所述原始文本数据的意图角色标注结果；基于所述意图角色标注结果，确定所述原始文本数据中每一个字以及标点符号对应的意图角色；基于所述每一个字以及标点符号对应的意图角色，确定所述原始文本数据中的粗粒度语段以及所述各粗粒度语段对应的意图角色。可选地，在本专利技术第一方面的第四种实现方式中，所述分别对所述各粗粒度语段集进行聚类，得到各意图角色下各粗粒度语段集对应的语义族群并进行命名包括：分别对各意图角色对应的粗粒度语段集中的各粗粒度语段进行向量化处理，得到对应的粗粒度语段向量；基于预置余弦相似度算法，分别计算所述各粗粒度语段向量两两之间的第一余弦相似度；基于所述第一余弦相似度，对所述各意图角色下各粗粒度语段集进行聚类，得到各意图角色下各粗粒度语段集对应的多个语义族群；分别对所述多个语义族群进行命名，其中，一个语义族群包含多个语义类似的粗粒度语段。可选地，在本专利技术第一方面的第五种实现方式中，所述基于所述第一余弦相似度，对所述各意图角色下各粗粒度语段集进行聚类，得到各意图角色下各粗粒度语段集对应的多个语义族群包括：设各意图角色下粗粒度语段集的聚类个数为k，并随机选取k个粗粒度语段集作为初始聚类中心；基于所述第一余弦相似度，分别将各意图角色下的粗粒度语段集中所述各粗粒度语段归类至各初始聚类中心对应语义族群，直到将所述粗粒度语段归类完毕；确定所述各语义族群的真实聚类中心，得到各意图角色下各粗粒度语段集对应的多个目标语义族群。可选地，在本专利技术第一方面的第六种实现方式中，在所述分别对所述各粗粒度语段集进行聚类，得到各意图角色下各粗粒度语段集对应的语义族群并进行命名之后，还包括：接收用户问句；通过所述意图角色标注模型，对所述用户问句进行标注，得到标注语段和与所述标注语段对应的意图角色；对所述标注语段进行向量化处理，得到标注语段向量，并计算所述标注语段向量与每个语义族群的聚类中心的第二余弦相似度；基于所述第二余弦相似度，确定所述标注语段所属语义族群，并基于所述语义族群确定用户的真实意图。本专利技术第二方面提供了一种智能语义分类装置，包括：获取模块，用于从预置语料库中获取原始文本数据；标注模块，用于通过预置意图角色标注模型，对所述原始文本数据进行标注，得到所述原始文本数据中的粗粒度语段以及所述各粗粒度语段对应的意图角色；归类模块，用于分别将所述各粗粒度语段归类至对应意图角色下，得到各意图角色对应的粗粒度语段集；聚类模块，用于分别对所述各粗粒度语段集进行聚类，得到各意图角色下各粗粒度语段集对应的语义族群并进行命名。可选地，所述智能语义分类装置还包括：读取模块，用于读取文本语料；第二标注模块，用于根据BIO标注格式，对所述文本语料的进行标注，得到所述文本语料的标注语料；训练模块，用于将所述标注语料作为训练集输入预置序列化标注模型进行训练，输出意图角色标注模型。可选地，在本专利技术第二方面的第一种实现方式中，所述训练模块具体用于：将所述标注语料输入预置序列化标注模型进行预训练，并通过所述序列化标注模型对所述标注语料进行序列标注，得到多个任务的预测标注结果；根据所述预测标注结果，计算模型损失值；将所述模型损失值反向输入所述序列化标注模型，判断所述模型损失值是否达到预设损失值；若未达到，则采用反向传播算法根据所述模型损失值更新所述序列化标注模型的参数；通过参数更新后的序列化标注模型对所述标注语料进行处理，得到多个任务的预测标注结果；基于所述预测标注结果，重新计算所述模型损失值；若所述模型损失值达到预设损失值，则确认模型收敛，并将所述参数更新后的序列化标注模型作为最终训本文档来自技高网...

【技术保护点】
1.一种智能语义分类方法，其特征在于，所述智能语义分类方法包括以下步骤：/n从预置语料库中获取原始文本数据；/n通过预置意图角色标注模型，对所述原始文本数据进行标注，得到所述原始文本数据中的粗粒度语段以及所述各粗粒度语段对应的意图角色；/n分别将所述各粗粒度语段归类至对应意图角色下，得到各意图角色对应的粗粒度语段集；/n分别对所述各粗粒度语段集进行聚类，得到各意图角色下各粗粒度语段集对应的语义族群并进行命名。/n

【技术特征摘要】
1.一种智能语义分类方法，其特征在于，所述智能语义分类方法包括以下步骤：
从预置语料库中获取原始文本数据；
通过预置意图角色标注模型，对所述原始文本数据进行标注，得到所述原始文本数据中的粗粒度语段以及所述各粗粒度语段对应的意图角色；
分别将所述各粗粒度语段归类至对应意图角色下，得到各意图角色对应的粗粒度语段集；
分别对所述各粗粒度语段集进行聚类，得到各意图角色下各粗粒度语段集对应的语义族群并进行命名。

2.根据权利要求1所述的智能语义分类方法，其特征在于，在所述通过预置意图角色标注模型，对所述原始文本数据进行标注，得到所述原始文本数据中的粗粒度语段以及所述各粗粒度语段对应的意图角色之前，还包括：
读取文本语料；
根据BIO标注格式，对所述文本语料的进行标注，得到所述文本语料的标注语料；
将所述标注语料作为训练集输入预置序列化标注模型进行训练，输出意图角色标注模型。

3.根据权利要求2所述的智能语义分类方法，其特征在于，所述将所述标注语料作为训练集输入预置序列化标注模型进行训练，输出意图角色标注模型包括：
将所述标注语料输入预置序列化标注模型进行预训练，并通过所述序列化标注模型对所述标注语料进行序列标注，得到多个任务的预测标注结果；
根据所述预测标注结果，计算模型损失值；
将所述模型损失值反向输入所述序列化标注模型，判断所述模型损失值是否达到预设损失值；
若未达到，则采用反向传播算法根据所述模型损失值更新所述序列化标注模型的参数；
通过参数更新后的序列化标注模型对所述标注语料进行处理，得到多个任务的预测标注结果；
基于所述预测标注结果，重新计算所述模型损失值；
若所述模型损失值达到预设损失值，则确认模型收敛，并将所述参数更新后的序列化标注模型作为最终训练得到的意图角色标注模型。

4.根据权利要求1所述的智能语义分类方法，其特征在于，所述通过预置意图角色标注模型，对所述原始文本数据进行标注，得到所述原始文本数据中的粗粒度语段以及所述各粗粒度语段对应的意图角色包括：
通过预置意图角色标注模型对所述原始文本数据进行意图角色标注，得到所述原始文本数据的意图角色标注结果；
基于所述意图角色标注结果，确定所述原始文本数据中每一个字以及标点符号对应的意图角色；
基于所述每一个字以及标点符号对应的意图角色，确定所述原始文本数据中的粗粒度语段以及所述各粗粒度语段对应的意图角色。

5.根据权利要求1所述的智能语义分类方法，其特征在于，所述分别对所述各粗粒度语段集进行聚类，得到各意图角色下各粗粒度语段集对应的语义族群并进行命名包括：
分别对各意图角色对应的粗粒度语段集中的各粗粒度语段进行向量化...

【专利技术属性】
技术研发人员：马丹，勾震，曾增烽，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人