分类器训练方法、类型识别方法及装置制造方法及图纸

技术编号:12420705 阅读:89 留言:0更新日期:2015-12-02 15:52
本公开揭示了一种分类器训练方法、类型识别方法及装置,属于自然语言处理领域。分类器训练方法包括:从样本信息中提取携带有目标关键字的样本分句;根据每条样本分句是否属于目标类别,对样本分句进行二值标注,得到样本训练集;对样本训练集中的每个样本分句进行分词,得到若干个词语;从若干个词语中提取出指定特征集合,指定特征集合包括至少一个特征词;根据指定特征集合中的特征词构建分类器;根据样本训练集中的二值标注结果对分类器进行训练。由于指定特征集合中的特征词是根据携带有目标关键词的样本分句的分词结果所提取得到的,所以该分类器能够对携带有目标关键词的分句做出较为准确的预测,达到了识别结果较为准确的效果。

【技术实现步骤摘要】

本公开涉及自然语言处理领域,特别涉及一种分类器训练方法、类型识别方法及 装置。
技术介绍
短信内容识别和提取是自然语言处理的一个实际应用。 以识别生日类短信为例,相关技术中提供了一种识别方法,该识别方法预先设置 了若干个关键词,通过识别短信的内容中是否包括全部或部分关键词,来识别该短信是否 为携带有生日日期的短信。
技术实现思路
为了解决直接使用关键词进行类型识别并不准确的问题,本公开提供一种分类器 训练方法、类型识别方法及装置。所述技术方案如下: 根据本公开实施例的第一方面,提供了一种分类器训练方法,该方法包括: 从样本信息中提取携带有目标关键字的样本分句; 根据每条样本分句是否属于目标类别,对样本分句进行二值标注,得到样本训练 集; 对样本训练集中的每个样本分句进行分词,得到若干个词语; 从若干个词语中提取出指定特征集合,指定特征集合包括至少一个特征词; 根据指定特征集合中的特征词构建分类器; 根据样本训练集中的二值标注结果对分类器进行训练。 在一个可选的实施例中,从若干个词语中提取出指定特征集合,包括: 根据卡方检验从若干个词语中提取出指定特征集合; 或, 根据信息增益从若干个词语中提取出指定特征集合。 在一个可选的实施例中,根据指定特征集合中的特征词构建分类器,包括: 将指定特征集合中的特征词构建朴素贝叶斯分类器,各个特征词在朴素贝叶斯分 类器中互相独立。 在一个可选的实施例中,根据样本训练集中的二值标注结果对分类器进行训练, 包括: 对于朴素贝叶斯分类器中的每个特征词,根据样本训练集中的二值标注结果,统 计出携带有特征词的分句属于目标类别的第一条件概率,和,携带有特征词的分句不属于 目标类别的第二条件概率; 根据各个特征词、第一条件概率和第二条件概率,得到训练后的朴素贝叶斯分类 器。 根据本公开的第二方面,提供了一种类型识别方法,该方法包括: 从原始信息中提取携带有目标关键字的分句; 根据提取出的分句中属于指定特征集合的特征词,生成原始信息的特征集合,指 定特征集合中的特征词是根据携带有目标关键词的样本分句的分词结果所提取得到的; 将原始信息的特征集合输入训练后的分类器中进行预测,分类器是预先根据指定 特征集合中的特征词构建的分类器; 获取分类器的预测结果,预测结果表征原始信息属于目标类别或不属于目标类 别。 在一个可选的实施例中,将原始信息的特征集合输入训练后的分类器中进行预 测,包括: 将原始信息的特征集合中的每个特征词,输入训练后的朴素贝叶斯分类器中,计 算原始信息属于目标类别的第一预测概率和原始信息不属于目标类别的第二预测概率; 根据第一预测概率和第二预测概率的大小关系,预测原始信息是否属于目标类 别; 其中,训练后的朴素贝叶斯分类器中包括每个特征词的第一条件概率和第二条件 概率,第一条件概率是携带有特征词的分句属于目标类别的概率,第二条件概率是携带有 特征词的分句不属于目标类别的概率。 在一个可选的实施例中,该方法还包括: 若预测出原始信息属于目标类别,则从原始信息中提取目标信息。 在一个可选的实施例中,目标信息是生日日期; 从原始信息中提取目标信息,包括: 通过正则表达式从原始信息中提取生日日期; 或, 将原始信息的接收日期提取为生日日期。 根据本公开的第三方面,提供了一种分类器训练装置,该装置包括: 分句提取模块,被配置为从样本信息中提取携带有目标关键字的样本分句; 分句标注模块,被配置为根据每条样本分句是否属于目标类别,对样本分句进行 二值标注,得到样本训练集; 分句分词模块,被配置为对样本训练集中的每个样本分句进行分词,得到若干个 词语; 特征词提取模块,被配置为从若干个词语中提取出指定特征集合,指定特征集合 包括至少一个特征词; 分类器构建模块,被配置为根据指定特征集合中的特征词构建分类器; 分类器训练模块,被配置为根据样本训练集中的二值标注结果对分类器进行训 练。 在一个可选的实施例中,特征词提取模块,被配置为根据卡方检验从若干个词语 中提取出指定特征集合;或,特征词提取模块,被配置为根据信息增益从若干个词语中提取 出指定特征集合。 在一个可选的实施例中,分类器构建模块,被配置为将指定特征集合中的特征词 构建朴素贝叶斯分类器,各个特征词在朴素贝叶斯分类器中互相独立。 在一个可选的实施例中,分类器训练模块,包括: 统计子模块,被配置为对于朴素贝叶斯分类器中的每个特征词,根据样本训练集 中的二值标注结果,统计出携带有特征词的分句属于目标类别的第一条件概率,和,携带有 特征词的分句不属于目标类别的第二条件概率; 训练子模块,被配置为根据各个特征词、第一条件概率和第二条件概率,得到训练 后的朴素贝叶斯分类器。 根据本公开的第四方面,提供了一种类型识别装置,该装置包括: 原始提取模块,被配置为从原始信息中提取携带有目标关键字的分句; 特征提取模块,被配置为根据提取出的分句中属于指定特征集合的特征词,生成 原始信息的特征集合,指定特征集合中的特征词是根据携带有目标关键词的样本分句的分 词结果所提取得到的; 特征输入模块,被配置为将原始信息的特征集合输入训练后的分类器中进行预 测,分类器是预先根据指定特征集合中的特征词构建的分类器; 结果获取模块,被配置为获取分类器的预测结果,预测结果表征原始信息属于目 标类别或不属于目标类别。 在一个可选的实施例中,特征输入模块,包括: 计算子模块,被配置为将原始信息的特征集合中的每个特征词,输入训练后的朴 素贝叶斯分类器中,计算原始信息属于目标类别的第一预测概率和原始信息不属于目标类 别的第二预测概率; 预测子模块,被配置为根据第一预测概率和第二预测概率的大小关系,预测原始 信息是否属于目标类别; 其中,训练后的朴素贝叶斯分类器中包括每个特征词的第一条件概率和第二条件 概率,第一条件概率是携带有特征词的分句属于目标类别的概率,第二条件概率是携带有 特征词的分句不属于目标类别的概率。 在一个可选的实施例中,该装置还包括: 信息提取模块,被配置为在预测出原始信息属于目标类别时,从原始信息中提取 目标信息。 在一个可选的实施例中,目标信息是生日日期; 信息提取模块,被配置为通过正则表达式从原始信息中提取生日日期; 或, 信息提取模块,被配置为将原始信息的接收日期提取为生日日期。 根据本公开的第五方面,提供了一种分类器训练装置,该装置包括: 处理器; 用于存储处理器可执行指令的存储器; 其中,处理器被配置为: 从样本信息中提取携带有目标关键字的样本分句; 根据每条样本分句是否属于目标类别,对样本分句进行二值标注,得到样本训练 集; 对样本训练集中的每个样本分句进行分词,得到若干个词语; 从若干个词语中提取出指定特征集合,指定特征集合包括至少一个特征词; 根据指定特征集合中的特征词构建分类器; 根据样本训练集中的二值标注结果对分类器进行训练。 根据本公开的第六方面,提供了一种类型识别装置,该装置包括: 处理器; 用于存储处理器可执行指令的存储器; 其中,处理器被配置为: 从原始信息中提取携带有目标关键字的分句; 根据提取出的分句中属于指定特征集合的特征词,生成原始信息的特征集合,指 定特征集合中的特征词是根据携带有目标关键词的本文档来自技高网...

【技术保护点】
一种分类器训练方法,其特征在于,所述方法包括:从样本信息中提取携带有目标关键字的样本分句;根据每条所述样本分句是否属于目标类别,对所述样本分句进行二值标注,得到样本训练集;对所述样本训练集中的每个所述样本分句进行分词,得到若干个词语;从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;根据所述指定特征集合中的所述特征词构建分类器;根据所述样本训练集中的二值标注结果对所述分类器进行训练。

【技术特征摘要】

【专利技术属性】
技术研发人员:汪平仄龙飞张涛
申请(专利权)人:小米科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1