分类器训练方法、类型识别方法及装置制造方法及图纸

技术编号:12420705 阅读:108 留言:0更新日期:2015-12-02 15:52
本公开揭示了一种分类器训练方法、类型识别方法及装置,属于自然语言处理领域。分类器训练方法包括:从样本信息中提取携带有目标关键字的样本分句;根据每条样本分句是否属于目标类别,对样本分句进行二值标注,得到样本训练集;对样本训练集中的每个样本分句进行分词,得到若干个词语;从若干个词语中提取出指定特征集合,指定特征集合包括至少一个特征词;根据指定特征集合中的特征词构建分类器;根据样本训练集中的二值标注结果对分类器进行训练。由于指定特征集合中的特征词是根据携带有目标关键词的样本分句的分词结果所提取得到的,所以该分类器能够对携带有目标关键词的分句做出较为准确的预测,达到了识别结果较为准确的效果。

【技术实现步骤摘要】

本公开涉及自然语言处理领域,特别涉及一种分类器训练方法、类型识别方法及 装置。
技术介绍
短信内容识别和提取是自然语言处理的一个实际应用。 以识别生日类短信为例,相关技术中提供了一种识别方法,该识别方法预先设置 了若干个关键词,通过识别短信的内容中是否包括全部或部分关键词,来识别该短信是否 为携带有生日日期的短信。
技术实现思路
为了解决直接使用关键词进行类型识别并不准确的问题,本公开提供一种分类器 训练方法、类型识别方法及装置。所述技术方案如下: 根据本公开实施例的第一方面,提供了一种分类器训练方法,该方法包括: 从样本信息中提取携带有目标关键字的样本分句; 根据每条样本分句是否属于目标类别,对样本分句进行二值标注,得到样本训练 集; 对样本训练集中的每个样本分句进行分词,得到若干个词语; 从若干个词语中提取出指定特征集合,指定特征集合包括至少一个特征词; 根据指定特征集合中的特征词构建分类器; 根据样本训练集中的二值标注结果对分类器进行训练。 在一个可选的实施例中,从若干个词语中提取出指定特征集合,包括: 根据卡方检验从若干个词语中提取出指定特征集合; 或, 根据本文档来自技高网...

【技术保护点】
一种分类器训练方法,其特征在于,所述方法包括:从样本信息中提取携带有目标关键字的样本分句;根据每条所述样本分句是否属于目标类别,对所述样本分句进行二值标注,得到样本训练集;对所述样本训练集中的每个所述样本分句进行分词,得到若干个词语;从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;根据所述指定特征集合中的所述特征词构建分类器;根据所述样本训练集中的二值标注结果对所述分类器进行训练。

【技术特征摘要】

【专利技术属性】
技术研发人员:汪平仄龙飞张涛
申请(专利权)人:小米科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1