一种版权资源识别方法及装置制造方法及图纸

技术编号：8744551 阅读：157 留言：0更新日期：2013-05-29 22:04

本发明专利技术提供了一种版权资源识别方法及装置，其中方法包括：S1、利用已有的版权资源和非版权资源的标题获取正样本语料和负样本语料；S2、提取正样本语料和负样本语料的分类特征，并采用机器学习训练得到各分类特征在所属类别中的权值，建立分类模型；S3、获取待识别的资源，对获取的待识别资源执行步骤S31至步骤S33：S31、利用待识别资源的标题获得待预测语料；S32、提取待预测语料的分类特征，利用建立的分类模型确定待识别资源属于版权资源或非版权资源的置信度；S33、根据得到待识别资源属于版权资源或者非版权资源的置信度，识别待识别资源是否为版权资源。本发明专利技术可以在保证准确率和召回率的同时，节约人力资源，提高效率。

全部详细技术资料下载

【技术实现步骤摘要】

【技术保护点】
一种版权资源识别方法，其特征在于，包括：S1、利用已有的版权资源的标题进行搜索获取正样本语料，并利用非版权资源的标题进行搜索获取负样本语料；S2、提取正样本语料的特征作为版权资源对应的分类特征，提取负样本语料的特征作为非版权资源对应的分类特征，并计算各分类特征在所属类别中的权值，构成分类模型；S3、获取待识别资源，对所述待识别资源执行步骤S31至步骤S33：S31、利用所述待识别资源的标题进行搜索，获得待预测语料；S32、提取待预测语料的分类特征，利用所述分类模型确定所述待识别资源属于版权资源或非版权资源的置信度；S33、根据所述待识别资源属于版权资源或者非版权资源的置信度，识别所述待识别资源...

【技术特征摘要】

【专利技术属性】
技术研发人员：徐兴军，吴羡，刘婵，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人