一种逻辑回归模型的构建方法及系统技术方案

技术编号:20273579 阅读:37 留言:0更新日期:2019-02-02 04:02
本发明专利技术提供了一种逻辑回归模型的构建方法及系统,其中,所述方法包括:获取训练数据集和所述训练数据集对应的分类数据,其中,所述训练数据集中包括多个特征数据;基于预设逻辑函数和所述训练数据集以及所述分类数据,建立待评估函数;在所述待评估函数取最小值时,将所述待评估函数中的自变量作为构建的逻辑回归模型。本申请提供的技术方案,能够提高逻辑回归模型的精度。

【技术实现步骤摘要】
一种逻辑回归模型的构建方法及系统
本专利技术涉及数据建模
,特别涉及一种逻辑回归模型的构建方法及系统。
技术介绍
传统数据挖掘对象多是结构化、单一对象的小数据集,挖掘更侧重根据先验知识预先人工建立模型,然后依据既定模型进行分析。对于非结构化、多源异构的大数据集的分析,往往缺乏先验知识,很难建立显式的数学模型。目前,为了实现对Spark、Ruby和MapReduce等大数据计算引擎云端无缝集成,并研制高性能通用超级计算引擎系统,往往需要依托于多种数学模型。在这其中,逻辑回归模型由于能够实现数据的分类,越来越受到人们的青睐。然而,当前的逻辑回归模型的精度均不高,无法对数据进行准确分类。
技术实现思路
本申请的目的在于提供一种逻辑回归模型的构建方法及系统,能够提高逻辑回归模型的精度。为实现上述目的,本申请提供一种逻辑回归模型的构建方法,所述方法包括:获取训练数据集和所述训练数据集对应的分类数据,其中,所述训练数据集中包括多个特征数据;基于预设逻辑函数和所述训练数据集以及所述分类数据,建立待评估函数;在所述待评估函数取最小值时,将所述待评估函数中的自变量作为构建的逻辑回归模型。进一步地,建立待评估函数包括:在所述分类数据的取值为1或0的情况下,基于预设逻辑函数计算所述训练数据集中单个特征数据的后验概率;根据所述训练数据集和所述分类数据,计算所述后验概率的极大似然函数;将所述极大似然函数取对数,并将取对数后的结果作为建立的所述待评估函数。进一步地,按照以下公式计算所述训练数据集中单个特征数据的后验概率:p(y|x,θ)=(hθ(x))y(1-hθ(x))1-y其中,p(y|x,θ)表示所述后验概率,hθ(x)表示所述预设逻辑函数,θ表示待构建的逻辑回归模型的自变量,x表示训练数据集中的特征数据,y表示所述分类数据,其中,y取值1或0。进一步地,按照以下公式计算所述后验概率的极大似然函数:其中,L(θ|x,y)表示所述极大似然函数,m表示所述分类数据中数据的总数量。进一步地,所述待评估函数的最小值利用梯度下降法求解。进一步地,在构建了所述逻辑回归模型之后,所述方法还包括:获取评价信息集,并利用所述逻辑回归模型对所述评价信息集中的评价样本进行预测;根据预测结果,计算所述逻辑回归模型的精度参数和召回率参数,其中,所述精度参数和所述召回率参数用于表征所述逻辑回归模型的预测准确度。为实现上述目的,本申请还提供一种逻辑回归模型的构建系统,所述系统包括:数据获取单元,用于获取训练数据集和所述训练数据集对应的分类数据,其中,所述训练数据集中包括多个特征数据;待评估函数建立单元,用于基于预设逻辑函数和所述训练数据集以及所述分类数据,建立待评估函数;逻辑回归模型构建单元,用于在所述待评估函数取最小值时,将所述待评估函数中的自变量作为构建的逻辑回归模型。进一步地,所述待评估函数建立单元包括:后验概率计算模块,用于在所述分类数据的取值为1或0的情况下,基于预设逻辑函数计算所述训练数据集中单个特征数据的后验概率;极大似然函数计算模块,用于根据所述训练数据集和所述分类数据,计算所述后验概率的极大似然函数;取对数模块,用于将所述极大似然函数取对数,并将取对数后的结果作为建立的所述待评估函数。进一步地,所述后验概率计算模块按照以下公式计算所述训练数据集中单个特征数据的后验概率:p(y|x,θ)=(hθ(x))y(1-hθ(x))1-y其中,p(y|x,θ)表示所述后验概率,hθ(x)表示所述预设逻辑函数,θ表示待构建的逻辑回归模型的自变量,x表示训练数据集中的特征数据,y表示所述分类数据,其中,y取值1或0。进一步地,所述极大似然函数计算模块按照以下公式计算所述后验概率的极大似然函数:其中,L(θ|x,y)表示所述极大似然函数,m表示所述分类数据中数据的总数量。由上可见,本申请提供的技术方案,在构建逻辑回归模型时,可以获取训练数据集和所述训练数据集对应的分类数据,其中,所述训练数据集中包括多个特征数据。然后,可以基于预设逻辑函数和所述训练数据集以及所述分类数据,建立待评估函数。最终,在所述待评估函数取最小值时,可以将所述待评估函数中的自变量作为构建的逻辑回归模型。本申请构建的逻辑回归模型,通过对多种数据进行处理,并且将构建逻辑回归模型的任务等效为求取待评估函数的最小值,从而简化了构建过程,并且具备较高的精度。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例中逻辑回归模型的构建方法流程图;图2为本专利技术实施例中逻辑回归模型的构建系统的功能模块图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。请参阅图1,本申请提供一种逻辑回归模型的构建方法,所述方法包括:S1:获取训练数据集和所述训练数据集对应的分类数据,其中,所述训练数据集中包括多个特征数据;S2:基于预设逻辑函数和所述训练数据集以及所述分类数据,建立待评估函数;S3:在所述待评估函数取最小值时,将所述待评估函数中的自变量作为构建的逻辑回归模型。在一个实施方式中,所述获取训练数据集和所述训练数据集对应的分类数据,包括:基于搜索引擎,采集用于进行训练的训练数据集;当所采集的训练数据集包含文本数据时,对所述文本数据中的噪声数据进行清理,具体为:建立一个存储不含噪声的干净数据的干净数据库;获取待清洗的文本数据,对待清洗数据进行预处理以获取结构化数据,所述的结构化数据组成文本数据的词的集合,具体为:将待清洗数据进行分词,并将所有词转换为统一的编码形式;将具有统一编码形式的数据根据数据字典消除不一致的数据、获得标准化数据;对该标准化数据进行一致性校验,将内容上的明显错误进行修改;将完全相同的词进行去重操作,从而获得结构化数据;获取每两个词的语义相似度;具体为:分别获取每个词所表达的概念、和描述每个概念的义原;获取任意两个独立的词,分别计算两个词的每个概念下的义原之间的相似度,两个义原的相似度用他们的语义距离来衡量;寻找两个概念之间的最大义原相似度和最小义原相似度,两个概念之间的相似度为最大义原相似度和最小义原相似度的均值;寻找两个词之间的最大概念相似度,将最大概念相似度作为两个词的语义相似度;利用两个词的语义相似度作为距离度量,使用K-means算法,对词进行自动聚类,识别出噪声数据;具体包括:随机获取K个词作为质心,设定相似度阈值;将剩余的每个词分别测量其到各个质心的距离,并将该词归入与其距离最短的质心的类中;重新计算已经得到的各个类的质心;判断新的质心与原质心的距离是否等于或小于相似度阈值,若是,则远离各个质心而无法归于任一质心的类中的剩余数据即为噪声数据;在噪声数据中寻找引起噪声的语义本体,对引起噪声的语义本体进行矫正、以获取干净数据,将干净本文档来自技高网...

【技术保护点】
1.一种逻辑回归模型的构建方法,其特征在于,所述方法包括:获取训练数据集和所述训练数据集对应的分类数据,其中,所述训练数据集中包括多个特征数据;基于预设逻辑函数和所述训练数据集以及所述分类数据,建立待评估函数;在所述待评估函数取最小值时,将所述待评估函数中的自变量作为构建的逻辑回归模型。

【技术特征摘要】
1.一种逻辑回归模型的构建方法,其特征在于,所述方法包括:获取训练数据集和所述训练数据集对应的分类数据,其中,所述训练数据集中包括多个特征数据;基于预设逻辑函数和所述训练数据集以及所述分类数据,建立待评估函数;在所述待评估函数取最小值时,将所述待评估函数中的自变量作为构建的逻辑回归模型。2.根据权利要求1所述的方法,其特征在于,建立待评估函数包括:在所述分类数据的取值为1或0的情况下,基于预设逻辑函数计算所述训练数据集中单个特征数据的后验概率;根据所述训练数据集和所述分类数据,计算所述后验概率的极大似然函数;将所述极大似然函数取对数,并将取对数后的结果作为建立的所述待评估函数。3.根据权利要求2所述的方法,其特征在于,按照以下公式计算所述训练数据集中单个特征数据的后验概率:p(y|x,θ)=(hθ(x))y(1-hθ(x))1-y其中,p(y|x,θ)表示所述后验概率,hθ(x)表示所述预设逻辑函数,θ表示待构建的逻辑回归模型的自变量,x表示训练数据集中的特征数据,y表示所述分类数据,其中,y取值1或0。4.根据权利要求3所述的方法,其特征在于,按照以下公式计算所述后验概率的极大似然函数:其中,L(θ|x,y)表示所述极大似然函数,m表示所述分类数据中数据的总数量。5.根据权利要求2所述的方法,其特征在于,所述待评估函数的最小值利用梯度下降法求解。6.根据权利要求1所述的方法,其特征在于,在构建了所述逻辑回归模型之后,所述方法还包括:获取评价信息集,并利用所述逻辑回归模型对所述评价信息集中的评价样本进行预测;根据预测结果,计算所述逻辑回归模型...

【专利技术属性】
技术研发人员:王军平
申请(专利权)人:北京赛博贝斯数据科技有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1