Kuiyuan's Blog

Stay hungry. Stay foolish.


  • 首页

  • 标签

  • 分类

  • 归档

  • top

  • 关于

  • 搜索

机器学习之集成学习综述

发表于 2018-02-03 | 分类于 机器学习
| 字数统计: 2,261 字 | 阅读时长 ≈ 8 分钟

集成学习 也称为 元算法

以达到减小方差(bagging)、偏差(boosting)或改进预测(stacking)的效果。

由来

​ 集成学习是一种机器学习框架,其主要思想就是将多个基础模型组合起来,提高整体模型的泛化能力。集成学习的思想背后有比较成熟的数学理论作支撑,也即Valiant和Kearns提出的PAC (Probably approximately correct) 学习框架下的强可学习和弱可学习理论。该理论指出:在PAC 的学习框架中,一个概念如果存在一个多项式的学习方法能够学习它,并且如果预测正确率很高,那么就称这个概念是强可学习的;如果正确率仅比随机猜测略好,那么就称这个概念是弱可学习的。随后,Schapire证明了强可学习和若可学习是等价的,也就是说弱学习模型是可以通过组合提升为强学习模型的,由此便形成了后来的集成学习的思想。

分类

  • boosting

    • Adaboosting
    • GBDT
  • bagging 自举汇聚法

    是从原始数据集中选择S次后得到S个新数据集的一种技术。

    • Random Forest
  • stacking

阅读全文 »

机器学习之随机森林

发表于 2018-02-02 | 分类于 机器学习
| 字数统计: 4,322 字 | 阅读时长 ≈ 18 分钟

集成学习,判别模型,多分类与回归,正则化的极大似然估计

随机森林主页:https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#inter

套袋法(bagging)

​ 该方法的第一步就是用数据集(用抽样法创建而成)创建多个模型。在抽样法中,每个生成的训练集由原始数据集的随机次级样本组成。每个训练集都和原始数据集一样大小,但有些记录会重复几次,有些记录则完全不出现。然后,整个原始数据集会被用作测试集。这样,如果原始数据集的大小为N,那么每个生成的训练集大小也为N,特殊记录的数量大约为(2N/3),测试集的大小也是N。

​ 第二步就是用和生成的不同数据集中一样的算法构建多个模型。在这一步中,我们讨论一下随机森林。不像决策树中,每个节点在将错误最小化的最佳特征处分裂,在随机森林中,我们选择各个特征的一个随机抽样用以构建最佳节点。之所以是随机,是因为:即便是用套袋法,当决策树选择一个最佳特征之处分裂时,最终会是相同的结构和相互关联的预测。但在各个特征的随机子集处分裂后再套袋(bagging)意味着根据子树的预测之间的相关性较低。

​ 在每个分叉点要搜索的特征数量被指定为随机森林算法的一个参数。

​ 这样,在随机森林 bagging 中,用记录中的随机样本构造每个决策树,用预测器的随机样本构造每个分裂。

阅读全文 »

机器学习之AdaBoost

发表于 2018-02-01 | 分类于 机器学习
| 字数统计: 1,776 字 | 阅读时长 ≈ 8 分钟

分类、集成、属于Boosting

什么是Boosting?

Boosting是一种广泛应用的集成学习框架,该框架一般的训练过程是依次训练基础模型,并在训练过程中对训练集不断地进行调整,也即当前训练所用的训练集由前一次训练的训练集根据某些策略调整得到,最后将所有基础模型组合起来即为最终得到的模型。

监督学习最优方法之一

AdaBoost算法是模型为加法模型、损失函数为指数函数、学习算法为向前同步算法时的二类分类学习方法。

优点:泛化错误率低,易编码,可以应用到大部分分类器上,少参数调整。

缺点:对离群点敏感。

适用数据类型:数值型和标称型数据 / 二分类问题、多分类问题、回归问题

阅读全文 »

机器学习之感知机

发表于 2018-01-22 | 分类于 机器学习
| 字数统计: 1,116 字 | 阅读时长 ≈ 5 分钟

监督学习、二类分类、线性分类模型、判别模型

感知器是 ANN 和 SVM 的基础。

背景:

在生物神经网络中,每个神经元与其他神经元相连,当它‘兴奋‘时,就会向相连的神经元发送化学物种,从而改变这些神经元内的点位;如果某神经元的点位超过了一个’阈值‘,那就它就会被激活,进而向其他神经元发送化学物质。

感知器在 20 世纪五、六⼗年代由科学家 Frank Rosenblatt 基于MCP神经元模型发明的,⼀个感知器接受多个输⼊,并产⽣⼀个输出。

前提:

两个类别必须是线性可分的,且学习速率足够小。

阅读全文 »

机器学习之主成分分析(PCA)

发表于 2018-01-18 | 分类于 机器学习
| 字数统计: 217 字 | 阅读时长 ≈ 1 分钟

主成分分析(principal component analysis,PCA)是一种广泛应用于不用领域的无监督现行数据转换技术,其突出的作用是降维。

降维思想:在信息丢失最少的原则下,研究指标体系的少数几个线性组合,即对高维变量空间降维。

线性组合所构成的综合指标尽可能多地保留了原数据信息。这些综合指标就称为主成分。

阅读全文 »

《python机器学习》笔记

发表于 2018-01-18 | 分类于 机器学习
| 字数统计: 196 字 | 阅读时长 ≈ 1 分钟

本文是塞巴斯蒂安·拉施卡(Sebastian Raschka)所著的《Python机器学习》一书的学习笔记,所有练习代码来源于书中。

第一章 赋予机器学习数据的能力

主要讲述了以下几点:

  • 机器学习分类:监督学习、无监督学习、强化学习。通过监督学习对未来事件进行预测,通过强化学习解决交互式问题,通过无监督学习发现数据本身潜在的结构。

  • 步骤:数据预处理,选择模型类型并进行训练,模型检验与使用位置数据进行预测。

  • Python在机器学习中的应用:Numpy、SciPy、scikit-learn、matplotlab、pandas。

    阅读全文 »

hello my blog

发表于 2018-01-18 | 分类于 乱七八糟
| 字数统计: 41 字 | 阅读时长 ≈ 1 分钟

今天建立了我的一个博客。

我会用这个博客记录我学习的过程,记录学习和生活中的点点滴滴.

加油!

12
KuiyuanZhang

KuiyuanZhang

Stay hungry. Stay foolish.

17 日志
4 分类
24 标签
RSS
GitHub E-Mail 知乎 简书 CSDN
Links
  • 百度
已运行2677天13小时35分22秒
© 2018 — 2019 KuiyuanZhang
博客全站共43.3k字
访问人数 人次 访问总量 次
0%