Kuiyuan's Blog

Stay hungry. Stay foolish.


  • 首页

  • 标签

  • 分类

  • 归档

  • top

  • 关于

  • 搜索

机器学习之支持向量机(SVM)

发表于 2018-02-20
| 字数统计: 0 字 | 阅读时长 ≈ 1 分钟

机器学习之逻辑回归(LR)

发表于 2018-02-18 | 分类于 机器学习
| 字数统计: 1,430 字 | 阅读时长 ≈ 6 分钟

监督式学习、二分类模型

线性回归预测结果是连续值,而逻辑回归预测结果在应用转换函数后是离散值。逻辑回归用了和回归类似的方法来解决了分类问题。

阅读全文 »

机器学习之树回归

发表于 2018-02-17 | 分类于 机器学习
| 字数统计: 2,379 字 | 阅读时长 ≈ 10 分钟

CART(Classification And Regression Trees, 分类回归树) 的树构建算法。该算法既可以用于分类还可以用于回归。

做分类工作时,采用 GINI 值作为节点分裂的依据;回归时,采用样本的最小方差作为节点的分裂依据。

阅读全文 »

机器学习之决策树

发表于 2018-02-16 | 分类于 机器学习
| 字数统计: 3,931 字 | 阅读时长 ≈ 15 分钟

无监督学习、判别模型、多分类/回归

特点:

适用于小数据集,在进行逐步应答过程中,典型的决策树分析会使用分层变量或决策节点。

场景举例:基于规则的信用评估、赛马结果预测

优点:

计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征;

擅长对人、地点、事物的一系列不同特征、品质、特性进行评估

缺点:

容易过拟合(后续出现了随机森林,减小了过拟合现象),使用剪枝来避免过拟合

适用数据类型:

数值型和标称型

阅读全文 »

机器学习之朴素贝叶斯(bayes)

发表于 2018-02-13 | 分类于 机器学习
| 字数统计: 2,102 字 | 阅读时长 ≈ 9 分钟

监督学习、生成模型、多类分类

特点:

使用先验知识得到后验概率,由期望风险最小化得到后验概率最大化。

场景举例:情感分析、消费者分类

优点:

小规模数据集表现好,适合多分类

对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类

缺点:

需要条件独立假设,会牺牲一定准确率,分类性能不一定高

适用数据类型:

标称型数据

阅读全文 »

机器学习之K近邻算法(KNN)

发表于 2018-02-12 | 分类于 机器学习
| 字数统计: 1,376 字 | 阅读时长 ≈ 6 分钟

“近朱者赤,近墨者黑”

监督学习、多分类/回归、判别模型

没有显式的学习过程,K 最近邻算法使用整个数据集作为训练集,而非将数据集分割为一个数据集和一个测试集。

优点:

简单,精度高,无数据输入假定,对outlier不敏感,分类与回归均可操作,可用于非线性分类

缺点:

计算复杂度高,空间复杂度高,K需预先设定,对大小不平衡的数据易偏向大容量数据

适用数据范围:

数值型、标称型

常用算法:

kd树:

对x的K个特征,一个一个做切分,使得每个数据最终都在切分点上(中位数),对输入的数据搜索kd树,找到K近邻

阅读全文 »

转<吴恩达老师的机器学习课程>

发表于 2018-02-11 | 分类于 机器学习
| 字数统计: 156 字 | 阅读时长 ≈ 1 分钟

转自 https://github.com/shurenlee/Coursera-ML-AndrewNg-Notes

一篇不错的关于吴恩达老师课程的个人笔记,希望对学习机器学习有所帮助。

阅读全文 »

必备神器之seaborn

发表于 2018-02-08 | 分类于 工具
| 字数统计: 16,718 字 | 阅读时长 ≈ 66 分钟

python绘图软件seaborn的常用介绍

官方文档: seaborn官方文档

以下是常用功能

import语句

1
import searborn as sns
阅读全文 »

必备神器之pandas

发表于 2018-02-07 | 分类于 工具
| 字数统计: 3,116 字 | 阅读时长 ≈ 15 分钟

python工具包pandas,数据分析

1 import语句

1
import pandas as pd
阅读全文 »

人物之李奥布瑞曼

发表于 2018-02-05 | 分类于 人物
| 字数统计: 2,198 字 | 阅读时长 ≈ 8 分钟

李奥 布瑞曼(Leo Breiman,1928-2005),是二十世纪伟大的统计学家,机器学习学家。

他不仅是CART决策树的作者,还对集成学习有三代贡献:Bagging,随机森林以及关于Boosting的理论探讨。有趣的是这些都是在他1993年从加州大学伯克利分校统计系退休后完成的。

他自认为一生中最重要的研究成果——随机森林,是70岁时做出来的。

阅读全文 »
12
KuiyuanZhang

KuiyuanZhang

Stay hungry. Stay foolish.

17 日志
4 分类
24 标签
RSS
GitHub E-Mail 知乎 简书 CSDN
Links
  • 百度
© 2018 — 2019 KuiyuanZhang
博客全站共43.3k字
访问人数 人次 访问总量 次
0%