机器学习之朴素贝叶斯(bayes)
监督学习、生成模型、多类分类
特点:
使用先验知识得到后验概率,由期望风险最小化得到后验概率最大化。
场景举例:情感分析、消费者分类
优点:
小规模数据集表现好,适合多分类
对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类
缺点:
需要条件独立假设,会牺牲一定准确率,分类性能不一定高
适用数据类型:
标称型数据
机器学习之K近邻算法(KNN)
“近朱者赤,近墨者黑”
监督学习、多分类/回归、判别模型
没有显式的学习过程,K 最近邻算法使用整个数据集作为训练集,而非将数据集分割为一个数据集和一个测试集。
优点:
简单,精度高,无数据输入假定,对outlier不敏感,分类与回归均可操作,可用于非线性分类
缺点:
计算复杂度高,空间复杂度高,K需预先设定,对大小不平衡的数据易偏向大容量数据
适用数据范围:
数值型、标称型
常用算法:
kd树:
对x的K个特征,一个一个做切分,使得每个数据最终都在切分点上(中位数),对输入的数据搜索kd树,找到K近邻
转<吴恩达老师的机器学习课程>
转自 https://github.com/shurenlee/Coursera-ML-AndrewNg-Notes
一篇不错的关于吴恩达老师课程的个人笔记,希望对学习机器学习有所帮助。