机器学习之感知机

监督学习、二类分类、线性分类模型、判别模型

感知器是 ANN 和 SVM 的基础。

背景：

在生物神经网络中，每个神经元与其他神经元相连，当它‘兴奋‘时，就会向相连的神经元发送化学物种，从而改变这些神经元内的点位；如果某神经元的点位超过了一个’阈值‘，那就它就会被激活，进而向其他神经元发送化学物质。

感知器在 20 世纪五、六⼗年代由科学家 Frank Rosenblatt 基于MCP神经元模型发明的，⼀个感知器接受多个输⼊，并产⽣⼀个输出。

前提：

两个类别必须是线性可分的，且学习速率足够小。

1. 概念

M-P神经元模型/阈值逻辑单元：

神经元接收到来自n个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值与神经元的阈值进行比较，然后通过激活函数处理产生神经元输出。
线性可分
非线性可分

若两类模式是线性可分的，即存在一个线性超平面能将他们分开，则感知机学习过程中一定会收敛，而求得适当的权向量w。否则感知机学习过程中将会发生震荡，w难以稳定下来，不能求得合适解。

2. 基本思路

模型特点：分离超平面

学习策略：极小化误分点到超平面距离

学习的损失函数：误分点到超平面的距离

学习算法：随机梯度下降

基本步骤：

感知器可以表示为 f:RN→{−1,1} 的映射函数。其中 f 的形式如下：

f(x)=sign(w.x+b)

其中，w 和 b 都是 N 维向量，是感知器的模型参数。感知器的训练过程其实就是求解w 和 b 的过程。

正确的 w 和 b 所构成的超平面 w.x+b=0 恰好将两类数据点分割在这个平面的两侧。

2.1 原始形式

组成部分：

输入权值

一个感知器可以接收多个输入
(x1,x2,…,xn∣xi∈R)，每个输入上有一个权值wi∈R，此外还有一个偏置项b∈R，就是上图中的w0。
求和单元

用突触权值对输入进行加权并加上偏置，得到诱导局部域（v）
激活函数

（即图中的hard limiter）用于限制诱导局部域输出的振幅，在感知器中，使用符号函数来限制输出（当v>0时输出为1，反之为-1）
输出

感知器的输出由下面这个公式来计算 y=f(w∙x+b)

概念图：

感知器概念

误差函数：

误分类的点(xi,yi)，则 xi 距离超平面的距离为：

损失函数为所有误分类数据点到超平面的距离之和：

感知器的训练算法就是求取使得 L(w,b)=0 的 w 和 b 。

2.1 对偶形式

基本想法：将w和b表示为实例x和y的线性组合的形式，通过求解其系数求得w和b

感知机学习算法的对偶形式迭代是收敛的，存在多个解

3. 使用

4. python代码实现感知器：

#----------罗森布拉特感知器------------
import numpy as np
class Perceptron(object):
    """Perceptron classfiter.
    Percepters
    --------------------
    eta : float
        learning rate (between 0.0 and 1.0)
    n_iter : int
        Passes over tne training dataset.
    
    Attributes
    ---------------------
    w_ : ld-array
        Weights after fitting.
    errors_ : list
        Number of misclassifications in every epoch
        
    """
    def __init__(self, eta=0.01, n_iter=10) :
        self.eta = eta
        self.n_iter = n_iter
        
    def fit(self, X, y) :
        """fit training data.
        
        Parameters
        -------------------
        X ： {arrary-like}, shape = [n_sample, n_features]
             Training vectors, where n_samples is the number of samples and n_feature is the number of  features
        y ： array-like, shape = [n_samples]
             Target Values
             
        Returns
        -------------------
        self : object
        
        """
        self.w_ = np.zeros(1 + X.shape[1])
        self.errors_ = []
        
        for _ in range(self.n_iter):
            errors = 0
            for xi, target in zip(X, y):
                update = self.eat * (target - selfpredict(xi))
                self.w_[1:] += update * xi
                self.w_[0] += update
                errors += int(update != 0.0)
            self.errors_.append(errors)
        return self
    def net_input(sel, X):
        """Calculate net input"""
        return np.dot(X, self.w_[1:]) + self.w_[0]
    
    def predic(self):
        """Return class label after unit step"""
        return np.where(sel.net_input(x) >= 0.0, 1, -1)

5.补充

算法收敛性的证明：

李航《统计学习方法》P31