scikit-learn 流程图
在机器学习过程中，一项重要问题就是针对不同类型的数据集和问题进行合适的模型选择。
在python的scikit文档库中提供了一般的模型选择流程：

SVM算法

SVM算法原理

1.综述

根据数据集的性质，SVM算法可以被分为3类：
- linear support vector machine in linearly separable case(数据集线性可分)
- linear support vector machine(数据集基本线性可分:引入松弛变量)
- non-linear support vector machine (数据集线性不可分: kernel)

2. 函数间隔和几何间隔

函数间隔: 对于给定的数据集和超平面( w , b ), 定义超平面( w , b )关于样本点( x , y )
的函数间隔是 $γ^= y (w \cdot x + b)$ 其中，超平面是 w⋅x+b=0 ,所以 |w⋅x+b| 相对可以标示距离远近，而和类标记 y 的乘积可以标示分类是否正确

其中数据集的函数间隔就是所有数据样本点中距离最近的点

几何间隔: 对函数间隔进行标准化，即令 ∥w∥=1 , 则得到关于样本点( x , y )的几何间隔
$γ = y (w ∥ w ∥ \cdot x + b ∥ w ∥)$

从概念中可以得到几何间隔和函数间隔关于 1∥w∥ 成正比

3.间隔最大化

SVM求解正确划分数据集并且几何间隔最大化的超平面
感知机算法(Perceptron)专注于误分类最小策略，解有无数个，SVM最优解唯一

线性可分SVM优化

对于线性可分SVM,优化表示： $min w, b 1 2 ∥ w ∥ 2$ $s . t . y (w \cdot x + b) - 1 \geq 0, i = 1, 2, \dots, N$
可求得对应对偶算法为 $min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i$
$s . t . \sum i = 1 N α i y i = 0, α i \geq 0$
通过化简和KKT条件可以求得 $f (x) = s i g n (\sum 1 N α * i y i (x \cdot x i) + b *)$

部分线性可分SVM优化

可以引入松弛变量，使得函数间隔加上松弛变量后 ≥1 。即可得到凸优化问题： $min w, b, ξ 1 2 ∥ w ∥ 2 + C \sum i = 1 N ξ i$

非线性SVM

引入kernel函数，将线性可分SVM中的内积用核函数替代
其中核函数需要满足 K(x,y)=ϕ(x)ϕ(y)
主要的核函数类型有：
- Linear Kernel K(x,y)=x⋅y ,既是内积
- Polynomial Kernel K(x,y)=(γx⋅y+z)d , γ,z,d 都是参数
- Gaussian Kernel K(x,y)=exp(γ∥x−y∥2) , γ 是参数
- sigmoid Kernel K(x,y)=tanh(γx⋅y+1) ,其中 γ 是参数
在SVM中，常用正定核函数来进行求解。

正定核充要条件： ∀x,K(x,y) 对应的Gram矩阵是半正定矩阵

SVM算法评价和使用

SVM的主要优点均是由支撑向量的存在而引出的：
- effective in high dimensional spaces(Kernel)
- 在维数远大于样本数时依然有效(support vectors)
- 可以改变Kernel解决不同的决策功能要求
缺点类似于大部分小型判别模型分类器：
- 维数太大时性能较差
- 不直接提供概率估计，概率模拟可以使用CV(expensive)

skicit-learn SVM算法库

使用选择

对于小样本问题(samples<100k),优先使用LinearSVC。
效果不好且不是处理文本类型问题时，继续使用SVC求解。

R.F.
1. 由于Support Vector的原理，svc优先适合解决小样本分类问题
2. 而且LinearSVC不需要调参，对于不是特别复杂的问题可以直接求解
3. LinearSVC基于liblinear,求解线性问题时，运算速度远大于 libsvm-based SVC

运算复杂度确定：
SVM的核心是二次规划(QP),在于将support vector和其余训练数据分离。
运算复杂度在 O(nfeatures×n2samples) 和 O(nfeatures×n3samples) 之间

Tips:
SVM算法不是尺度不变量，最好根据实际对数据进行[0,1]或[-1,+1]之间的scaling和(0,1)标准化
LinearSVC在底层运算中使用随机数生成器来选择特征，因此对于相同的数据输入可能结果有轻微不同

对于multi-class问题：
1. SVC和NuSVC使用one-against-one进行多类分类。总共需要创建n_class*(n_class-1)/2种分类器
2. LinearSVC使用one-against-rest进行多类分类。总共需要创建n_class分类，速度快，效果差

调参问题

可以总结简单表格如下:

参数	LinearSVC	SVC	NuSVC
惩罚系数C	默认是1，可以CV选择，噪声越大，C相对越小	同左
kernel		‘linear’是线性核函数;’rbf’高斯核;’poly’多项式核;’sigmoid’	同左
penaly	‘l1’为L1正则,’l2’为L2正则;默认L2，稀疏选择L1
dual	是否用对偶优化;如果样本量远大于特征，不适用对偶优化
class_weight	样本权重，balanced自动调权，样本越多权重越小

基础如上

RBF核函数参数影响：
γ 定义单个训练样本的影响到达多远， γ 越低，影响越远
C决定决策表面的光滑性。C越低，表面越光滑

ML笔记之choosing right estimator——有监督分类part1(SVM)