机器学习重磅资源文档 | 新手福音！ - 编程

干货福利，第一时间送达

sklearn介绍

Scikit-learn(sklearn)是机器学习中常用的第三方模块，对常用的机器学习算法进行了封装，包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。当面临机器学习问题时，便可根据其功能选择相应的方法。

Scikit-learn六大功能

Scikit-learn的基本功能主要被分为六大部分：分类，回归，聚类，数据降维，数据预处理和模型选择

分类

概念：分类给自定对象指定所属类别

范畴：监督学习

常见应用场景：垃圾邮件检测、图像识别

已实现算法：支持向量机（SVM，Support Verctor Machine）、K最邻近算法（KNN，K-NearestNeighbor）、逻辑回归（LR，Logistic Regression）、随机森林（RF，Random Forest）、决策树（Decision Tree）、多层感知器（MLP，Multi-layer Perceptron）神经网络等。

回归

概念：预测与给定对象相关联的连续值属性

常见应用场景：预测药物反应、预测股票价格

已实现算法：支持向量回归（SVR，Support Vector Regression），脊回归（Ridge Regression），Lasso回归（Lasso Regression），弹性网络（Elastic Net），最小角回归（LARS）、贝叶斯回归（Bayesian Regrssion）等。

聚类

概念：自动识别具有相似属性的给定对象，并将其分组为集合

范畴：无监督学习

常见应用场景：顾客细分、实验结果分组

已实现算法：K-均值聚类（K-means），谱聚类（Spectral Clustring）、均值偏移（Mean Shift）、分层聚类、DBSCAN聚类

数据降维

概念：通过降维技术来减少考虑的随机数量的个数

常见应用场景：可视化处理、效率提升

降维技术算法：主成分分析（PCA，Principal Component Analysis）、非负矩阵分解（NMF，Non-negative Matrix Factorizatio）

数据预处理

概念：数据的特征提取和归一化

归一化：将输入数据转换为具有零均值和单位权方差的新变量。

归一化注意点：因为大多数时候都做不到精确等于0，因此会设置一个可接受的范围，一般都要求落在0-1之间

特征提取：是指将文本和图像数据转化为孔用于机器学习的数字变量。

模型选择

概念：对给定参数和模型的比较、验证和选择

目的：通过参数调整来提升精度

已实现的模块：格点搜索，交叉验证和各种针对预测误差评估的度量函数

资源推荐

本次推荐一份非常好的Scikit-Learn学习资源，用户指南目录结构如下：

监督学习
无监督学习
模型选择和评估
数据集转换
数据集加载工具
大规模数据计算策略
计算性能
教程
外部资源和视频等等

更多内容限于篇幅不在显示。

机器学习重磅资源文档 | 新手福音！

更多相关文章

随机推荐