机器学习 | ShadowY Blog's

1.何为机器学习

机器学习是人工智能的一个分支。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。

2.机器学习的定义

机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。

机器学习是对能通过经验自动改进的计算机算法的研究。

机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。

3.机器学习的分类

监督学习从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。

$\color{yellow}{监督学习和非监督学习的差别就是训练集目标是否人标注。他们都有训练集且都有输入和输出}$

无监督学习与监督学习相比，训练集没有人为标注的结果。常见的无监督学习算法有生成對抗網絡（GAN）、聚类。

半监督学习介于监督学习与无监督学习之间。

增强学习机器为了达成目标，随着环境的变动，而逐步调整其行为，并评估每一个行动之后所到的回馈是正向的或负向的。

机器学习的4种类别

	分类	回归	聚类	降维
含义	已知若干类，确定对象属于哪个类别。	用函数取拟合集合，预测与对象关联的连续值属性。	不经过训练，将类似对象自动分组到集合中。	减少要考虑的随机变量的数量。
使用场景	（离散型）垃圾邮件检测、图像识别	（连续型）药物反应、股票价格、房价预测	客户细分、分组实验结果、手机相册分类	可视化，提高效率
常用算法	SVM、KNN、随机森林等	SVR、岭回归、套索等	k-Means、谱聚类、均值漂移等	PCA(主成分分析法）、特征选择、非负矩阵分解等

scikit-learn算法选择路径图（汉化版）

4.机器学习基本流程

1.加载数据

2.划分训练集和测试集

3.数据预处理（标准化、归一化、二值化、编码分类特征、输入缺失值、生成多项式特征）

4.创建模型估计器

5.拟合数据

6.预测

7.评估模型性能

8.模型调参

5.十大机器学习算法

线性回归算法 Linear Regression
支持向量机算法 (Support Vector Machine,SVM)
最近邻居/k-近邻算法 (K-Nearest Neighbors,KNN)
逻辑回归算法 Logistic Regression
决策树算法 Decision Tree
k-平均算法 K-Means
随机森林算法 Random Forest
朴素贝叶斯算法 Naive Bayes
降维算法 Dimensional Reduction
梯度增强算法 Gradient Boosting