1.何为机器学习

机器学习人工智能的一个分支。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。

2.机器学习的定义

  • 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
  • 机器学习是对能通过经验自动改进的计算机算法的研究。
  • 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。

3.机器学习的分类

  • 监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析统计分类

$\color{yellow}{监督学习和非监督学习的差别就是训练集目标是否人标注。他们都有训练集 且都有输入和输出}$

  • 无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有生成對抗網絡(GAN)、聚类

  • 半监督学习介于监督学习与无监督学习之间。

  • 增强学习机器为了达成目标,随着环境的变动,而逐步调整其行为,并评估每一个行动之后所到的回馈是正向的或负向的。

k近邻算法例子

机器学习的4种类别

分类 回归 聚类 降维
含义 已知若干类,确定对象属于哪个类别。 用函数取拟合集合,预测与对象关联的连续值属性。 不经过训练,将类似对象自动分组到集合中。 减少要考虑的随机变量的数量。
使用场景 (离散型)垃圾邮件检测、图像识别 (连续型)药物反应、股票价格、房价预测 客户细分、分组实验结果、手机相册分类 可视化,提高效率
常用算法 SVM、KNN、随机森林等 SVR、岭回归、套索等 k-Means、谱聚类、均值漂移等 PCA(主成分分析法)、特征选择、非负矩阵分解等

scikit-learn算法选择路径图(汉化版)

4.机器学习基本流程

1.加载数据

2.划分训练集和测试集

3.数据预处理(标准化、归一化、二值化、编码分类特征、输入缺失值、生成多项式特征)

4.创建模型估计器

5.拟合数据

6.预测

7.评估模型性能

8.模型调参

5.十大机器学习算法

  • 线性回归算法 Linear Regression

  • 支持向量机算法 (Support Vector Machine,SVM)

  • 最近邻居/k-近邻算法 (K-Nearest Neighbors,KNN)

  • 逻辑回归算法 Logistic Regression

  • 决策树算法 Decision Tree

  • k-平均算法 K-Means

  • 随机森林算法 Random Forest

  • 朴素贝叶斯算法 Naive Bayes

  • 降维算法 Dimensional Reduction

  • 梯度增强算法 Gradient Boosting