机器学习
1.何为机器学习
机器学习是人工智能的一个分支。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。
2.机器学习的定义
- 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
- 机器学习是对能通过经验自动改进的计算机算法的研究。
- 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
3.机器学习的分类
- 监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。
$\color{yellow}{监督学习和非监督学习的差别就是训练集目标是否人标注。他们都有训练集 且都有输入和输出}$
机器学习的4种类别
| 分类 | 回归 | 聚类 | 降维 | |
|---|---|---|---|---|
| 含义 | 已知若干类,确定对象属于哪个类别。 | 用函数取拟合集合,预测与对象关联的连续值属性。 | 不经过训练,将类似对象自动分组到集合中。 | 减少要考虑的随机变量的数量。 |
| 使用场景 | (离散型)垃圾邮件检测、图像识别 | (连续型)药物反应、股票价格、房价预测 | 客户细分、分组实验结果、手机相册分类 | 可视化,提高效率 |
| 常用算法 | SVM、KNN、随机森林等 | SVR、岭回归、套索等 | k-Means、谱聚类、均值漂移等 | PCA(主成分分析法)、特征选择、非负矩阵分解等 |
4.机器学习基本流程
1.加载数据
2.划分训练集和测试集
3.数据预处理(标准化、归一化、二值化、编码分类特征、输入缺失值、生成多项式特征)
4.创建模型估计器
5.拟合数据
6.预测
7.评估模型性能
8.模型调参
5.十大机器学习算法
线性回归算法 Linear Regression
支持向量机算法 (Support Vector Machine,SVM)
最近邻居/k-近邻算法 (K-Nearest Neighbors,KNN)
逻辑回归算法 Logistic Regression
决策树算法 Decision Tree
k-平均算法 K-Means
随机森林算法 Random Forest
朴素贝叶斯算法 Naive Bayes
降维算法 Dimensional Reduction
梯度增强算法 Gradient Boosting
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.



