0%

Machine Learnning

机器学习笔记
数据处理及分析的步骤过程和原理
【整理中】

1. Data Preprocessing

Part 1: Data Preprocessing

  1. Importing Library
  2. Importing the dataset
  3. Splitting the dataset into the Training set and Test set
  4. Feature Scaling

Part 2: 回归模型

回归模型(包括线性/非线性)用于预测真实值。例如,如果自变量是时间,则预测未来值,或者预测当前的位置值。回归技术分为线性回归,SVR和随机森林回归。

机器学习:

  • 机器:模型
  • 学习/Fit的:模型通过回归/学习训练数据,学习自变量和变量的历史相关性,
  • 预测:根据学习到的经验来预测测试数据,

Ensemble Learning (集成学习)

Session 8: 决策树

回归模型(非线性 + 非连续)

Session 9: 随机森林

步骤:

  1. 从训练数据集合随机抽取K个数据点
  2. 建立关联这K个数据点的决策树
  3. 选择建立N棵树并重复第一第二步
  4. 对于新的数据点X,用每棵树预测一个Y值,取这些Y值的均值作为该X的预测值Y

关于随机森林,有个很有趣的比喻:

节日里猜一个透明罐子里有几颗MM豆的游戏,猜到了有奖。
每个人把自己的结果写下来交给工作人员,等最后开奖。
你可以直接参与,也可以问每一个人猜的是多少。
这样你的猜测来自很多其他人的猜测的平均值。
别人是一个人根据自己的经验猜,就是一棵树。
而你就不是一个人猜了,就是随机森林了,哈哈

如果说随机森林是一组相同的模型同时工作提供预测准确度
那么接下来在看看如何整合一组不同的模型一起来做预测