机器学习笔记
数据处理及分析的步骤过程和原理
【整理中】
1. Data Preprocessing
Part 1: Data Preprocessing
- Importing Library
- Importing the dataset
- Splitting the dataset into the Training set and Test set
- Feature Scaling
Part 2: 回归模型
回归模型(包括线性/非线性)用于预测真实值。例如,如果自变量是时间,则预测未来值,或者预测当前的位置值。回归技术分为线性回归,SVR和随机森林回归。
机器学习:
- 机器:模型
- 学习/Fit的:模型通过回归/学习训练数据,学习自变量和变量的历史相关性,
- 预测:根据学习到的经验来预测测试数据,
Ensemble Learning (集成学习)
Session 8: 决策树
回归模型(非线性 + 非连续)
Session 9: 随机森林
步骤:
- 从训练数据集合随机抽取K个数据点
- 建立关联这K个数据点的决策树
- 选择建立N棵树并重复第一第二步
- 对于新的数据点X,用每棵树预测一个Y值,取这些Y值的均值作为该X的预测值Y
关于随机森林,有个很有趣的比喻:
节日里猜一个透明罐子里有几颗MM豆的游戏,猜到了有奖。
每个人把自己的结果写下来交给工作人员,等最后开奖。
你可以直接参与,也可以问每一个人猜的是多少。
这样你的猜测来自很多其他人的猜测的平均值。
别人是一个人根据自己的经验猜,就是一棵树。
而你就不是一个人猜了,就是随机森林了,哈哈
如果说随机森林是一组相同的模型同时工作提供预测准确度
那么接下来在看看如何整合一组不同的模型一起来做预测