此blog是机器学习实战这本书的读书笔记
机器学习基础
用计算机来彰显数据背后真正的意义,这才是机器学习的真正含义。
在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型的。
训练样本必须知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。
特征或者属性通常是训练样本集的列,它们是独立测量的结果,多个特征联系在一起共同组成一个训练样本。
监督学习:
k-邻近算法 线性回归 朴素贝叶斯算法 局部加权线性回归
支持向量机 Ridge回归 决策树 Lasso最小回归系数
无监督学习:
K-均值 最大期望算法 DBSCAN Parzen窗设计
如何选择合适的算法
如果要预测目标变量的值,选择监督学习算法,否则无监督学习算法。
确定目标变量类型:
离散型:True/False,1/2/3,A/B/C等,选择分类算法
连续型:0.0 ~ 100, -99 ~ 99, +∞ ~ -∞等,选择回归算法
一般来说发现最好的算法的关键是反复试错迭代。
开发机器学习应用程序的步骤
- 收集数据
- 准备输入数据
- 分析输入数据
- 训练算法
- 测试算法
- 使用算法