机器学习实战(一)

此blog是机器学习实战这本书的读书笔记

机器学习基础

用计算机来彰显数据背后真正的意义,这才是机器学习的真正含义。

在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型的。

训练样本必须知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。

特征或者属性通常是训练样本集的列,它们是独立测量的结果,多个特征联系在一起共同组成一个训练样本。

监督学习:

k-邻近算法  线性回归    朴素贝叶斯算法  局部加权线性回归
支持向量机  Ridge回归   决策树  Lasso最小回归系数

无监督学习:

K-均值  最大期望算法    DBSCAN  Parzen窗设计

如何选择合适的算法

如果要预测目标变量的值,选择监督学习算法,否则无监督学习算法。

确定目标变量类型:

离散型:True/False,1/2/3,A/B/C等,选择分类算法

连续型:0.0 ~ 100, -99 ~ 99, +∞ ~ -∞等,选择回归算法

一般来说发现最好的算法的关键是反复试错迭代。

开发机器学习应用程序的步骤

  1. 收集数据
  2. 准备输入数据
  3. 分析输入数据
  4. 训练算法
  5. 测试算法
  6. 使用算法
0%