0%

Motivation: 单个决策树的不稳定性(模型整体会因为较小的数据变动而发生较大改变),以及利用决策树处理回归问题时不能给出连续预测值(预测值个数取决于叶节点的个数)的局限性,尝试合并多个模型对一个数据集进行训练以达到1+1 > 2的效果。

根据训练集的构建和模型输出整合方式的不同可以分为Bagging和Boosting两大类。

Read more »

决策树可以用来解决分类(classification)和回归(regression)问题。模型本身优越的可解释性及对缺失值不敏感的特性使得其被广泛采用。

Read more »

Logistics Regression

逻辑回归虽然被称为回归,本质上其实是分类模型了,常用于二分类。逻辑回归假设数据服从伯努利分布(因为是二分类),通过极大似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。

Read more »

对数据集进行预处理时,首先根据数据类型将特征分为连续特征和分类特征。其中,针对连续特征最关键的预处理即为归一化(regularity),而针对分类特征最关键的预处理为编码(encoding)处理。

Read more »

监督学习内部分为分类问题(classification)和回归问题(regression)两类。分类问题的输出标签为离散值,回归问题可以理解为连续问题。

监督学习的关键在于得到一般化的(generalized)的模型,因为监督学习的目的是为了利用已知的训练集特征和标签/输出值来获得对未知的测试集进行尽可能准确的预测。因此会存在欠拟合或过拟合的问题。

Read more »

两天速成Applied Machine Learning (不是)

What is and why Machine Learning?

两个lecture中出现的定义:

  • Machine learning (ML) is the study of computer algorithms that can improve automatically through experience and by the use of data.
  • Machine learning involves computers discovering how they can perform tasks without being explicitly programmed to do so.

总结几个个人感觉比较能够凸显ML特质的关键点:

  • Machine learning和传统system的区别在于没有hardcoded rules,即不通过人为筛选出来的判断条件做决定。

  • 传统规则定义存在的两个明显缺点:

    • 定义或系统一旦出现更新,整个判定逻辑可能会面临推翻重做的重大变化。即使是很小部分的新特性加入也可能会造成整个系统的调整或重写
    • 规则的建立是高度依赖因果关系,经验和专家决策的,可能存在片面性或主观性,并且不能触及仅存在相关性的决策因素
    Read more »