1 理论基础

1.1 为什么使用机器学习

传统的编程技术编写垃圾邮件过滤器

image.png

如果垃圾邮件发送者一直绕过垃圾邮件过滤器,就需要不断编写新规则。

image.png

基于机器学习技术的垃圾邮件过滤器会自动注意到“For U”在用户标记的垃圾邮件中变得异常频繁,并且在没有人工干预的情况下自动标记垃圾邮件

1.2 机器学习系统的类型

  1. 它们在训练期间是如何受到监督(监督、无监督、半监督、自我监督等)的。
  2. 它们是否可以即时增量地学习(在线学习与批量学习)
  3. 它们是通过简单地将新数据与已知数据进行比较来工作,还是通过检测训练数据 中的模式并建立预测模型来工作(基于实例的学习与基于模型的学习)

1.2.1 训练监督

  1. 监督学习

    典型的监督学习任务是分类。垃圾邮件过滤器就是一个很好的示例:它用许多电子邮件及其类别(垃圾邮件或非垃圾邮件)来训练,并且它必须学习如何对新电子邮件进行分类。

    另一个典型的任务是在给定一组特征(里程、年龄、品牌等)的情况下来预测目标数值,例如汽车的价格。

    目标(target)和标签(label)这两个词在监督学习中通常被视为同义词,但目标在回归任务中更常见,而标签在分类任务中更常见。

  2. 无监督学习

    训练数据是未标记的,假设你有大量关于博客访客的数据。你可能想要运行聚类算法来检测相似访客的分组。

  3. 自监督学习

  4. 半监督学习

  5. 强化学习