This article was completed on October 5th, 2025.

前言、回归和分类

回归和分类是机器学习中两种基本的预测问题，它们的本质区别在于输出的类型：回归问题的输出是连续的数值，分类问题的输出是有限的、离散的类别标签。
回归的原理：通过建立自变量和因变量之间的数学模型来探究它们之间的关系。
线性回归：求解权重（w）和偏置（b）的主要步骤。

初始化权重和偏置：为权重w和偏置b选择初始值，并准备训练数据x和标签y。
定义损失函数：选择一个损失函数来衡量模型预测与实际值之间的差距。
应用梯度下降算法：使用梯度下降算法迭代更新w和b，以最小化损失函数，直到满足停止条件。
获取并验证最终参数：当算法收敛时，得到最终的w和b，并在验证集上检查模型性能。
构建最终模型：使用最终的w和b构建线性回归模型，用于新数据预测。

分类的原理：根据事物或概念的共同特征将其划分为同一类别，而将具有不同特征的事物或概念划分为不同类别。
逻辑回归：通过sigmoid函数将线性回归结果映射为概率的二分类算法。
多分类（Multi-Class Classification）：表示分类任务中有多个类别。多分类是假设每个样本都被设置了一个且仅有一个标签：一个水果可以是苹果或者梨，但是同时不可能是两者。在多分类中，我们可以使用一些常见的算法来进行分类，如决策树、随机森林等。例如，对一堆水果图片进行分类，它们可能是橘子、苹果、梨等，这就是一个多分类问题。
多标签分类（Multi-Label Classification）：给每个样本一系列的目标标签，可以想象成一个数据点的各属性不是相互排斥的。多标签分类的方法分为两种，一种是将问题转化为传统的分类问题，二是调整现有的算法来适应多标签的分类。例如，一个文本可能被同时认为是宗教、政治、金融或者教育相关话题，这就是一个多标签分类问题，因为一个文本可以同时有多个标签。

一、人工智能的定义

1.1 人工智能的典型应用

机器人、智能家居、语音语义服务、自动驾驶、智慧医疗、ChatGPT（大语言模型）

1.2 人工智能的学术定义

AI的诞生——达特茅斯会议（提出artificial intelligence这个词）、图灵测试（其判断没有具体的定量化指标，只是提出无法分辨答案是人还是计算机给出的结果）
没有特别官方、学术的定义，但其实质是让机器像人一样去思考和解决问题

1.3 人工智能的三大流派

符号主义：用计算机进行数学证明、推导和逻辑推理
行为主义：会动的（机器人）
连接主义：以神经网络为代表的、基于大量数据生成数学模型并进行预测的人工智能实现过程。计算机基于数据建立模型的流程、范式和算法一般被叫作机器学习（连接主义人工智能），也是近10年的主流。

三、连接主义与机器学习

3.1 什么是机器学习

类比【人的智能】和【人工智能】：知识 → 数据；技能 → 模型；解决问题 → 进行预测，处理新数据。
思考：为什么机器学习之前没火？以前收集、存储数据不行，分析数据的算力也不够。

3.2 小数据与大数据

基于【全部】数据进行分析：直接分析。
基于【小】比例数据进行分析：统计学，用样本估计总体的合理性。
基于【大】比例数据进行分析：从机器学习的角度来看，用大量样本建立模型，进行后续个体预测并评价其准确性。

3.3 机器学习的标准流程

训练集 training set : 测试集 testing set = 9 : 1

3.4 机器学习流程的讨论

加入验证集（validation set）修正模型，这会对训练集和验证集的特征表现的很好。

四、Python编程与机器学习

4.1 Python环境搭建

4.2 用Python体会模型效果

例：手势检测、人脸检测

4.3 用Python走机器学习流程

收集数据

自己爬虫收集数据
让别人帮忙收集和清洗数据，因为这主要是体力活

将数据划分为训练集和测试集

提供一个方法：在excel中，生成一列随机数，再排序。

将数据导入python
使用训练数据建立模型
使用测试数据测试模型

测试准确率accuracy、可视化matplotlib

4.4 Python进行机器学习案例

出现accuracy低/过拟合（对数据进行学习过了）等模型问题，首先考虑是不是超参数的问题，尤其是batch_size和learning_rate。

五、机器学习训练的数学范式

5.1 什么是模型

5.2 拟合