Waymaker 智能基座社团

原文地址：https://www.cnblogs.com/ryuo-ou/p/19873305 同步说明：该文已完整同步到站内博客，便于统一检索和阅读。

1. 题目分组分布

常见模型：43
模型评估：23
数值计算：21
特征工程：20
优化与正则：18
其他：10
损失函数：9
学习范式：5

2. 概念全景分类（按覆盖题数）

类别	覆盖题数	这类题核心在问什么
任务与目标	73	你到底在做回归/分类/聚类/降维/排序中的哪一类
数值计算与工程实现	44	算法在计算机上是否稳定、可收敛、误差可控
泛化与正则化	43	模型能不能在新数据上表现好
经典模型	43	该用什么模型，以及模型假设是什么
评估与验证	33	指标怎么选、怎么解释结果
损失函数与优化	28	如何定义训练目标并高效求解
特征工程与降维	26	数据如何变换后更利于学习
聚类与相似度	19	相似性怎么度量、簇结构怎么建
概率统计基础	12	不确定性如何建模与推断
学习范式	5	监督信号来自哪里
推荐系统与表示学习	4	用户/物品关系如何向量化表达

3. 概念关系图（从建模到落地）

可以把这 97 个概念放进一条主链路：

学习范式：监督 / 无监督 / 半监督 / 迁移
任务定义：回归 / 分类 / 聚类 / 降维 / 排序
模型选择：线性模型、树模型、核方法、概率模型等
数据表示：特征工程、编码、缩放、降维
训练过程：损失函数 + 优化算法
泛化控制：正则化、采样策略、早停
评估决策：指标体系 + 验证方案
工程可用：稳定性、误差传播、复杂度

3.1 典型依赖关系

分类 常配 交叉熵，评估看 准确率/F1/AUC。
回归 常配 MSE/MAE/RMSE，再看误差分解。
K近邻 强依赖 距离度量 与 特征缩放。
支持向量机 常和 核函数、Hinge损失 一起出现。
树模型家族（决策树/随机森林/GBDT/XGBoost）都要面对 偏差-方差 与 过拟合控制。
类别不平衡 场景里，单看 Accuracy 往往不够，需要看 Precision/Recall/F1/AUC。
数值计算 场景里，截断误差 和 舍入误差 是两条不同误差链。

4. 高频易混区别

回归 vs 分类：回归预测连续值，分类预测离散标签。
监督学习 vs 无监督学习：前者有标签，后者主要做结构发现。
MSE vs MAE vs RMSE：MSE 放大大误差，MAE 更鲁棒，RMSE 与原量纲一致。
精确率 vs 召回率：Precision 关注误报，Recall 关注漏报。
F1 vs Accuracy：类别不平衡时 F1 通常更能反映真实能力。
AUC vs ROC：ROC 是曲线，AUC 是曲线面积。
L1正则 vs L2正则：L1 更易稀疏，L2 更平滑稳定。
标准化 vs 归一化：标准化看均值方差，归一化看区间缩放。
Bagging vs Boosting：Bagging 并行降方差，Boosting 串行降偏差。
过拟合 vs 欠拟合：过拟合是记噪声，欠拟合是没学到规律。
截断误差 vs 舍入误差：一个来自“近似步骤”，一个来自“有限精度”。
绝对误差 vs 相对误差：绝对误差看差多少，相对误差看差多少比例。

5. 97 个概念逐类通俗解释（来源-作用-联系）

读法建议：每个术语都按“来源、作用、联系”三步看，记忆最稳。

5.1 学习范式（4）

监督学习
来源：机器学习最早、最主流的范式（有“标准答案”训练）
作用：学会从输入到标签的映射
联系：与分类、回归直接对应，是交叉熵/MSE等损失的常见舞台。
无监督学习
来源：当数据没标签时发展出的方法
作用：找结构（分组、低维表示、异常点）
联系：常和聚类、降维（PCA）一起出现，与监督学习互补。
半监督学习
来源：现实中“少量有标签 + 大量无标签”的场景
作用：用少标签撬动大数据提升效果
联系：夹在监督与无监督之间，常和伪标签、一致性训练搭配。
迁移学习
来源：深度学习时代“别每次从零学”的需求
作用：把旧任务学到的知识迁到新任务
联系：与微调、预训练模型关系密切，也能缓解小样本问题。

5.2 任务与目标（6）

回归
来源：统计学中的函数拟合问题
作用：预测连续数值
联系：常用线性回归、MSE/MAE/RMSE指标。
分类
来源：模式识别与统计决策
作用：把样本分到离散类别
联系：常用逻辑回归、SVM、树模型，常配交叉熵与F1/AUC。
聚类
来源：无监督学习中的“自动分组”思想
作用：按相似性把样本分簇
联系：和K-means、DBSCAN、层次聚类紧密相关。
二分类
来源：分类任务中的最基础特例
作用：在正负两类中做判断
联系：Precision/Recall/F1/ROC-AUC最常考。
降维
来源：高维数据难处理的“维数灾难”问题
作用：压缩特征并尽量保留信息
联系：常见方法是PCA，也常服务于可视化和聚类前处理。
排序
来源：信息检索和推荐系统
作用：输出顺序而不只是类别
联系：常看Precision@K、AUC等排序相关指标。

5.3 经典模型（12）

线性回归
来源：最小二乘法的统计传统
作用：建立线性关系预测连续值
联系：与MSE、SSE/SST、RMSE强关联。
逻辑回归
来源：在线性模型上加概率映射
作用：做分类并输出概率
联系：核心是Sigmoid，损失常用交叉熵。
随机森林
来源：Bagging + 决策树的集成思想
作用：提升稳定性、降低过拟合风险
联系：与决策树、Bagging、特征重要性分析相关。
决策树
来源：规则划分思想（ID3/C4.5/CART）
作用：按特征分裂做决策
联系：信息增益、熵、过拟合剪枝常一起考。
高斯混合模型（GMM）
来源：概率模型中的混合分布思想
作用：用多个高斯拟合复杂分布
联系：常通过EM算法估计参数，也可用于软聚类。
核函数
来源：SVM等方法为处理非线性提出的“核技巧”
作用：在不显式升维的情况下做非线性判别
联系：RBF核最常见，与支持向量机强绑定。
Bagging
来源：集成学习中“重采样 + 投票/平均”
作用：主要降低方差
联系：随机森林是Bagging的代表实现。
支持向量机（SVM）
来源：统计学习理论中的最大间隔思想
作用：找最稳健的分类边界
联系：常和核函数、Hinge损失、支持向量一起出现。
朴素贝叶斯
来源：贝叶斯决策 + 条件独立假设
作用：快速概率分类
联系：与先验/后验、条件概率、贝叶斯公式强相关。
EM算法
来源：含隐变量模型的参数估计需求
作用：交替做“猜隐变量(E步)”和“改参数(M步)”
联系：GMM最典型的应用场景。
梯度提升树（GBDT）
来源：Boosting和函数逼近思想
作用：串行学习残差，逐步变强
联系：XGBoost是其工程强化版本。
XGBoost
来源：GBDT的工业级优化实现
作用：更快更稳地训练提升树
联系：引入正则化、二阶信息，与过拟合控制关系紧密。

5.4 聚类与相似度（7）

K-means
来源：向量量化与聚类优化问题
作用：通过“分配-更新”最小化簇内平方和
联系：常与欧氏距离、SSE一起出现。
欧氏距离
来源：几何中的直线距离定义
作用：衡量点到点的空间距离
联系：K近邻和K-means常默认用它。
DBSCAN
来源：密度可达理论
作用：发现任意形状簇并识别噪声点
联系：与K-means对比常考（是否需预设簇数）。
余弦相似度
来源：向量夹角概念
作用：看方向相似而非长度
联系：文本向量、嵌入向量、推荐场景常用。
层次聚类
来源：生物分类和树状分组思想
作用：输出簇的层次结构
联系：常和树状图(dendrogram)、链接准则一起考。
曼哈顿距离
来源：城市街区路径长度概念
作用：按坐标轴分量累计差异
联系：与欧氏距离对比常用于鲁棒性讨论。
谱聚类
来源：图论与拉普拉斯谱分解
作用：把复杂簇结构映射后再聚类
联系：和图相似度矩阵、特征向量分解相关。

5.5 特征工程与降维（8）

PCA
来源：线性代数中的特征值分解
作用：找方差最大的投影方向降维
联系：常用于去冗余、可视化和聚类前处理。
特征选择
来源：统计建模中的变量筛选
作用：去掉无效特征，减小过拟合
联系：和L1正则、RFE、特征重要性相关。
归一化
来源：数值尺度统一需求
作用：把特征压到固定区间
联系：对K近邻、聚类、梯度法等依赖距离/步长的方法很关键。
特征缩放
来源：不同量纲不可直接比较的问题
作用：让各特征在同一“说话音量”上
联系：标准化和归一化都属于缩放。
标准化
来源：统计学标准分数(z-score)
作用：把特征变为零均值、单位方差
联系：常用于逻辑回归、SVM、神经网络训练稳定。
递归特征消除（RFE）
来源：包裹式特征选择策略
作用：反复训练、每轮删最弱特征
联系：常配线性模型或树模型作为“评委”。
One-Hot编码
来源：离散变量的数值化表示方法
作用：把类别值转成0/1向量
联系：常与线性模型、树模型、embedding方案对比。
特征提取
来源：表示学习思想
作用：把原始信号变成更有信息密度的表示
联系：PCA、embedding都可视为提取手段。

5.6 损失函数与优化（13）

损失函数
来源：优化理论中的目标函数定义
作用：告诉模型“错了多少”
联系：优化算法（GD/SGD/牛顿法）都在最小化它。
均方误差（MSE）
来源：最小二乘理论
作用：回归中惩罚大误差
联系：RMSE是它开方后的同量纲版本。
平均绝对误差（MAE）
来源：绝对偏差最小化
作用：对异常值更稳健
联系：常与MSE对比鲁棒性。
交叉熵
来源：信息论中的熵与编码长度
作用：衡量预测分布和真实分布差异
联系：分类任务中常与Softmax/Sigmoid组合。
牛顿法
来源：数值分析中的二阶迭代
作用：利用曲率快速逼近最优点
联系：BFGS是“近似牛顿”路线。
随机梯度下降（SGD）
来源：大规模优化需求
作用：用小批次近似梯度降低计算量
联系：学习率、动量是常见配套超参数。
学习率
来源：迭代优化步长概念
作用：控制每次参数更新幅度
联系：与收敛速度和稳定性直接相关。
梯度下降
来源：微积分中的最速下降方向
作用：沿负梯度迭代降低损失
联系：SGD、动量、Adam等都可看作其变体。
BFGS
来源：拟牛顿法家族
作用：近似Hessian以提高收敛效率
联系：在中小规模连续优化中常优于纯一阶法。
Sigmoid
来源：S形映射函数
作用：把实数压到(0,1)便于概率解释
联系：逻辑回归、二分类神经网络常用。
Hinge损失
来源：最大间隔分类思想
作用：推动分类边界“留安全边”
联系：是SVM的标志性损失函数。
Log-Sum-Exp
来源：数值稳定技巧
作用：稳定计算 \(\log\sum e^{x_i}\) 防止溢出
联系：和Softmax、交叉熵实现细节高度相关。
动量
来源：物理中的惯性思想被引入优化
作用：减小来回震荡并加速前进
联系：常与SGD组合成Momentum SGD。

5.7 泛化与正则化（11）

偏差-方差权衡
来源：统计学习误差分解
作用：解释“模型太简单/太复杂”两种失败
联系：正则化、模型复杂度选择都围绕它。
过拟合
来源：经验风险最小化过度追训练集
作用：提醒你“记住噪声不是学会规律”
联系：可用正则化、早停、数据增强缓解。
正则化
来源：病态问题的约束思想
作用：限制模型复杂度提升泛化
联系：L1/L2正则是最常见形式。
类别不平衡
来源：真实业务里少数类稀缺
作用：提示指标与采样策略要调整
联系：常配过采样、欠采样、F1/AUC评估。
L2正则
来源：Tikhonov/Ridge思想
作用：惩罚大权重让模型更平滑
联系：通常不做稀疏，但能明显抑制过拟合。
L1正则
来源：Lasso思想
作用：把部分权重压到0实现特征筛选
联系：与特征选择直接相关。
欠拟合
来源：模型表达能力不足
作用：提醒你模型太弱或训练不够
联系：可通过加特征、提模型能力、训练更充分改进。
欠采样
来源：处理类别不平衡的重采样方法
作用：减少多数类占比
联系：可能丢信息，常和过采样对比使用。
过采样
来源：处理少数类样本不足问题
作用：扩充少数类提高识别率
联系：与欠采样、SMOTE思路同类。
Dropout
来源：神经网络正则化技术
作用：训练时随机“断开”部分神经元防共适应
联系：常与早停、L2正则一起使用。
早停
来源：验证集监控训练过程的工程实践
作用：在过拟合前停止训练
联系：和学习率调度、模型选择一起出现。

5.8 评估与验证（15）

F1
来源：信息检索评价体系
作用：平衡Precision与Recall
联系：类别不平衡时比Accuracy更实用。
准确率（Accuracy）
来源：最直观的总体正确率定义
作用：快速看整体对错比例
联系：在不平衡数据上可能“看着高其实没用”。
召回率（Recall）
来源：检索系统“找回率”概念
作用：衡量少漏掉正样本
联系：与Precision此消彼长。
精确率（Precision）
来源：检索系统“查准率”概念
作用：衡量少误报
联系：与Recall共同决定F1。
训练集/验证集/测试集
来源：机器学习实验规范
作用：分别训练、调参、做最终评估
联系：交叉验证是更稳健的验证方案。
AUC
来源：ROC曲线面积指标
作用：评价模型排序区分能力
联系：与ROC配套出现。
ROC
来源：信号检测理论
作用：看不同阈值下TPR-FPR权衡
联系：AUC是其整体分数。
TP/FP/TN/FN
来源：混淆矩阵四格定义
作用：构成所有二分类指标底座
联系：Precision/Recall/Accuracy都由它们计算。
混淆矩阵
来源：分类错误分析工具
作用：可视化“错在谁身上”
联系：是定位模型偏差的第一张表。
AUC-ROC
来源：工程上对“ROC面积”的习惯写法
作用：强调AUC来自ROC
联系：本质与AUC同义。
F1-score
来源：F1的标准命名形式
作用：与F1相同
联系：二者可直接等同理解。
交叉验证
来源：小样本评估稳健性需求
作用：减少偶然划分带来的评估偏差
联系：常见是k-fold交叉验证。
SSE/SST
来源：回归误差分解
作用：衡量残差与总波动
联系：与 \(R^2\) 公式直接关联。
RMSE
来源：MSE的平方根形式
作用：把误差单位还原到原始量纲
联系：便于和业务误差阈值对齐。
Precision@K
来源：推荐/检索Top-K评测
作用：只看前K个结果质量
联系：和排序任务高度相关。

5.9 概率统计基础（5）

先验/后验
来源：贝叶斯统计
作用：用新证据更新原有信念
联系：由贝叶斯公式连接。
熵
来源：信息论
作用：衡量不确定性大小
联系：交叉熵、信息增益都从它发展而来。
贝叶斯公式
来源：条件概率恒等变换
作用：把“已知结果反推原因”算清楚
联系：朴素贝叶斯模型的核心公式。
最大似然估计（MLE）
来源：统计参数估计理论
作用：找最能解释观测数据的参数
联系：与MAP、EM算法关系密切。
条件概率
来源：概率论基础定义
作用：描述“在某条件下事件发生概率”
联系：是贝叶斯公式和朴素贝叶斯的基础。

5.10 数值计算与工程实现（14）

迭代收敛
来源：数值求解中的重复逼近思想
作用：判断算法会不会越算越接近答案
联系：和学习率、稳定性、牛顿法等都相关。
复杂度分析
来源：算法理论中的增长率分析
作用：估算时间和内存随规模如何变化
联系：常用大O记号表达。
绝对误差
来源：误差分析基础定义
作用：直接看“差了多少”
联系：和相对误差一起构成误差评价体系。
插值
来源：数值分析中的函数近似方法
作用：用已知点估未知点
联系：拉格朗日插值、样条插值是典型方法。
截断误差
来源：无限过程有限化近似
作用：量化“近似步骤”带来的偏差
联系：与迭代步长、级数截断有关。
舍入误差
来源：浮点数有限位数表示
作用：解释为什么计算机会有精度损失
联系：与数值稳定性强相关。
有效数字
来源：测量与近似计算规范
作用：表达结果可信位数
联系：和绝对/相对误差互相约束。
数值稳定性
来源：数值分析核心概念
作用：判断小扰动会不会被算法放大
联系：与病态问题、舍入误差紧密相关。
中心差分
来源：导数数值近似公式
作用：用左右点估计导数
联系：通常比前向差分精度更高。
拉格朗日插值
来源：经典多项式插值理论
作用：构造通过所有已知点的显式多项式
联系：是插值章节高频基础模型。
相对误差
来源：误差标准化定义
作用：衡量误差占真值比例
联系：便于跨量纲比较误差大小。
病态问题
来源：问题条件数理论
作用：提醒“问题本身对扰动极敏感”
联系：即使算法正确也可能算不稳。
样条插值
来源：分段多项式逼近思想
作用：在拟合和平滑之间折中
联系：常用于避免高次多项式的龙格现象。
龙格现象
来源：高次多项式插值研究中的经典现象
作用：提醒高次全局插值可能边缘震荡
联系：引出样条插值等改进方法。

5.11 推荐系统与表示学习（2）

嵌入向量
来源：表示学习把离散对象映射到连续空间
作用：把“ID”变成可计算相似度的向量
联系：余弦相似度、矩阵分解、深度推荐都依赖它。
矩阵分解
来源：线性代数低秩分解思想在推荐中的应用
作用：把用户-物品偏好拆成两个低维因子
联系：本质是在学习用户和物品的嵌入向量。

6. 这 97 个概念如何形成“刷题最短路径”

先判任务（回归/分类/聚类/降维/排序）。
再选模型（线性、树、核、概率、聚类）。
再定损失和优化（MSE/交叉熵 + GD/SGD/牛顿类）。
同步考虑泛化（正则、采样、早停）。
最后用正确指标评估（不平衡数据优先 F1/AUC/Recall）。
若题目偏工程实现，再看稳定性、误差、复杂度。

机器学习基础刷题

1. 题目分组分布

2. 概念全景分类（按覆盖题数）

3. 概念关系图（从建模到落地）

3.1 典型依赖关系

4. 高频易混区别

5. 97 个概念逐类通俗解释（来源-作用-联系）

5.1 学习范式（4）

5.2 任务与目标（6）

5.3 经典模型（12）

5.4 聚类与相似度（7）

5.5 特征工程与降维（8）

5.6 损失函数与优化（13）

5.7 泛化与正则化（11）

5.8 评估与验证（15）

5.9 概率统计基础（5）

5.10 数值计算与工程实现（14）

5.11 推荐系统与表示学习（2）

6. 这 97 个概念如何形成“刷题最短路径”