← 返回博客列表

机器学习基础刷题

ryou

原文地址:https://www.cnblogs.com/ryuo-ou/p/19873305 同步说明:该文已完整同步到站内博客,便于统一检索和阅读。

1. 题目分组分布

  • 常见模型:43
  • 模型评估:23
  • 数值计算:21
  • 特征工程:20
  • 优化与正则:18
  • 其他:10
  • 损失函数:9
  • 学习范式:5

2. 概念全景分类(按覆盖题数)

类别 覆盖题数 这类题核心在问什么
任务与目标 73 你到底在做回归/分类/聚类/降维/排序中的哪一类
数值计算与工程实现 44 算法在计算机上是否稳定、可收敛、误差可控
泛化与正则化 43 模型能不能在新数据上表现好
经典模型 43 该用什么模型,以及模型假设是什么
评估与验证 33 指标怎么选、怎么解释结果
损失函数与优化 28 如何定义训练目标并高效求解
特征工程与降维 26 数据如何变换后更利于学习
聚类与相似度 19 相似性怎么度量、簇结构怎么建
概率统计基础 12 不确定性如何建模与推断
学习范式 5 监督信号来自哪里
推荐系统与表示学习 4 用户/物品关系如何向量化表达

3. 概念关系图(从建模到落地)

可以把这 97 个概念放进一条主链路:

  1. 学习范式:监督 / 无监督 / 半监督 / 迁移
  2. 任务定义:回归 / 分类 / 聚类 / 降维 / 排序
  3. 模型选择:线性模型、树模型、核方法、概率模型等
  4. 数据表示:特征工程、编码、缩放、降维
  5. 训练过程:损失函数 + 优化算法
  6. 泛化控制:正则化、采样策略、早停
  7. 评估决策:指标体系 + 验证方案
  8. 工程可用:稳定性、误差传播、复杂度

3.1 典型依赖关系

  • 分类 常配 交叉熵,评估看 准确率/F1/AUC
  • 回归 常配 MSE/MAE/RMSE,再看误差分解。
  • K近邻 强依赖 距离度量特征缩放
  • 支持向量机 常和 核函数Hinge损失 一起出现。
  • 树模型家族(决策树/随机森林/GBDT/XGBoost)都要面对 偏差-方差过拟合控制
  • 类别不平衡 场景里,单看 Accuracy 往往不够,需要看 Precision/Recall/F1/AUC
  • 数值计算 场景里,截断误差舍入误差 是两条不同误差链。

4. 高频易混区别

  1. 回归 vs 分类:回归预测连续值,分类预测离散标签。
  2. 监督学习 vs 无监督学习:前者有标签,后者主要做结构发现。
  3. MSE vs MAE vs RMSE:MSE 放大大误差,MAE 更鲁棒,RMSE 与原量纲一致。
  4. 精确率 vs 召回率:Precision 关注误报,Recall 关注漏报。
  5. F1 vs Accuracy:类别不平衡时 F1 通常更能反映真实能力。
  6. AUC vs ROC:ROC 是曲线,AUC 是曲线面积。
  7. L1正则 vs L2正则:L1 更易稀疏,L2 更平滑稳定。
  8. 标准化 vs 归一化:标准化看均值方差,归一化看区间缩放。
  9. Bagging vs Boosting:Bagging 并行降方差,Boosting 串行降偏差。
  10. 过拟合 vs 欠拟合:过拟合是记噪声,欠拟合是没学到规律。
  11. 截断误差 vs 舍入误差:一个来自“近似步骤”,一个来自“有限精度”。
  12. 绝对误差 vs 相对误差:绝对误差看差多少,相对误差看差多少比例。

5. 97 个概念逐类通俗解释(来源-作用-联系)

读法建议:每个术语都按“来源、作用、联系”三步看,记忆最稳。

5.1 学习范式(4)

  • 监督学习
    来源:机器学习最早、最主流的范式(有“标准答案”训练)
    作用:学会从输入到标签的映射
    联系:与分类、回归直接对应,是交叉熵/MSE等损失的常见舞台。

  • 无监督学习
    来源:当数据没标签时发展出的方法
    作用:找结构(分组、低维表示、异常点)
    联系:常和聚类、降维(PCA)一起出现,与监督学习互补。

  • 半监督学习
    来源:现实中“少量有标签 + 大量无标签”的场景
    作用:用少标签撬动大数据提升效果
    联系:夹在监督与无监督之间,常和伪标签、一致性训练搭配。

  • 迁移学习
    来源:深度学习时代“别每次从零学”的需求
    作用:把旧任务学到的知识迁到新任务
    联系:与微调、预训练模型关系密切,也能缓解小样本问题。

5.2 任务与目标(6)

  • 回归
    来源:统计学中的函数拟合问题
    作用:预测连续数值
    联系:常用线性回归、MSE/MAE/RMSE指标。

  • 分类
    来源:模式识别与统计决策
    作用:把样本分到离散类别
    联系:常用逻辑回归、SVM、树模型,常配交叉熵与F1/AUC。

  • 聚类
    来源:无监督学习中的“自动分组”思想
    作用:按相似性把样本分簇
    联系:和K-means、DBSCAN、层次聚类紧密相关。

  • 二分类
    来源:分类任务中的最基础特例
    作用:在正负两类中做判断
    联系:Precision/Recall/F1/ROC-AUC最常考。

  • 降维
    来源:高维数据难处理的“维数灾难”问题
    作用:压缩特征并尽量保留信息
    联系:常见方法是PCA,也常服务于可视化和聚类前处理。

  • 排序
    来源:信息检索和推荐系统
    作用:输出顺序而不只是类别
    联系:常看Precision@K、AUC等排序相关指标。

5.3 经典模型(12)

  • 线性回归
    来源:最小二乘法的统计传统
    作用:建立线性关系预测连续值
    联系:与MSE、SSE/SST、RMSE强关联。

  • 逻辑回归
    来源:在线性模型上加概率映射
    作用:做分类并输出概率
    联系:核心是Sigmoid,损失常用交叉熵。

  • 随机森林
    来源:Bagging + 决策树的集成思想
    作用:提升稳定性、降低过拟合风险
    联系:与决策树、Bagging、特征重要性分析相关。

  • 决策树
    来源:规则划分思想(ID3/C4.5/CART)
    作用:按特征分裂做决策
    联系:信息增益、熵、过拟合剪枝常一起考。

  • 高斯混合模型(GMM)
    来源:概率模型中的混合分布思想
    作用:用多个高斯拟合复杂分布
    联系:常通过EM算法估计参数,也可用于软聚类。

  • 核函数
    来源:SVM等方法为处理非线性提出的“核技巧”
    作用:在不显式升维的情况下做非线性判别
    联系:RBF核最常见,与支持向量机强绑定。

  • Bagging
    来源:集成学习中“重采样 + 投票/平均”
    作用:主要降低方差
    联系:随机森林是Bagging的代表实现。

  • 支持向量机(SVM)
    来源:统计学习理论中的最大间隔思想
    作用:找最稳健的分类边界
    联系:常和核函数、Hinge损失、支持向量一起出现。

  • 朴素贝叶斯
    来源:贝叶斯决策 + 条件独立假设
    作用:快速概率分类
    联系:与先验/后验、条件概率、贝叶斯公式强相关。

  • EM算法
    来源:含隐变量模型的参数估计需求
    作用:交替做“猜隐变量(E步)”和“改参数(M步)”
    联系:GMM最典型的应用场景。

  • 梯度提升树(GBDT)
    来源:Boosting和函数逼近思想
    作用:串行学习残差,逐步变强
    联系:XGBoost是其工程强化版本。

  • XGBoost
    来源:GBDT的工业级优化实现
    作用:更快更稳地训练提升树
    联系:引入正则化、二阶信息,与过拟合控制关系紧密。

5.4 聚类与相似度(7)

  • K-means
    来源:向量量化与聚类优化问题
    作用:通过“分配-更新”最小化簇内平方和
    联系:常与欧氏距离、SSE一起出现。

  • 欧氏距离
    来源:几何中的直线距离定义
    作用:衡量点到点的空间距离
    联系:K近邻和K-means常默认用它。

  • DBSCAN
    来源:密度可达理论
    作用:发现任意形状簇并识别噪声点
    联系:与K-means对比常考(是否需预设簇数)。

  • 余弦相似度
    来源:向量夹角概念
    作用:看方向相似而非长度
    联系:文本向量、嵌入向量、推荐场景常用。

  • 层次聚类
    来源:生物分类和树状分组思想
    作用:输出簇的层次结构
    联系:常和树状图(dendrogram)、链接准则一起考。

  • 曼哈顿距离
    来源:城市街区路径长度概念
    作用:按坐标轴分量累计差异
    联系:与欧氏距离对比常用于鲁棒性讨论。

  • 谱聚类
    来源:图论与拉普拉斯谱分解
    作用:把复杂簇结构映射后再聚类
    联系:和图相似度矩阵、特征向量分解相关。

5.5 特征工程与降维(8)

  • PCA
    来源:线性代数中的特征值分解
    作用:找方差最大的投影方向降维
    联系:常用于去冗余、可视化和聚类前处理。

  • 特征选择
    来源:统计建模中的变量筛选
    作用:去掉无效特征,减小过拟合
    联系:和L1正则、RFE、特征重要性相关。

  • 归一化
    来源:数值尺度统一需求
    作用:把特征压到固定区间
    联系:对K近邻、聚类、梯度法等依赖距离/步长的方法很关键。

  • 特征缩放
    来源:不同量纲不可直接比较的问题
    作用:让各特征在同一“说话音量”上
    联系:标准化和归一化都属于缩放。

  • 标准化
    来源:统计学标准分数(z-score)
    作用:把特征变为零均值、单位方差
    联系:常用于逻辑回归、SVM、神经网络训练稳定。

  • 递归特征消除(RFE)
    来源:包裹式特征选择策略
    作用:反复训练、每轮删最弱特征
    联系:常配线性模型或树模型作为“评委”。

  • One-Hot编码
    来源:离散变量的数值化表示方法
    作用:把类别值转成0/1向量
    联系:常与线性模型、树模型、embedding方案对比。

  • 特征提取
    来源:表示学习思想
    作用:把原始信号变成更有信息密度的表示
    联系:PCA、embedding都可视为提取手段。

5.6 损失函数与优化(13)

  • 损失函数
    来源:优化理论中的目标函数定义
    作用:告诉模型“错了多少”
    联系:优化算法(GD/SGD/牛顿法)都在最小化它。

  • 均方误差(MSE)
    来源:最小二乘理论
    作用:回归中惩罚大误差
    联系:RMSE是它开方后的同量纲版本。

  • 平均绝对误差(MAE)
    来源:绝对偏差最小化
    作用:对异常值更稳健
    联系:常与MSE对比鲁棒性。

  • 交叉熵
    来源:信息论中的熵与编码长度
    作用:衡量预测分布和真实分布差异
    联系:分类任务中常与Softmax/Sigmoid组合。

  • 牛顿法
    来源:数值分析中的二阶迭代
    作用:利用曲率快速逼近最优点
    联系:BFGS是“近似牛顿”路线。

  • 随机梯度下降(SGD)
    来源:大规模优化需求
    作用:用小批次近似梯度降低计算量
    联系:学习率、动量是常见配套超参数。

  • 学习率
    来源:迭代优化步长概念
    作用:控制每次参数更新幅度
    联系:与收敛速度和稳定性直接相关。

  • 梯度下降
    来源:微积分中的最速下降方向
    作用:沿负梯度迭代降低损失
    联系:SGD、动量、Adam等都可看作其变体。

  • BFGS
    来源:拟牛顿法家族
    作用:近似Hessian以提高收敛效率
    联系:在中小规模连续优化中常优于纯一阶法。

  • Sigmoid
    来源:S形映射函数
    作用:把实数压到(0,1)便于概率解释
    联系:逻辑回归、二分类神经网络常用。

  • Hinge损失
    来源:最大间隔分类思想
    作用:推动分类边界“留安全边”
    联系:是SVM的标志性损失函数。

  • Log-Sum-Exp
    来源:数值稳定技巧
    作用:稳定计算 \(\log\sum e^{x_i}\) 防止溢出
    联系:和Softmax、交叉熵实现细节高度相关。

  • 动量
    来源:物理中的惯性思想被引入优化
    作用:减小来回震荡并加速前进
    联系:常与SGD组合成Momentum SGD。

5.7 泛化与正则化(11)

  • 偏差-方差权衡
    来源:统计学习误差分解
    作用:解释“模型太简单/太复杂”两种失败
    联系:正则化、模型复杂度选择都围绕它。

  • 过拟合
    来源:经验风险最小化过度追训练集
    作用:提醒你“记住噪声不是学会规律”
    联系:可用正则化、早停、数据增强缓解。

  • 正则化
    来源:病态问题的约束思想
    作用:限制模型复杂度提升泛化
    联系:L1/L2正则是最常见形式。

  • 类别不平衡
    来源:真实业务里少数类稀缺
    作用:提示指标与采样策略要调整
    联系:常配过采样、欠采样、F1/AUC评估。

  • L2正则
    来源:Tikhonov/Ridge思想
    作用:惩罚大权重让模型更平滑
    联系:通常不做稀疏,但能明显抑制过拟合。

  • L1正则
    来源:Lasso思想
    作用:把部分权重压到0实现特征筛选
    联系:与特征选择直接相关。

  • 欠拟合
    来源:模型表达能力不足
    作用:提醒你模型太弱或训练不够
    联系:可通过加特征、提模型能力、训练更充分改进。

  • 欠采样
    来源:处理类别不平衡的重采样方法
    作用:减少多数类占比
    联系:可能丢信息,常和过采样对比使用。

  • 过采样
    来源:处理少数类样本不足问题
    作用:扩充少数类提高识别率
    联系:与欠采样、SMOTE思路同类。

  • Dropout
    来源:神经网络正则化技术
    作用:训练时随机“断开”部分神经元防共适应
    联系:常与早停、L2正则一起使用。

  • 早停
    来源:验证集监控训练过程的工程实践
    作用:在过拟合前停止训练
    联系:和学习率调度、模型选择一起出现。

5.8 评估与验证(15)

  • F1
    来源:信息检索评价体系
    作用:平衡Precision与Recall
    联系:类别不平衡时比Accuracy更实用。

  • 准确率(Accuracy)
    来源:最直观的总体正确率定义
    作用:快速看整体对错比例
    联系:在不平衡数据上可能“看着高其实没用”。

  • 召回率(Recall)
    来源:检索系统“找回率”概念
    作用:衡量少漏掉正样本
    联系:与Precision此消彼长。

  • 精确率(Precision)
    来源:检索系统“查准率”概念
    作用:衡量少误报
    联系:与Recall共同决定F1。

  • 训练集/验证集/测试集
    来源:机器学习实验规范
    作用:分别训练、调参、做最终评估
    联系:交叉验证是更稳健的验证方案。

  • AUC
    来源:ROC曲线面积指标
    作用:评价模型排序区分能力
    联系:与ROC配套出现。

  • ROC
    来源:信号检测理论
    作用:看不同阈值下TPR-FPR权衡
    联系:AUC是其整体分数。

  • TP/FP/TN/FN
    来源:混淆矩阵四格定义
    作用:构成所有二分类指标底座
    联系:Precision/Recall/Accuracy都由它们计算。

  • 混淆矩阵
    来源:分类错误分析工具
    作用:可视化“错在谁身上”
    联系:是定位模型偏差的第一张表。

  • AUC-ROC
    来源:工程上对“ROC面积”的习惯写法
    作用:强调AUC来自ROC
    联系:本质与AUC同义。

  • F1-score
    来源:F1的标准命名形式
    作用:与F1相同
    联系:二者可直接等同理解。

  • 交叉验证
    来源:小样本评估稳健性需求
    作用:减少偶然划分带来的评估偏差
    联系:常见是k-fold交叉验证。

  • SSE/SST
    来源:回归误差分解
    作用:衡量残差与总波动
    联系:与 \(R^2\) 公式直接关联。

  • RMSE
    来源:MSE的平方根形式
    作用:把误差单位还原到原始量纲
    联系:便于和业务误差阈值对齐。

  • Precision@K
    来源:推荐/检索Top-K评测
    作用:只看前K个结果质量
    联系:和排序任务高度相关。

5.9 概率统计基础(5)

  • 先验/后验
    来源:贝叶斯统计
    作用:用新证据更新原有信念
    联系:由贝叶斯公式连接。


  • 来源:信息论
    作用:衡量不确定性大小
    联系:交叉熵、信息增益都从它发展而来。

  • 贝叶斯公式
    来源:条件概率恒等变换
    作用:把“已知结果反推原因”算清楚
    联系:朴素贝叶斯模型的核心公式。

  • 最大似然估计(MLE)
    来源:统计参数估计理论
    作用:找最能解释观测数据的参数
    联系:与MAP、EM算法关系密切。

  • 条件概率
    来源:概率论基础定义
    作用:描述“在某条件下事件发生概率”
    联系:是贝叶斯公式和朴素贝叶斯的基础。

5.10 数值计算与工程实现(14)

  • 迭代收敛
    来源:数值求解中的重复逼近思想
    作用:判断算法会不会越算越接近答案
    联系:和学习率、稳定性、牛顿法等都相关。

  • 复杂度分析
    来源:算法理论中的增长率分析
    作用:估算时间和内存随规模如何变化
    联系:常用大O记号表达。

  • 绝对误差
    来源:误差分析基础定义
    作用:直接看“差了多少”
    联系:和相对误差一起构成误差评价体系。

  • 插值
    来源:数值分析中的函数近似方法
    作用:用已知点估未知点
    联系:拉格朗日插值、样条插值是典型方法。

  • 截断误差
    来源:无限过程有限化近似
    作用:量化“近似步骤”带来的偏差
    联系:与迭代步长、级数截断有关。

  • 舍入误差
    来源:浮点数有限位数表示
    作用:解释为什么计算机会有精度损失
    联系:与数值稳定性强相关。

  • 有效数字
    来源:测量与近似计算规范
    作用:表达结果可信位数
    联系:和绝对/相对误差互相约束。

  • 数值稳定性
    来源:数值分析核心概念
    作用:判断小扰动会不会被算法放大
    联系:与病态问题、舍入误差紧密相关。

  • 中心差分
    来源:导数数值近似公式
    作用:用左右点估计导数
    联系:通常比前向差分精度更高。

  • 拉格朗日插值
    来源:经典多项式插值理论
    作用:构造通过所有已知点的显式多项式
    联系:是插值章节高频基础模型。

  • 相对误差
    来源:误差标准化定义
    作用:衡量误差占真值比例
    联系:便于跨量纲比较误差大小。

  • 病态问题
    来源:问题条件数理论
    作用:提醒“问题本身对扰动极敏感”
    联系:即使算法正确也可能算不稳。

  • 样条插值
    来源:分段多项式逼近思想
    作用:在拟合和平滑之间折中
    联系:常用于避免高次多项式的龙格现象。

  • 龙格现象
    来源:高次多项式插值研究中的经典现象
    作用:提醒高次全局插值可能边缘震荡
    联系:引出样条插值等改进方法。

5.11 推荐系统与表示学习(2)

  • 嵌入向量
    来源:表示学习把离散对象映射到连续空间
    作用:把“ID”变成可计算相似度的向量
    联系:余弦相似度、矩阵分解、深度推荐都依赖它。

  • 矩阵分解
    来源:线性代数低秩分解思想在推荐中的应用
    作用:把用户-物品偏好拆成两个低维因子
    联系:本质是在学习用户和物品的嵌入向量。


6. 这 97 个概念如何形成“刷题最短路径”

  1. 先判任务(回归/分类/聚类/降维/排序)。
  2. 再选模型(线性、树、核、概率、聚类)。
  3. 再定损失和优化(MSE/交叉熵 + GD/SGD/牛顿类)。
  4. 同步考虑泛化(正则、采样、早停)。
  5. 最后用正确指标评估(不平衡数据优先 F1/AUC/Recall)。
  6. 若题目偏工程实现,再看稳定性、误差、复杂度。