原文地址:https://www.cnblogs.com/ryuo-ou/p/19873305 同步说明:该文已完整同步到站内博客,便于统一检索和阅读。
1. 题目分组分布
- 常见模型:43
- 模型评估:23
- 数值计算:21
- 特征工程:20
- 优化与正则:18
- 其他:10
- 损失函数:9
- 学习范式:5
2. 概念全景分类(按覆盖题数)
| 类别 | 覆盖题数 | 这类题核心在问什么 |
|---|---|---|
| 任务与目标 | 73 | 你到底在做回归/分类/聚类/降维/排序中的哪一类 |
| 数值计算与工程实现 | 44 | 算法在计算机上是否稳定、可收敛、误差可控 |
| 泛化与正则化 | 43 | 模型能不能在新数据上表现好 |
| 经典模型 | 43 | 该用什么模型,以及模型假设是什么 |
| 评估与验证 | 33 | 指标怎么选、怎么解释结果 |
| 损失函数与优化 | 28 | 如何定义训练目标并高效求解 |
| 特征工程与降维 | 26 | 数据如何变换后更利于学习 |
| 聚类与相似度 | 19 | 相似性怎么度量、簇结构怎么建 |
| 概率统计基础 | 12 | 不确定性如何建模与推断 |
| 学习范式 | 5 | 监督信号来自哪里 |
| 推荐系统与表示学习 | 4 | 用户/物品关系如何向量化表达 |
3. 概念关系图(从建模到落地)
可以把这 97 个概念放进一条主链路:
- 学习范式:监督 / 无监督 / 半监督 / 迁移
- 任务定义:回归 / 分类 / 聚类 / 降维 / 排序
- 模型选择:线性模型、树模型、核方法、概率模型等
- 数据表示:特征工程、编码、缩放、降维
- 训练过程:损失函数 + 优化算法
- 泛化控制:正则化、采样策略、早停
- 评估决策:指标体系 + 验证方案
- 工程可用:稳定性、误差传播、复杂度
3.1 典型依赖关系
分类常配交叉熵,评估看准确率/F1/AUC。回归常配MSE/MAE/RMSE,再看误差分解。K近邻强依赖距离度量与特征缩放。支持向量机常和核函数、Hinge损失一起出现。树模型家族(决策树/随机森林/GBDT/XGBoost)都要面对偏差-方差与过拟合控制。类别不平衡场景里,单看 Accuracy 往往不够,需要看Precision/Recall/F1/AUC。数值计算场景里,截断误差和舍入误差是两条不同误差链。
4. 高频易混区别
- 回归 vs 分类:回归预测连续值,分类预测离散标签。
- 监督学习 vs 无监督学习:前者有标签,后者主要做结构发现。
- MSE vs MAE vs RMSE:MSE 放大大误差,MAE 更鲁棒,RMSE 与原量纲一致。
- 精确率 vs 召回率:Precision 关注误报,Recall 关注漏报。
- F1 vs Accuracy:类别不平衡时 F1 通常更能反映真实能力。
- AUC vs ROC:ROC 是曲线,AUC 是曲线面积。
- L1正则 vs L2正则:L1 更易稀疏,L2 更平滑稳定。
- 标准化 vs 归一化:标准化看均值方差,归一化看区间缩放。
- Bagging vs Boosting:Bagging 并行降方差,Boosting 串行降偏差。
- 过拟合 vs 欠拟合:过拟合是记噪声,欠拟合是没学到规律。
- 截断误差 vs 舍入误差:一个来自“近似步骤”,一个来自“有限精度”。
- 绝对误差 vs 相对误差:绝对误差看差多少,相对误差看差多少比例。
5. 97 个概念逐类通俗解释(来源-作用-联系)
读法建议:每个术语都按“来源、作用、联系”三步看,记忆最稳。
5.1 学习范式(4)
-
监督学习
来源:机器学习最早、最主流的范式(有“标准答案”训练)
作用:学会从输入到标签的映射
联系:与分类、回归直接对应,是交叉熵/MSE等损失的常见舞台。 -
无监督学习
来源:当数据没标签时发展出的方法
作用:找结构(分组、低维表示、异常点)
联系:常和聚类、降维(PCA)一起出现,与监督学习互补。 -
半监督学习
来源:现实中“少量有标签 + 大量无标签”的场景
作用:用少标签撬动大数据提升效果
联系:夹在监督与无监督之间,常和伪标签、一致性训练搭配。 -
迁移学习
来源:深度学习时代“别每次从零学”的需求
作用:把旧任务学到的知识迁到新任务
联系:与微调、预训练模型关系密切,也能缓解小样本问题。
5.2 任务与目标(6)
-
回归
来源:统计学中的函数拟合问题
作用:预测连续数值
联系:常用线性回归、MSE/MAE/RMSE指标。 -
分类
来源:模式识别与统计决策
作用:把样本分到离散类别
联系:常用逻辑回归、SVM、树模型,常配交叉熵与F1/AUC。 -
聚类
来源:无监督学习中的“自动分组”思想
作用:按相似性把样本分簇
联系:和K-means、DBSCAN、层次聚类紧密相关。 -
二分类
来源:分类任务中的最基础特例
作用:在正负两类中做判断
联系:Precision/Recall/F1/ROC-AUC最常考。 -
降维
来源:高维数据难处理的“维数灾难”问题
作用:压缩特征并尽量保留信息
联系:常见方法是PCA,也常服务于可视化和聚类前处理。 -
排序
来源:信息检索和推荐系统
作用:输出顺序而不只是类别
联系:常看Precision@K、AUC等排序相关指标。
5.3 经典模型(12)
-
线性回归
来源:最小二乘法的统计传统
作用:建立线性关系预测连续值
联系:与MSE、SSE/SST、RMSE强关联。 -
逻辑回归
来源:在线性模型上加概率映射
作用:做分类并输出概率
联系:核心是Sigmoid,损失常用交叉熵。 -
随机森林
来源:Bagging + 决策树的集成思想
作用:提升稳定性、降低过拟合风险
联系:与决策树、Bagging、特征重要性分析相关。 -
决策树
来源:规则划分思想(ID3/C4.5/CART)
作用:按特征分裂做决策
联系:信息增益、熵、过拟合剪枝常一起考。 -
高斯混合模型(GMM)
来源:概率模型中的混合分布思想
作用:用多个高斯拟合复杂分布
联系:常通过EM算法估计参数,也可用于软聚类。 -
核函数
来源:SVM等方法为处理非线性提出的“核技巧”
作用:在不显式升维的情况下做非线性判别
联系:RBF核最常见,与支持向量机强绑定。 -
Bagging
来源:集成学习中“重采样 + 投票/平均”
作用:主要降低方差
联系:随机森林是Bagging的代表实现。 -
支持向量机(SVM)
来源:统计学习理论中的最大间隔思想
作用:找最稳健的分类边界
联系:常和核函数、Hinge损失、支持向量一起出现。 -
朴素贝叶斯
来源:贝叶斯决策 + 条件独立假设
作用:快速概率分类
联系:与先验/后验、条件概率、贝叶斯公式强相关。 -
EM算法
来源:含隐变量模型的参数估计需求
作用:交替做“猜隐变量(E步)”和“改参数(M步)”
联系:GMM最典型的应用场景。 -
梯度提升树(GBDT)
来源:Boosting和函数逼近思想
作用:串行学习残差,逐步变强
联系:XGBoost是其工程强化版本。 -
XGBoost
来源:GBDT的工业级优化实现
作用:更快更稳地训练提升树
联系:引入正则化、二阶信息,与过拟合控制关系紧密。
5.4 聚类与相似度(7)
-
K-means
来源:向量量化与聚类优化问题
作用:通过“分配-更新”最小化簇内平方和
联系:常与欧氏距离、SSE一起出现。 -
欧氏距离
来源:几何中的直线距离定义
作用:衡量点到点的空间距离
联系:K近邻和K-means常默认用它。 -
DBSCAN
来源:密度可达理论
作用:发现任意形状簇并识别噪声点
联系:与K-means对比常考(是否需预设簇数)。 -
余弦相似度
来源:向量夹角概念
作用:看方向相似而非长度
联系:文本向量、嵌入向量、推荐场景常用。 -
层次聚类
来源:生物分类和树状分组思想
作用:输出簇的层次结构
联系:常和树状图(dendrogram)、链接准则一起考。 -
曼哈顿距离
来源:城市街区路径长度概念
作用:按坐标轴分量累计差异
联系:与欧氏距离对比常用于鲁棒性讨论。 -
谱聚类
来源:图论与拉普拉斯谱分解
作用:把复杂簇结构映射后再聚类
联系:和图相似度矩阵、特征向量分解相关。
5.5 特征工程与降维(8)
-
PCA
来源:线性代数中的特征值分解
作用:找方差最大的投影方向降维
联系:常用于去冗余、可视化和聚类前处理。 -
特征选择
来源:统计建模中的变量筛选
作用:去掉无效特征,减小过拟合
联系:和L1正则、RFE、特征重要性相关。 -
归一化
来源:数值尺度统一需求
作用:把特征压到固定区间
联系:对K近邻、聚类、梯度法等依赖距离/步长的方法很关键。 -
特征缩放
来源:不同量纲不可直接比较的问题
作用:让各特征在同一“说话音量”上
联系:标准化和归一化都属于缩放。 -
标准化
来源:统计学标准分数(z-score)
作用:把特征变为零均值、单位方差
联系:常用于逻辑回归、SVM、神经网络训练稳定。 -
递归特征消除(RFE)
来源:包裹式特征选择策略
作用:反复训练、每轮删最弱特征
联系:常配线性模型或树模型作为“评委”。 -
One-Hot编码
来源:离散变量的数值化表示方法
作用:把类别值转成0/1向量
联系:常与线性模型、树模型、embedding方案对比。 -
特征提取
来源:表示学习思想
作用:把原始信号变成更有信息密度的表示
联系:PCA、embedding都可视为提取手段。
5.6 损失函数与优化(13)
-
损失函数
来源:优化理论中的目标函数定义
作用:告诉模型“错了多少”
联系:优化算法(GD/SGD/牛顿法)都在最小化它。 -
均方误差(MSE)
来源:最小二乘理论
作用:回归中惩罚大误差
联系:RMSE是它开方后的同量纲版本。 -
平均绝对误差(MAE)
来源:绝对偏差最小化
作用:对异常值更稳健
联系:常与MSE对比鲁棒性。 -
交叉熵
来源:信息论中的熵与编码长度
作用:衡量预测分布和真实分布差异
联系:分类任务中常与Softmax/Sigmoid组合。 -
牛顿法
来源:数值分析中的二阶迭代
作用:利用曲率快速逼近最优点
联系:BFGS是“近似牛顿”路线。 -
随机梯度下降(SGD)
来源:大规模优化需求
作用:用小批次近似梯度降低计算量
联系:学习率、动量是常见配套超参数。 -
学习率
来源:迭代优化步长概念
作用:控制每次参数更新幅度
联系:与收敛速度和稳定性直接相关。 -
梯度下降
来源:微积分中的最速下降方向
作用:沿负梯度迭代降低损失
联系:SGD、动量、Adam等都可看作其变体。 -
BFGS
来源:拟牛顿法家族
作用:近似Hessian以提高收敛效率
联系:在中小规模连续优化中常优于纯一阶法。 -
Sigmoid
来源:S形映射函数
作用:把实数压到(0,1)便于概率解释
联系:逻辑回归、二分类神经网络常用。 -
Hinge损失
来源:最大间隔分类思想
作用:推动分类边界“留安全边”
联系:是SVM的标志性损失函数。 -
Log-Sum-Exp
来源:数值稳定技巧
作用:稳定计算 \(\log\sum e^{x_i}\) 防止溢出
联系:和Softmax、交叉熵实现细节高度相关。 -
动量
来源:物理中的惯性思想被引入优化
作用:减小来回震荡并加速前进
联系:常与SGD组合成Momentum SGD。
5.7 泛化与正则化(11)
-
偏差-方差权衡
来源:统计学习误差分解
作用:解释“模型太简单/太复杂”两种失败
联系:正则化、模型复杂度选择都围绕它。 -
过拟合
来源:经验风险最小化过度追训练集
作用:提醒你“记住噪声不是学会规律”
联系:可用正则化、早停、数据增强缓解。 -
正则化
来源:病态问题的约束思想
作用:限制模型复杂度提升泛化
联系:L1/L2正则是最常见形式。 -
类别不平衡
来源:真实业务里少数类稀缺
作用:提示指标与采样策略要调整
联系:常配过采样、欠采样、F1/AUC评估。 -
L2正则
来源:Tikhonov/Ridge思想
作用:惩罚大权重让模型更平滑
联系:通常不做稀疏,但能明显抑制过拟合。 -
L1正则
来源:Lasso思想
作用:把部分权重压到0实现特征筛选
联系:与特征选择直接相关。 -
欠拟合
来源:模型表达能力不足
作用:提醒你模型太弱或训练不够
联系:可通过加特征、提模型能力、训练更充分改进。 -
欠采样
来源:处理类别不平衡的重采样方法
作用:减少多数类占比
联系:可能丢信息,常和过采样对比使用。 -
过采样
来源:处理少数类样本不足问题
作用:扩充少数类提高识别率
联系:与欠采样、SMOTE思路同类。 -
Dropout
来源:神经网络正则化技术
作用:训练时随机“断开”部分神经元防共适应
联系:常与早停、L2正则一起使用。 -
早停
来源:验证集监控训练过程的工程实践
作用:在过拟合前停止训练
联系:和学习率调度、模型选择一起出现。
5.8 评估与验证(15)
-
F1
来源:信息检索评价体系
作用:平衡Precision与Recall
联系:类别不平衡时比Accuracy更实用。 -
准确率(Accuracy)
来源:最直观的总体正确率定义
作用:快速看整体对错比例
联系:在不平衡数据上可能“看着高其实没用”。 -
召回率(Recall)
来源:检索系统“找回率”概念
作用:衡量少漏掉正样本
联系:与Precision此消彼长。 -
精确率(Precision)
来源:检索系统“查准率”概念
作用:衡量少误报
联系:与Recall共同决定F1。 -
训练集/验证集/测试集
来源:机器学习实验规范
作用:分别训练、调参、做最终评估
联系:交叉验证是更稳健的验证方案。 -
AUC
来源:ROC曲线面积指标
作用:评价模型排序区分能力
联系:与ROC配套出现。 -
ROC
来源:信号检测理论
作用:看不同阈值下TPR-FPR权衡
联系:AUC是其整体分数。 -
TP/FP/TN/FN
来源:混淆矩阵四格定义
作用:构成所有二分类指标底座
联系:Precision/Recall/Accuracy都由它们计算。 -
混淆矩阵
来源:分类错误分析工具
作用:可视化“错在谁身上”
联系:是定位模型偏差的第一张表。 -
AUC-ROC
来源:工程上对“ROC面积”的习惯写法
作用:强调AUC来自ROC
联系:本质与AUC同义。 -
F1-score
来源:F1的标准命名形式
作用:与F1相同
联系:二者可直接等同理解。 -
交叉验证
来源:小样本评估稳健性需求
作用:减少偶然划分带来的评估偏差
联系:常见是k-fold交叉验证。 -
SSE/SST
来源:回归误差分解
作用:衡量残差与总波动
联系:与 \(R^2\) 公式直接关联。 -
RMSE
来源:MSE的平方根形式
作用:把误差单位还原到原始量纲
联系:便于和业务误差阈值对齐。 -
Precision@K
来源:推荐/检索Top-K评测
作用:只看前K个结果质量
联系:和排序任务高度相关。
5.9 概率统计基础(5)
-
先验/后验
来源:贝叶斯统计
作用:用新证据更新原有信念
联系:由贝叶斯公式连接。 -
熵
来源:信息论
作用:衡量不确定性大小
联系:交叉熵、信息增益都从它发展而来。 -
贝叶斯公式
来源:条件概率恒等变换
作用:把“已知结果反推原因”算清楚
联系:朴素贝叶斯模型的核心公式。 -
最大似然估计(MLE)
来源:统计参数估计理论
作用:找最能解释观测数据的参数
联系:与MAP、EM算法关系密切。 -
条件概率
来源:概率论基础定义
作用:描述“在某条件下事件发生概率”
联系:是贝叶斯公式和朴素贝叶斯的基础。
5.10 数值计算与工程实现(14)
-
迭代收敛
来源:数值求解中的重复逼近思想
作用:判断算法会不会越算越接近答案
联系:和学习率、稳定性、牛顿法等都相关。 -
复杂度分析
来源:算法理论中的增长率分析
作用:估算时间和内存随规模如何变化
联系:常用大O记号表达。 -
绝对误差
来源:误差分析基础定义
作用:直接看“差了多少”
联系:和相对误差一起构成误差评价体系。 -
插值
来源:数值分析中的函数近似方法
作用:用已知点估未知点
联系:拉格朗日插值、样条插值是典型方法。 -
截断误差
来源:无限过程有限化近似
作用:量化“近似步骤”带来的偏差
联系:与迭代步长、级数截断有关。 -
舍入误差
来源:浮点数有限位数表示
作用:解释为什么计算机会有精度损失
联系:与数值稳定性强相关。 -
有效数字
来源:测量与近似计算规范
作用:表达结果可信位数
联系:和绝对/相对误差互相约束。 -
数值稳定性
来源:数值分析核心概念
作用:判断小扰动会不会被算法放大
联系:与病态问题、舍入误差紧密相关。 -
中心差分
来源:导数数值近似公式
作用:用左右点估计导数
联系:通常比前向差分精度更高。 -
拉格朗日插值
来源:经典多项式插值理论
作用:构造通过所有已知点的显式多项式
联系:是插值章节高频基础模型。 -
相对误差
来源:误差标准化定义
作用:衡量误差占真值比例
联系:便于跨量纲比较误差大小。 -
病态问题
来源:问题条件数理论
作用:提醒“问题本身对扰动极敏感”
联系:即使算法正确也可能算不稳。 -
样条插值
来源:分段多项式逼近思想
作用:在拟合和平滑之间折中
联系:常用于避免高次多项式的龙格现象。 -
龙格现象
来源:高次多项式插值研究中的经典现象
作用:提醒高次全局插值可能边缘震荡
联系:引出样条插值等改进方法。
5.11 推荐系统与表示学习(2)
-
嵌入向量
来源:表示学习把离散对象映射到连续空间
作用:把“ID”变成可计算相似度的向量
联系:余弦相似度、矩阵分解、深度推荐都依赖它。 -
矩阵分解
来源:线性代数低秩分解思想在推荐中的应用
作用:把用户-物品偏好拆成两个低维因子
联系:本质是在学习用户和物品的嵌入向量。
6. 这 97 个概念如何形成“刷题最短路径”
- 先判任务(回归/分类/聚类/降维/排序)。
- 再选模型(线性、树、核、概率、聚类)。
- 再定损失和优化(MSE/交叉熵 + GD/SGD/牛顿类)。
- 同步考虑泛化(正则、采样、早停)。
- 最后用正确指标评估(不平衡数据优先 F1/AUC/Recall)。
- 若题目偏工程实现,再看稳定性、误差、复杂度。