1. 三者的定位与关系🔗
| 名称 | 全称 | 属于什么 | 关键思想 |
|---|---|---|---|
| DNN | Deep Neural Network | 深度神经网络的总称 | 多层全连接 (fully connected) |
| CNN | Convolutional Neural Network | DNN 的一种特化结构 | 局部感受野 + 权值共享 |
| Transformer | (Self-Attention Network) | DNN 的进一步演化 | 全局注意力(全局依赖建模) |
CNN、Transformer 都是 DNN 的特定架构类型, DNN 是“父类”,CNN / Transformer 是“子类”,只是处理方式不同。
2. 结构差异对比🔗
| 特性 | DNN(全连接) | CNN(卷积) | Transformer(注意力) |
|---|---|---|---|
| 输入假设 | 各特征独立(如 tabular 数据) | 有空间局部结构(图像) | 有序列依赖(上下文相关) |
| 连接方式 | 每层所有神经元两两相连 | 局部卷积核滑动 | 全局注意力矩阵 |
| 参数量 | 多(O(n²)) | 少(共享卷积核) | 中等(线性 + 注意力) |
| 感受野 | 全局 | 局部逐步扩大 | 一次全局建模 |
| 可解释性 | 弱 | 强(卷积核可视化) | 中等(attention 可解释) |
| 计算并行性 | 高 | 高 | 高(尤其在 GPU 上) |
| 典型激活函数 | ReLU / Sigmoid | ReLU / LeakyReLU | GELU / ReLU |
| 代表模型 | MLP, AutoEncoder | AlexNet, ResNet | BERT, GPT, ViT |
3. 核心思想与结构直观对比🔗
| 模型 | 结构示意 | 思想 |
|---|---|---|
| DNN | 输入 → FC → FC → 输出 | 用多层非线性叠加逼近任意函数(通用逼近定理) |
| CNN | 卷积 → 池化 → 卷积 → Flatten → FC → 输出 | 用卷积提取局部空间特征(平移不变性) |
| Transformer | Self-Attention → FFN → LayerNorm(×多层) | 用注意力机制直接捕获序列中任意位置间的依赖 |
4. 应用场景🔗
| 场景 | 适合模型 | 理由 |
|---|---|---|
| 表格型数据(结构化) | DNN / MLP | 无空间或时间结构,特征独立 |
| 图像处理 | CNN | 局部相关、平移不变性明显 |
| 视频 / 时序信号 | CNN + RNN / Transformer | 时空信息都有局部依赖 |
| 自然语言处理 (NLP) | Transformer | 长距离依赖显著 |
| 语音识别 / 音频 | CNN(短期) + Transformer(长依赖) | 混合结构表现最好 |
| 跨模态(图文多模态) | Transformer / ViT + CLIP | 注意力可同时捕捉多模态关系 |
5. 演化关系🔗
1980s-2000s: DNN (多层感知机) — 基础结构
2012: CNN (AlexNet) — 图像领域革命
2014: Seq2Seq / Attention — 序列任务突破
2017: Transformer — 通用架构登场 (NLP→视觉→多模态)
2020s: Foundation Models — GPT, CLIP, LLaVA 等统一范式
6. 性能与数据依赖对比(经验规律)🔗
| 模型 | 数据需求 | 参数效率 | 可迁移性 | 典型用例 |
|---|---|---|---|---|
| DNN | 低 | 高效 | 一般 | 小样本结构化任务 |
| CNN | 中 | 非常高 | 较强(特征共享) | 图像分类 / 目标检测 |
| Transformer | 极高 | 稍低(需大数据) | 极强(预训练+微调) | NLP / 视觉 / 多模态 |
7. 总结🔗
| 模型 | 一句话总结 |
|---|---|
| DNN | 通用函数逼近器(没有结构假设) |
| CNN | 视觉专家:捕获局部模式与平移不变性 |
| Transformer | 通用建模器:用注意力捕获全局依赖、可迁移性强 |