1. 三者的定位与关系🔗

名称全称属于什么关键思想
DNNDeep Neural Network深度神经网络的总称多层全连接 (fully connected)
CNNConvolutional Neural NetworkDNN 的一种特化结构局部感受野 + 权值共享
Transformer(Self-Attention Network)DNN 的进一步演化全局注意力(全局依赖建模)

CNN、Transformer 都是 DNN 的特定架构类型, DNN 是“父类”,CNN / Transformer 是“子类”,只是处理方式不同。

2. 结构差异对比🔗

特性DNN(全连接)CNN(卷积)Transformer(注意力)
输入假设各特征独立(如 tabular 数据)有空间局部结构(图像)有序列依赖(上下文相关)
连接方式每层所有神经元两两相连局部卷积核滑动全局注意力矩阵
参数量多(O(n²))少(共享卷积核)中等(线性 + 注意力)
感受野全局局部逐步扩大一次全局建模
可解释性强(卷积核可视化)中等(attention 可解释)
计算并行性高(尤其在 GPU 上)
典型激活函数ReLU / SigmoidReLU / LeakyReLUGELU / ReLU
代表模型MLP, AutoEncoderAlexNet, ResNetBERT, GPT, ViT

3. 核心思想与结构直观对比🔗

模型结构示意思想
DNN输入 → FC → FC → 输出用多层非线性叠加逼近任意函数(通用逼近定理)
CNN卷积 → 池化 → 卷积 → Flatten → FC → 输出用卷积提取局部空间特征(平移不变性)
TransformerSelf-Attention → FFN → LayerNorm(×多层)用注意力机制直接捕获序列中任意位置间的依赖

4. 应用场景🔗

场景适合模型理由
表格型数据(结构化)DNN / MLP无空间或时间结构,特征独立
图像处理CNN局部相关、平移不变性明显
视频 / 时序信号CNN + RNN / Transformer时空信息都有局部依赖
自然语言处理 (NLP)Transformer长距离依赖显著
语音识别 / 音频CNN(短期) + Transformer(长依赖)混合结构表现最好
跨模态(图文多模态)Transformer / ViT + CLIP注意力可同时捕捉多模态关系

5. 演化关系🔗

1980s-2000s:  DNN (多层感知机) — 基础结构
2012:         CNN (AlexNet) — 图像领域革命
2014:         Seq2Seq / Attention — 序列任务突破
2017:         Transformer — 通用架构登场 (NLP→视觉→多模态)
2020s:        Foundation Models — GPT, CLIP, LLaVA 等统一范式

6. 性能与数据依赖对比(经验规律)🔗

模型数据需求参数效率可迁移性典型用例
DNN高效一般小样本结构化任务
CNN非常高较强(特征共享)图像分类 / 目标检测
Transformer极高稍低(需大数据)极强(预训练+微调)NLP / 视觉 / 多模态

7. 总结🔗

模型一句话总结
DNN通用函数逼近器(没有结构假设)
CNN视觉专家:捕获局部模式与平移不变性
Transformer通用建模器:用注意力捕获全局依赖、可迁移性强