willcool4ever • DNN CNN Transformer

1. 三者的定位与关系🔗

名称	全称	属于什么	关键思想
DNN	Deep Neural Network	深度神经网络的总称	多层全连接 (fully connected)
CNN	Convolutional Neural Network	DNN 的一种特化结构	局部感受野 + 权值共享
Transformer	（Self-Attention Network）	DNN 的进一步演化	全局注意力（全局依赖建模）

CNN、Transformer 都是 DNN 的特定架构类型， DNN 是“父类”，CNN / Transformer 是“子类”，只是处理方式不同。

2. 结构差异对比🔗

特性	DNN（全连接）	CNN（卷积）	Transformer（注意力）
输入假设	各特征独立（如 tabular 数据）	有空间局部结构（图像）	有序列依赖（上下文相关）
连接方式	每层所有神经元两两相连	局部卷积核滑动	全局注意力矩阵
参数量	多（O(n²)）	少（共享卷积核）	中等（线性 + 注意力）
感受野	全局	局部逐步扩大	一次全局建模
可解释性	弱	强（卷积核可视化）	中等（attention 可解释）
计算并行性	高	高	高（尤其在 GPU 上）
典型激活函数	ReLU / Sigmoid	ReLU / LeakyReLU	GELU / ReLU
代表模型	MLP, AutoEncoder	AlexNet, ResNet	BERT, GPT, ViT

3. 核心思想与结构直观对比🔗

模型	结构示意	思想
DNN	输入 → FC → FC → 输出	用多层非线性叠加逼近任意函数（通用逼近定理）
CNN	卷积 → 池化 → 卷积 → Flatten → FC → 输出	用卷积提取局部空间特征（平移不变性）
Transformer	Self-Attention → FFN → LayerNorm（×多层）	用注意力机制直接捕获序列中任意位置间的依赖

4. 应用场景🔗

场景	适合模型	理由
表格型数据（结构化）	DNN / MLP	无空间或时间结构，特征独立
图像处理	CNN	局部相关、平移不变性明显
视频 / 时序信号	CNN + RNN / Transformer	时空信息都有局部依赖
自然语言处理 (NLP)	Transformer	长距离依赖显著
语音识别 / 音频	CNN（短期） + Transformer（长依赖）	混合结构表现最好
跨模态（图文多模态）	Transformer / ViT + CLIP	注意力可同时捕捉多模态关系

5. 演化关系🔗

1980s-2000s:  DNN (多层感知机) — 基础结构
2012:         CNN (AlexNet) — 图像领域革命
2014:         Seq2Seq / Attention — 序列任务突破
2017:         Transformer — 通用架构登场 (NLP→视觉→多模态)
2020s:        Foundation Models — GPT, CLIP, LLaVA 等统一范式

6. 性能与数据依赖对比（经验规律）🔗

模型	数据需求	参数效率	可迁移性	典型用例
DNN	低	高效	一般	小样本结构化任务
CNN	中	非常高	较强（特征共享）	图像分类 / 目标检测
Transformer	极高	稍低（需大数据）	极强（预训练+微调）	NLP / 视觉 / 多模态

7. 总结🔗

模型	一句话总结
DNN	通用函数逼近器（没有结构假设）
CNN	视觉专家：捕获局部模式与平移不变性
Transformer	通用建模器：用注意力捕获全局依赖、可迁移性强