目录
- 背景和价值
- 一、早期奠基与深度学习兴起(1998-2013年)
- 二、经典CNN蓬勃发展(2014-2016年)
- 三、效率优化与轻量化(2017-2019年)
- 四、Transformer与多模态革命(2020年至今)
- (一)纯Transformer架构
- (二)端到端检测与分割
- (三)多模态与跨模态学习
- 五、生成式AI与基础模型(2022年至今)
- 六、无监督与对比学习
- 技术演进趋势
- 参考资料
背景和价值
计算机视觉(CV)模型的发展历经多个技术突破阶段,从早期的卷积神经网络到近年来的多模态和生成式模型,每个阶段都涌现出具有里程碑意义的主流模型。以下是结合最新进展的全面梳理:
一、早期奠基与深度学习兴起(1998-2013年)
- LeNet-5(1998):首个成功的CNN架构,通过卷积层+池化层组合实现手写数字识别,奠定了CNN的基础框架。
- AlexNet(2012):ImageNet竞赛中以远超第二名的准确率夺冠,首次证明深度CNN在大规模数据上的有效性,引入ReLU激活函数和Dropout技术。
- ZFNet(2013):通过调整卷积核尺寸和步长优化AlexNet,提升特征提取能力,成为后续模型的重要参考。
二、经典CNN蓬勃发展(2014-2016年)
- VGG系列(2014):通过堆叠3×3小卷积核加深网络,结构简洁且特征表达能力强,VGG16/19成为图像分类的经典基线。
- GoogleNet(Inception v1,2014):提出Inception模块,并行不同尺度卷积和池化,在减少参数量的同时提升模型容量,开创多分支网络设计。
- ResNet系列(2015):引入残差连接解决梯度消失问题,支持训练数百层的超深网络,ResNet-50/101成为CV领域最广泛使用的主干网络。
- DenseNet系列(2016):密集连接机制复用特征并缓解梯度消失,以更少参数实现更高性能,在医学影像等领域表现突出。
三、效率优化与轻量化(2017-2019年)
- MobileNet系列(2017-2019):采用深度可分离卷积大幅降低计算量,适用于移动端和嵌入式设备,MobileNetV3通过注意力机制进一步优化。
- EfficientNet系列(2019):通过复合缩放策略平衡网络深度、宽度和输入分辨率,在ImageNet等任务上实现效率与精度的最优平衡。
四、Transformer与多模态革命(2020年至今)
(一)纯Transformer架构
- Vision Transformer(ViT,2020):首次将Transformer直接应用于图像分类,通过分块和位置编码处理图像序列,在大规模预训练后性能超越CNN。
- Swin Transformer(2021):引入层次化窗口注意力机制,支持动态调整感受野,在图像分类、目标检测等任务中刷新SOTA,成为第二代CV大模型的代表。
(二)端到端检测与分割
- DETR系列(2020):用Transformer和二分图匹配实现端到端目标检测,无需Anchor设计,Deformable DETR进一步优化收敛速度和精度。
- Segment Anything Model(SAM,2023):Meta提出的零样本分割模型,通过提示词(文本/点/框)实现任意物体分割,推动通用视觉模型发展。
(三)多模态与跨模态学习
- CLIP(2021):OpenAI提出的对比学习框架,对齐4亿图文对的嵌入空间,支持零样本分类和跨模态检索,例如根据“一只坐在键盘上的橘猫”文本描述匹配图像。
- ALBEF(2021):通过动量蒸馏和对比学习优化图文对齐,在图文检索任务上超越CLIP,推理速度更快。
- BLIP/BLIP-2(2021-2022):结合图像-文本匹配、描述生成和遮蔽建模,在视觉问答、图像标注等任务中表现优异,支持多模态生成。
- DALL·E系列(2021-2023):基于扩散模型和Transformer的生成式模型,实现从文本到图像的创意生成,DALL·E 3可生成更逼真的细节。
五、生成式AI与基础模型(2022年至今)
- 扩散模型(2022):通过逐步去噪过程生成高质量图像,Stable Diffusion等开源模型推动生成式AI普及,支持文本引导的图像创作。
- 基础模型(Foundation Models):如Google的Florence,通过统一架构支持图像分类、检测、分割等多任务,实现模型参数的高效复用。
六、无监督与对比学习
- MoCo(2020):通过动量编码器构建动态字典,在ImageNet上实现接近监督学习的性能,推动无监督预训练发展。
- SimCLR(2020):简化对比学习框架,通过数据增强和非线性投影提升特征质量,成为无监督CV的重要基线。
技术演进趋势
- 多模态融合:CLIP、ALBEF等模型打破模态壁垒,未来将进一步结合视频、音频等多模态数据。
- 零样本/少样本学习:SAM、CLIP等模型降低对标注数据的依赖,推动CV应用向长尾场景扩展。
- 生成式与创造性:DALL·E、Stable Diffusion等模型从模仿走向创造,赋能设计、艺术等领域。
- 通用视觉模型:SAM、Florence等模型追求单一模型解决多种任务,趋近于人类级别的视觉理解。
这些模型的发展不仅推动了学术研究的进步,也深刻影响了工业界应用,从自动驾驶到内容创作,CV技术正在重塑多个行业的格局。
