VLM (Vision Language Model) 介绍

Mon, 13 Apr 2026 00:00:00 +0000

一、架构概览

VLM 由三个核心组件串联而成：

视觉编码器 Vision Encoder：将原始图像/视频转换为视觉特征向量
模态投影层 Projector：将视觉特征空间映射到语言模型的语义空间，解决"视觉-语言鸿沟"
语言模型 LLM Backbone：理解对齐后的视觉-文本联合表示，生成文本输出

以 InternVL2-2B 为例：

模型	视觉编码器	语言模型	总参数量	推理显存
InternVL2-2B	InternViT-300M	Qwen2-1.5B	~2B	~4.2 GB

输入图像 (支持动态分辨率)
 |
 v
+---------------------------------------------------+
| 动态高分辨率处理 (Dynamic Tiling) |
| · 图像分割: 将大图切分为 N 个 448x448 tile |
| · 网格排列: 支持 1x1 到 6x6 (最多 40 个 tile) |
+---------------------------------------------------+
 | N x (448x448 像素)
 v
+---------------------------------------------------+
| 视觉编码器 (Vision Encoder) |
| InternViT-300M-448px |
| · 参数量: 304M |
| · 层数: 24 层 Transformer |
| · 隐藏维度: 1024 |
| · Patch Size: 14x14 -> 32x32 = 1024 tokens |
| · 位置编码: 2D 绝对位置编码 |
+---------------------------------------------------+
 | 1024 tokens/tile (每个 1024 维)
 | Pixel Unshuffle (空间压缩 4:1)
 v 256 tokens/tile (减少计算量 75%)
+---------------------------------------------------+
| 模态投影层 (MLP Projector) |
| · 类型: 2 层全连接网络 + GELU 激活 |
| · 作用: 视觉空间 (1024d) -> 语言空间 (1536d) |
| · 可学习参数，随机初始化 |
+---------------------------------------------------+
 | 256xN visual tokens (每个 1536 维)
 v
+---------------------------------------------------+
| 语言模型 (LLM Backbone) |
| Qwen2-1.5B-Instruct |
| · 参数量: 1.5B |
| · 架构: Decoder-only Transformer，28 层 |
| · 注意力: 12 头 GQA |
| · 隐藏维度: 1536 / 上下文: 32K / 词表: 151936 |
| · 位置编码: RoPE |
| |
| 输入序列: [ V0..V(256xN) | T0..Tn ] |
| visual tokens text tokens |
+---------------------------------------------------+
 |
 v
输出文本 (自回归生成: 描述 / 问答 / OCR / Grounding)

二、Token 与 Patch

Patch 是将图像分割为小块的基本单元，是模型处理视觉信息的最小粒度。

推理优化 on John Chen's blog

VLM (Vision Language Model) 介绍

一、架构概览

二、Token 与 Patch