做网站中app客户端,合肥seo外包平台,巧家县城乡建设局网站,在北京哪家公司建网站合适vLLM初识#xff08;一#xff09; 前言 
在LLM推理优化——KV Cache篇#xff08;百倍提速#xff09;中#xff0c;我们已经介绍了KV Cache技术的原理#xff0c;从中我们可以知道#xff0c;KV Cache本质是空间换时间的技术#xff0c;对于大型模型和长序列#xf…vLLM初识一 前言 
在LLM推理优化——KV Cache篇百倍提速中我们已经介绍了KV Cache技术的原理从中我们可以知道KV Cache本质是空间换时间的技术对于大型模型和长序列它可能会占用大量内存。实际上LLM从诞生之初就在与内存作斗争只是计算时间问题更加尖锐掩盖了这一部分。随着研究的推进内存问题也变得越来越突出。 
vLLM提出了PagedAttention方法尝试通过将 KV 缓存划分为可通过查找表访问的块来优化内存使用。因此KV 缓存不需要存储在连续内存中并且根据需要分配块。内存效率可以提高内存受限工作负载上的 GPU 利用率因此可以支持更多推理批处理。我接下来就使用几篇博客来初步了解一下vLLM。 
vLLM初探 
vLLM 是一个快速且易于使用的库用于 LLM 推理和服务。 
vLLM速度很快具有以下特点 
最先进的服务吞吐量使用 PagedAttention 高效管理注意力键和值内存连续批处理传入请求使用 CUDA/HIP 图快速执行模型量化GPTQ、AWQ、SqueezeLLM、FP8 KV 缓存优化的 CUDA 内核 
vLLM 灵活且易于使用 
与流行的 HuggingFace 型号无缝集成使用各种解码算法提供高吞吐量服务包括并行采样、波束搜索等面向分布式推理的张量并行性和流水线并行性支持面向分布式推理的张量并行性和流水线并行性支持流式输出兼容 OpenAI 的 API 服务器支持 NVIDIA GPU 和 AMD GPU 
安装 
为了提高性能vLLM编译了许多cuda内核。该编译引入了与其他 CUDA 版本和 PyTorch 版本的二进制不兼容。安装时务必注意cuda版本和pytorch版本。 
# Install vLLM with CUDA 12.1.
pip install vllm# Install vLLM with CUDA 11.8.
export VLLM_VERSION0.4.0
export PYTHON_VERSION310
pip install https://github.com/vllm-project/vllm/releases/download/v${VLLM_VERSION}/vllm-${VLLM_VERSION}cu118-cp${PYTHON_VERSION}-cp${PYTHON_VERSION}-manylinux1_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118从源代码构建 
git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .  # This may take 5-10 minutes.使用docker镜像 
# Use --ipchost to make sure the shared memory is large enough.
docker run --gpus all -it --rm --ipchost nvcr.io/nvidia/pytorch:23.10-py3