2025-04-24

AI相关的探索经验

vLLM 与 bge-m3

huggingface上的 bge-m3 是 pytorch 模型，而 vLLM 喜欢 safetensors。好在讨论区已经有自动转换bot给出了pr：Adding safetensors variant of this model。那么用huggingface-cli下载到本地，通过指定revision的方式就可以了：

1	huggingface-cli download BAAI/bge-m3 --revision refs/pr/116 --exclude pytorch_model.bin --local-dir ./bge-m3

而 vLLM serve 的命令是：

VLLM_ATTENTION_BACKEND=FLASH_ATTN VLLM_USE_V1=0 vllm serve bge-m3 --max-num-seqs 2 \
    --enforce-eager \
    --task embed \
    --disable-log-requests \
    --swap-space 0 \
    --gpu-memory-utilization 0.2 \
    --served-model-name bge-m3