vLLM 与 bge-m3
huggingface上的 bge-m3 是 pytorch 模型,而 vLLM 喜欢 safetensors。好在讨论区已经有自动转换bot给出了pr:Adding safetensors
variant of this model。那么用huggingface-cli下载到本地,通过指定revision的方式就可以了:
1 | huggingface-cli download BAAI/bge-m3 --revision refs/pr/116 --exclude pytorch_model.bin --local-dir ./bge-m3 |
而 vLLM serve 的命令是:
1 | VLLM_ATTENTION_BACKEND=FLASH_ATTN VLLM_USE_V1=0 vllm serve bge-m3 --max-num-seqs 2 \ |