AI相关的探索经验

vLLM 与 bge-m3

huggingface上的 bge-m3 是 pytorch 模型,而 vLLM 喜欢 safetensors。好在讨论区已经有自动转换bot给出了pr:Adding safetensors variant of this model。那么用huggingface-cli下载到本地,通过指定revision的方式就可以了:

1
huggingface-cli download BAAI/bge-m3 --revision refs/pr/116 --exclude pytorch_model.bin --local-dir ./bge-m3

而 vLLM serve 的命令是:

1
2
3
4
5
6
7
VLLM_ATTENTION_BACKEND=FLASH_ATTN VLLM_USE_V1=0 vllm serve bge-m3 --max-num-seqs 2 \
--enforce-eager \
--task embed \
--disable-log-requests \
--swap-space 0 \
--gpu-memory-utilization 0.2 \
--served-model-name bge-m3