What

  • 모델 배포 과정을 간소화하는 오픈 소스 도구
    • 기존 모델 배포 과정은 복잡하고 비용이 많이 듬
  • PageAttention: 효율적인 LLM 메모리 관리
  • Hugging Face 호환: pre-trained model or 미세조정(finetuned models) 모델 쉽게 활용 가능
  • 거의 모든 오픈 소스 모델 지원

vllm으로 모델 서빙과 배포

!pip install vllm
!pip install -U "huggingface_hub[cli]"
!pip install langchain-openai
!nohup vllm serve Qwen/Qwen3-8B --dtype auto --api-key token-abc123 &

from openai import OpenAI

api_key = "token-abc123
api_base = "http://localhost:8000/v1"

langchain_model = ChatOpenAI(
	api_key=api_key,
	base_url=api_base,
	model="Qwen3-8B",
	temperature=0,
	streaming=True,
)

Resources