五种搭建LLM服务的方法和代码示例( 二 )


Modal还提供每月30美元的优惠,为用户提供了充分的机会来探索和试验部署gpu加速的应用程序,而无需支付前期费用,这也是我们介绍他的一个原因,因为每月目前还能白嫖30美元,哈 。
首先安装:
pip install modal然后配置modal的运行环境,这一步需要登陆了
modal setup我们这里的vllm_modal_deploy.py改编Modal的官方教程 。这个脚本最重要的一点是定义GPU 。这里我选择了nvidia T4,因为量化模型非常小:
# https://modal.com/docs/examples/vllm_mixtral import osimport timefrom modal import Image, Stub, enter, exit, gpu, methodApp_NAME = "example-vllm-llama-chat" MODEL_DIR = "/model" BASE_MODEL = "TheBloke/Llama-2-7B-Chat-AWQ" GPU_CONFIG = gpu.T4(count=1)然后定义运行代码的docker镜像:
vllm_image = ( # https://modal.com/docs/examples/vllm_mixtralImage.from_registry("nvidia/cuda:12.1.1-devel-ubuntu22.04", add_pythnotallow="3.10").pip_install("vllm==0.3.2","huggingface_hub==0.19.4","hf-transfer==0.1.4","torch==2.1.2",).env({"HF_HUB_ENABLE_HF_TRANSFER": "1"}).run_function(download_model_to_folder, timeout=60 * 20) )定义App:
stub = Stub(APP_NAME)最后编写预测的类:
class Model:@enter() # Lifecycle functionsdef start_engine(self):import timefrom vllm.engine.arg_utils import AsyncEngineArgsfrom vllm.engine.async_llm_engine import AsyncLLMEngineprint("
【五种搭建LLM服务的方法和代码示例】


推荐阅读