Modal还提供每月30美元的优惠,为用户提供了充分的机会来探索和试验部署gpu加速的应用程序,而无需支付前期费用,这也是我们介绍他的一个原因,因为每月目前还能白嫖30美元,哈 。
首先安装:
pip install modal
然后配置modal的运行环境,这一步需要登陆了
modal setup
我们这里的vllm_modal_deploy.py改编Modal的官方教程 。这个脚本最重要的一点是定义GPU 。这里我选择了nvidia T4,因为量化模型非常小:
# https://modal.com/docs/examples/vllm_mixtral import osimport timefrom modal import Image, Stub, enter, exit, gpu, methodApp_NAME = "example-vllm-llama-chat" MODEL_DIR = "/model" BASE_MODEL = "TheBloke/Llama-2-7B-Chat-AWQ" GPU_CONFIG = gpu.T4(count=1)
然后定义运行代码的docker镜像:
vllm_image = ( # https://modal.com/docs/examples/vllm_mixtralImage.from_registry("nvidia/cuda:12.1.1-devel-ubuntu22.04", add_pythnotallow="3.10").pip_install("vllm==0.3.2","huggingface_hub==0.19.4","hf-transfer==0.1.4","torch==2.1.2",).env({"HF_HUB_ENABLE_HF_TRANSFER": "1"}).run_function(download_model_to_folder, timeout=60 * 20) )
定义App:
stub = Stub(APP_NAME)
最后编写预测的类:
class Model:@enter() # Lifecycle functionsdef start_engine(self):import timefrom vllm.engine.arg_utils import AsyncEngineArgsfrom vllm.engine.async_llm_engine import AsyncLLMEngineprint("
【五种搭建LLM服务的方法和代码示例】
推荐阅读
- 睡觉减肥法教你五种终极减肥技巧
- 冬奥会结束最受欢迎的五大美食 冬奥会最受欢迎的五种美食
- 吃桃子的禁忌 五种人群不适合多吃什么水果
- 酵素不减肥,代餐奶昔都坑人!五种网红减肥产品一篇文章全拔草!
- 《城中之城》五个男主五种结局,赵辉入狱,谢致远惨死,陶无忌躺赢
- iPhone Wi-Fi 无法打开?这五种原因及解决方法,让你快速恢复网络!
- Web Components实践:如何搭建一个框架无关的AI组件库
- 《蜘蛛侠4》:进入独立卖票模式?漫威打造新传奇的五种方式
- 莴笋种子催芽方法五种方法 莴笋种子催芽有哪五种方法
- 种植什么最有效益 老中医喜欢养的五种花