抖音团队在用的大模型服务平台"火山方舟",我们也上手体验了一把( 二 ) _火山方舟

对于这些有复杂需求的场景，企业客户只需手动设置高级参数、验证集、测试集等，更自由地使用模型精调功能。平台也会给出总训练费用预估作为参考：

文章插图
在平台中，企业客户可以记录下每一次的精调版本：

文章插图
模型评估环节也是火山方舟重点关注的一环，包括数据准备、指标定义以及人工评估和自动化评估等诸多全方位的工具。
在火山方舟平台上，模型在发起精调任务的同时将进行自动化评估，精调的效果和运行指标也将在平台实时跟踪。
从下图中能看到，各项评测指标在精调前后的变化：

文章插图
同时，火山引擎提供安全互信的推理方案，保障模型提供商与模型使用者的模型与数据安全，客户可直接使用模型供应方已部署的在线服务或便捷地将精调模型部署为在线服务。
做好大模型服务，还需要解决三个问题
大模型领域的百花齐放，不仅仅带来了算力需求的大幅增长，还让人们意识到：模型也可以成为一种资产。
在现场，谭待分享了自己眼中「做好大模型面临的三个问题」，这也是火山方舟大模型服务平台希望解决好的三个问题。
第一个问题是「安全和信任」。
相比于以往「自产自销」的 AI 模型，今天的大语言模型突出了「模型作为资产」的重要性。模型提供商提供了模型参数和模型结构，自然希望保护知识资产，避免千辛万苦研发出来的核心技术泄露；而模型使用方希望调用模型的输入和输出不被获取和记录，保护自己核心的业务数据、精调数据不会泄露。「资产」能否获得合格的保护，将深刻影响大模型应用的市场格局。
针对这个问题，火山方舟面向不同的业务场景和需求，将安全沙箱与三方审计、硬件支持、联邦学习三种流派将融合为多套方案，为大模型服务商和应用企业提供了双向的信任机制。
目前，平台已经上线了基于安全沙箱的大模型安全互信计算方案，利用计算隔离、存储隔离、网络隔离、流量审计等方式，实现了模型的机密性、完整性和可用性保证，适用于对训练和推理延时要求较低的客户。同时还在探索基于 NVIDIA 新一代硬件支持的可信计算环境、基于联邦学习的数据资产分离等多种方式的安全互信计算方案，更全面地满足大模型在不同业务场景的数据安全要求。

文章插图
第二个问题是「性价比」。
未来的大模型市场必然是百花齐放的生态，在这样一个生态系统中，可能同时存在少数的超级大模型、多个中等规模的大模型和无数面向具体行业的垂类模型。超大的基座模型未必能够搞定一切，有时候，一个经过良好 f.NETune 的小模型，在垂直领域的一项特定任务上的表现可能不亚于一个通用的大基座模型，但推理成本能降低到原来的十分之一。
对于企业客户来说，这意味着解决实际业务场景问题可能需要一套「组合拳」，对于大模型的应用会呈现出「1+N」的应用模式。
不过，挑战也是一目了然的：首先，选择和决策的过程会非常复杂，逐家试用反而会导致更高的成本；其次，如何做 prompt、如何组织 metric 和数据集、如何科学地 fine-tuning，也需要一些经验和技术的积累才能完成。
在真实的应用场景里面，成本和收益的比例是无法绕过的问题，所以选择大模型优先要考虑性价比。只有把模型的推理成本做到足够低，才能让大模型真正地被广泛使用起来。
火山方舟丰富的模型精调和评测支持可以让这件复杂的事情简单化，企业用统一的工作流对接多家大模型，可设置高级参数、验证集、测试集等功能，再通过自动化和人工评估直观对比模型精调效果，在不同业务场景里还可灵活切换不同的模型，实现最具性价比的模型组合。这些自定义指标和评估数据的积累，也将成为企业在大模型时代宝贵的数据资产。
第三个问题是「生态系统」。如果大语言模型被比喻为 CPU，那么火山方舟要做的事情就是制造出整块主板，丰富下游服务，进一步提升大模型的落地表现。
后续计划包括两项：首先，工具链和下游应用插件需要持续完善。火山方舟团队将基于大模型基座的理解能力和规划能力打造工具链，提供大量的插件并为每个插件配套数据集；其次，打造垂直领域模型的微服务网络，内置包括图像分割、语音识别等众多专业模型，便于企业客户随时调用、自由组合。