如何管理生成式AI

作者丨Dom Couldwell
编译丨诺亚
出品 | 51CTO技术栈(微信号:blog51cto)
根据麦肯锡公司的估计,生成式人工智能预计每年将为全球经济带来2.6万亿至4.4万亿美元的经济效益 。这一预测基于63个新的应用场景,这些场景有望在多个市场中为客户带来改进、效率提升和新产品 。这对于开发者和IT领导者来说都是一个巨大的机遇 。
生成式AI的核心在于数据 。数据赋予了生成式AI理解和分析我们周围世界的能力,并与之互动 , 为其变革性的能力提供动力 。要在生成式AI领域取得成功,公司需要妥善管理和准备数据 。
同时 , 你还需要为构建和运营大规模的AI服务打下基础,并以明智且可持续的方式为生成式AI项目提供资金支持 。缓慢起步并逐渐减弱的方式无法赢得这场人工智能竞赛 。这意味着你不仅要在数据层面做好充分准备 , 还要有策略地扩大AI服务规模,并确保项目资金来源稳定,以支持长期发展和持续创新 。
如果我们不改进数据管理方式,或未能采取正确的方法来应对规模扩大和成本控制问题,那么生成式AI蕴含的巨大潜力将会被白白浪费掉 。以下是一些关于我们如何改进数据管理方法以及如何长期支持生成式AI项目的思考 。
1.数据从哪里来数据以多种形态存在,每种形态的数据如果使用得当,都能提升生成式AI洞察的丰富性和质量 。
第一种形式是结构化数据,它以规则有序且一致的方式组织起来 , 包括产品信息、客户人口统计资料或库存水平等项目 。这类数据提供了有组织的事实基础,可以添加到生成式AI项目中以提高响应的质量 。
此外,您可能还有外部数据源可以补充内部结构化数据源,例如天气报告、股票价格或交通流量等 。这些数据能够为决策过程带来实时和真实世界的背景信息 , 将其融入项目可提供额外高质量数据,但可能没有必要自行生成这类数据 。
另一种常见的数据集是衍生数据,涵盖了通过分析和建模场景创建的数据 。此类深度见解可能包括客户意图报告、季节性销售预测或群体分析等 。
最后一种常见数据形式是非结构化数据,与分析师习惯的常规报告或数据格式不同 , 这类数据包括图像、文档和音频文件等格式 。这些数据捕捉到了人类沟通和表达的细微之处 。生成式AI程序常常围绕图像或音频工作 , 它们是生成式AI模型的常见输入和输出 。
2.要让生成式AI实现大规模应用所有这些多样的数据集各自存在于自己的环境中 。为了使其对生成式AI项目有用,关键在于使这一多样化的数据景观在实时情况下可供访问 。由于涉及如此大量的潜在数据,任何方法都必须能够在需求增长时动态扩展,并在全球范围内复制数据,确保资源在接到请求时能靠近用户,从而避免停机时间并减少交易请求中的延迟 。
此外 , 还需要对这些数据进行预处理,以便生成式AI系统能够有效利用 。这涉及到创建嵌入(embeddings),即代表语义含义的数学值,即向量 。嵌入使得生成式AI系统能够超越特定文本匹配,而是涵盖数据内含的意义和上下文 。无论原始数据形式如何 , 创建嵌入意味着数据能够被生成式AI系统理解并使用,同时保留其意义和上下文 。
通过这些嵌入,企业可以支持跨所有数据的向量搜索或混合搜索 , 同时结合价值和意义 。然后将这些结果收集起来传递回用于整合结果的大规模语言模型(LLM) 。通过从多个源头提供更多数据,而不是仅仅依赖LLM本身,你的生成式AI项目就能为用户提供更准确的结果,并降低虚构内容的风险 。
为了在实践中实现这一点,必须选择正确的底层数据架构 。在这个过程中,应尽可能避免数据分散在不同解决方案中形成碎片化拼凑,因为每一个这样的解决方案都代表着一个需要长期支持、查询和管理的数据孤岛 。用户应该能够快速向LLM提问并迅速得到回应,而不是等待多个组件响应并由模型权衡其结果 。统一的数据架构应当提供无缝的数据集成 , 使生成式AI能够充分利用所有可用的数据频谱 。
3.模块化方法的优势为了扩展生成式AI实施,需要在加快采用速度与保持对关键资产的控制之间取得平衡 。采用模块化的方式来构建生成式AI代理可以使这个过程变得更容易,因为它可以分解实施过程,避免潜在的瓶颈 。    
类似于微服务设计在应用程序中的应用,AI服务的模块化方法也鼓励围绕应用程序和软件设计的最佳实践,消除故障点,并让更多潜在用户能够接触这项技术 。这种方法还使得监控整个企业中AI代理的表现变得更容易,能够更精确地找出问题发生的位置 。


推荐阅读