业务|云计算十年:阿里云第三代神龙云服务器如何挑战摩尔定律极限( 二 )


资源的浪费带来了成本的提升 。 正因为性能和成本的问题 , 很多企业上云之后又回到传统IT 。 为了解决这一问题 , 2016年阿里云低调启动了一项代号为“X-Dragon”的项目 。
为什么决定自己做 , 张献涛解释 , 2016年正遇到阿里巴巴这个经济体的业务往云上迁移 , 对产品提出更高要求 。 他们在评估业界同行的芯片之后 , 发现无法满足阿里的业务需求 , 因为其整体设计还是传统的X86架构 。
经历软件虚拟化、通用硬件虚拟化、专用硬件芯片虚拟化三个阶段后 , 2019年推出的第三代神龙架构实现了裸金属服务器、ECS虚拟机等计算平台的架构统一 , 用户可获得高质量的弹性资源 , 贯穿整个IaaS计算平台 , 并在IOPS、PPS等方面提升5倍性能 。
“芯片研发方面是最难的 , 神龙云服务器是一年一代的节奏 , 但整体研发难度很大 。 ”接受经济观察网采访人员采访时 , 张献涛说 , 首先要经得住稳定性的考验 , 毕竟其所服务的是大规模的客户业务 , 大规模做应用 , 十万台、几十万台服务器起步 , 这对于芯片的可靠性和稳定性的要求很高 , 所有芯片 , 尤其是数据方面 , 不能有瑕疵 。 因此 , 尽管去年9月份就已经在云栖大会上发布 , 今年5、6月份才推出产品 。
张献涛说在这个过程中 , 团队更多是在内部的业务场景进行压测 , 例如双十一 , 可以让他们有条件做各种各样的压力测试 。 “所以在整个第三代神龙架构研发的过程中 , 怎样能够在快速的互联网迭代方式下 , 我们要能够解决掉芯片也能够随着用户周期的迭代 , 并且能够确保他的稳定性能 , 在这些方面对我们提出了很大的挑战 。 虽然我们在这个领域可能走的相对来说比较靠前 , 但在这个领域 , 大家面对的挑战 , 我相信基本上是一致的 。 ”
2020年7月 , 阿里云推出第三代神龙云服务器 , 基于神龙架构再次将算力逼向极限 , 相比上一代整体性能提升160% , 提供最多核、最大2086TB内存 , 在多项性能参数中斩获世界第一 。
未来走向
曾经 , 一位在芯片领域从业多年的行业人士就做过这样的比喻:AI算法相当于菜谱、数据是原料、芯片这些就是烹饪的工具 。 这其中 , 数据是核心 。
“做AI芯片最后能够扛下来的 , 都是拥有数据的那些公司 。 ”拥有数据就意味着拥有场景 , 这对于很多芯片公司来说极其重要 , 他们需要这些场景为芯片性能做试验、提升 。
这个逻辑同样也可以用在云计算厂商和传统设备厂商之中 。 正如张献涛所说 , 因为传统设备厂商的需求很多都是来自于云计算厂商 。
事实证明 , 如今那些拥有海量数据(603138,股吧)的巨头们 , 都已经进入自研芯片市场 。 百度和三星合作 , 使用14nm工艺 , 基于自研的XPU神经处理器架构 , 推出昆仑AI芯片;阿里成立平头哥芯片公司 , 推出自研的玄铁910CPU、含光800AI推理芯片 。
“神龙架构发布后 , 带来的优势不仅其他云计算厂商看到了 , 传统的设备厂商、做网卡芯片、做存储芯片的厂商 , 现在都在朝着神龙的架构来做 , 下一代产品的规划 , 其实都是照着神龙的架构演进的 。 ”张献涛觉得很欣慰 , 因为在这样一个关键技术方面不再孤独 , 这个也说明代表了未来的趋势 。
张献涛在采访中表示 , 下一代神龙服务器会从存储的性能以及安全方面有所提升 , “不是说现在不安全 , 是大家对各种各样业务场景的适配 。 就像今天我讲的在可信计算领域、金融领域 , 还有一些合规性的要求 , 这些领域对特殊的加解密算法 , 各种和场景合在一起的需求 , 这些方面的增强 , 我觉得是未来我们第三代会重点去进攻的方向 。 ”
(责任编辑:李显杰 )


推荐阅读