产品展示
乐鱼体育,关于智算云底层业务逻辑的思考
云计算市场本来已经基本定型:全球三大云服务厂商亚马逊AWS、微软Azure,以及谷歌云,占据了大部分市场;在国内,五大巨头占据大部分市场,分别是阿里云、天翼云、移动云、华为云和腾讯云。
但随着大模型智算的兴起,给整个云计算产业带来了新的变化。行业出现了很多以智算为特色的AI-Infra公司,NVIDIA等芯片公司在探索基于自身算力芯片和生态的智算云,也有一些公司在探索算力网络等业务模式。
我们可以简单的把智算云的底层业务逻辑分为两类:一类是自下而上,如传统的云计算,以硬件资源为基础,服务各行各业的各个场景;另一类是自上而下,如AI-Infra,以业务应用为牵引,基于业务需要,再不断夯实算力基础。
随着AI大模型的发展,常见的算力分层为:机房层、硬件层、IaaS层、CaaS层、PaaS层、MaaS层、解决方案层。这一切分层,都是为了服务客户的业务应用层(部分业务应用系统足够庞大、业务逻辑足够复杂,也可能会继续分层)。
IaaS,Infrastructure as a Service,基础设施即服务。用户通过IaaS服务租用服务器、存储、网络等基础设施,无需购买和维护物理硬件。
CaaS,Containers as a Service,容器即服务。CaaS提供了高效、灵活的方式来运行和管理容器,适用于多种环境,包括本地数据中心、混合云和多云环境。
PaaS,Platform as a Service,平台即服务。PaaS提供开发和部署应用程序所需的平台和工具,用户无需管理底层基础设施(服务器、存储、网络等),只需专注于应用程序的开发和运行。
MaaS,Model as a Service,模型即服务。提供深度学习模型的访问和使用服务。用户可以通过API调用这些预训练或定制模型,无需自行开发或训练,专注于应用集成和业务创新。
解决方案层。为了更好的帮助客户的业务应用落地,围绕某些技术以及针对某些场景,所开发的公版解决方案。
如左图所示,IaaS乐鱼体育,、CaaS、PaaS、MaaS每一层的服务都可以直接对外售卖,因此从下到上每层服务所包含的算力规模会逐渐减少。
如右图所示,按服务数量的分层为倒金字塔:越往下,差异性越小,单个服务的覆盖面越大,服务的数量越少;越往上,差异性越大,单个服务的覆盖面越小,服务的数量越多。底层通用性的服务,各家智算云厂家都差不多,难以形成差异性优势;只有通过更上层的差异性的算力服务,才能更好的帮助到用户,也更容易形成用户粘性。
又如右图所示,从下到上,也是一个算力价值逐渐增大的过程:底层裸算力价值最低,把底层裸算力封装成更上层的算力服务,价值会更高。
软件和硬件,是相互协作密不可分的关系;但两者,谁主谁从,则是在不断演进变化的。
自下而上模式,硬件占据主导地位,硬件资源支撑并定义上层软件业务应用;反过来,自上而下模式,软件业务应用约束并定义底层的软件和硬件资源。
传统的云计算,是一种自下而上的模式。云计算是一种以资源为核心的算力软硬件系统组织方式,整个系统堆栈,从最底层硬件开始,不断的叠加更上层的算力服务,如IaaS、CaaS、PaaS、MaaS等等,以期更好的支撑上层的业务应用。
而新兴的AI-Infra,则是一种自上而下的模式。随着大模型发展,新兴的AI-Infra类的公司,以AI为导向,为上层提供相关的各类MaaS服务。同时,leyucom乐鱼官网,为了更好的支持其MaaS服务,对底层的软硬件进行了一定的优化甚至重构。但这些底层软硬件重构,不影响提供给的上层业务用户的服务接口,业务无感。
完全的从最高层的业务应用出发,不太现实。因为单个业务应用,并不足够构成足够的规模。而以次一层的应用框架层出发,覆盖相近场景所构成的某个具体领域,则是自上而下的典型案例。
模式1,经典公有云,自下而上,以基础资源为核心。公有云也有PaaS、MaaS等更上层服务,但都是以IaaS层资源服务为基础构建。
模式2,AI-Infra,自上而下,聚焦AI和AI+。以AI为核心,构建面向各行各业的高层次的算力服务。
模式3,以芯片架构为基,自下而上,目前主要是NVIDIA在做此尝试。因为距离业务最远,也是最难的一种模式。
模式4,聚焦特定技术领域,自上而下乐鱼体育,。技术背景的公司,可以聚焦在自己擅长的技术领域,以特定技术领域为中心,逐步向外围扩展。
模式5,聚焦特定行业,自上而下。相对于算力服务,更关键的是要能够赋能业务场景落地。于是,一些算力服务企业,深耕特定行业,以此行业特色和丰富的行业场景解决方案为核心竞争力。
模式6,聚焦特定地域,自上而下。各地政府,在探索算力网的业务模式。算力网的主要作用是,统筹当地各种算力资源,也借外部算力为我所用,以此来赋能当地的新经济和重点行业发展。
公有云计算,是以基础资源类服务(IaaS)为核心的,数百项各层次各类服务所组成的算力服务体系。相比通算云,智算云的各项算力服务,可能有升级、有重构,甚至有新增,但算力服务体系的组织架构不会变。
公有云,也有PaaS、MaaS、SaaS等,但本质是仍是一种自下而上的模式:把硬件资源封装成服务,然后再一层层叠加更高层的服务,然后再服务更上层的用户业务应用。
2024年,全球公有云市场规模近6000亿美金。公有智算云是目前最主要的智算云方式。随着大模型智算的兴起,给整个云计算产业带来了新的变化。所有的云计算公司,都在积极的从通算云向智算云公司转型。
最开始,AI可以算作一个技术领域,但随着大模型的兴起,我们走向了AI时代,AI成为了一切业务应用必不可少的基础组件。
本质上,AI属于业务应用层,AI-Infra属于自上而下的模式,属于业务应用(上)定义底层硬件资源(下)的模式。
随着智算算力占比越来越高,以及AI相关上层服务的需求越来越多,AI-Infra越来越成为一个重要的商业形态。未来会涌现越来越多的AI-Infra特色的智算云公司。
几乎所有的云计算巨头都在自研芯片,这给了传统芯片公司很大的压力。NVIDIA作为传统芯片公司的优秀代表,不能坐以待毙:对方侵入了自己的业务范畴,那么自己也需要侵入对方的业务范畴。
第一方面,NVIDIA的数据中心级GPU,通常不单独售卖芯片,主要是以板卡、整机甚至整个智算中心解决方案的方式提供。案例:AI超算工厂,NVIDIA在美国德州和亚利桑那州建设超级计算机制造工厂,整合Blackwell芯片的封装测试与系统组装,目标未来四年生产价值5000亿美元的AI基础设施。
第二方面,NVIDIA的Omniverse平台。Omniverse是一个计算机图形与仿真模拟平台,通过数字孪生技术,结合生成式AI等技术,帮助企业实现虚拟仿真。Omniverse本质上是以NVIDIA GPU为底座的聚焦特定技术领域的智算云,也就是本文中接下来要介绍的模式4。
第三方面,NVIDIA在过去一年中大幅增加了对云服务的投资,承诺在未来几年内至少投入90亿美元用于云计算服务。这包括其2023年推出的DGX Cloud服务,该服务允许云提供商租赁NVIDIA的服务器,并将其作为云服务销售给企业。
第四方面,NVIDIA收购了几家AI-infra公司,以此来增强其在以AI为特色的算力服务方面的技术实力。如NVIDIA近期完成了对Lepton AI的收购,这是一家专注于GPU云服务的初创公司;Lepton AI成立于2023年,其业务模式是租赁NVIDIA GPU服务器(如A100和H100型号),并将其转租给需要高性能计算资源的企业。此次收购也标志着NVIDIA从单纯的芯片制造商向AI基础设施即服务(AIaaS)提供商的战略转型。
NVIDIA以特定芯片(架构)为基础,来构建算力服务,是一种最难的智算云模式(距离最终用算力的客户最远)。除NVIDIA之外,目前,暂未看到有其他芯片厂家在做类似的事情。
第一点,相对于传统公有云自下而上,如AI-Infra一样,模式4-6本质上也是一种自上而下的模式。模式4-6相比AI-Infra模式来说,其整体业务逻辑要更靠近上层一些(AI是业务侧的底座层)。模式4聚焦具体的技术领域,模式5则脱离了技术范畴聚焦了更上层的行业,模式6同样脱离了技术范畴聚焦了特定的地域。
第二点,则是聚焦。公有云,相对来说,规模都比较大,赋能千行百业,走的是“大而全”的模式。而模式4-6,则属于反向而行之,走的是“小而美”的专业化路子:聚焦特定领域、聚焦特定行业或聚焦特定地域。
当然,如果一个智算云企业做大做强了,未来逐步拓展其他领域、其他行业、其他地域也是必然的事情。
一些技术背景的智算云公司,通常以特定技术领域为聚焦范畴,如视频图像领域、安全领域、区块链领域、科学智算领域、边缘智算领域等。
如上图,一个典型的计算架构,包括的处理器资源池有:CPU、GPU、X-AIPU、X-DSA、HPN。X代表具体的领域;X-AIPU,为面向领域特色大模型的AI加速器;X-DSA,为面向其他特定领域的加速器。
优化一:随着领域大模型的成熟,大模型加速逐渐从GPU切换到更加高效低成本的X-AIPU;
优化三:高HPN大带宽低延迟,但也高成本;根据业务需求,合理选择IB、RoCEv2或Eth;支持网络转发可软件编程,和自定义高性能网络协议。
行业有很多,常见的行业有石油、电力、金融、教育、化工、医药、交通等等。每一个单独的行业,仅国内,其算力需求规模,通常都有100亿左右。深耕特定行业,也足以成为一个有足够影响力的智算云公司。
聚焦特定行业的智算云公司,其竞争力不在于IDC、智算硬件、IaaS/CaaS/PaaS等底层算力产品和服务(这些产品,可以标准化,由外部供应商提供),而核心竞争力在于:
面向特定行业的AI大模型,以及相关的MaaS级服务(训练、微调、推理、API调用等);
AI和特定行业特定业务场景的结合,给客户提供完善的从云到边再到端的软硬件综合解决方案;
在“东数西算”大背景下,各地都在如火如荼的建设智算中心。如何把智算中心资源整合,如何更好的消纳算力,如何能更好的提升算力附加值,以及如何更好的赋能业务应用和当地经济发展,则是各地政府都在思考的话题。
政府算力网项目,则是在这个大背景下产生的。目前,全国很多城市都在筹建城市算力网项目,并且在算力网的业务模式探索方面,做了很多的工作。这一模式一旦走通,未来会在全国多地开花。并且会进一步从城市算力网,升格成区域算力网,甚至全国算力网。
我们从下到上,对几种智算云底层逻辑的未来发展进行一个总结(一家之言,仅供参考):
NVIDIA,基于芯片架构的模式。这种模式,我们认为,很难走通。一方面是距离最终的业务客户最远;另一方面,和自己的主要大客户(各类公有云公司)存在竞争关系,这可能进一步加速客户采用其他供应商芯片(或自研各类核心芯片)。
公有云模式。公有云既要专注算力的底层软硬件(AWS等公司自研芯片,自研高性能网络,做非常多的底层优化),还要关注AI为核心的AI-Infra。公有云模式的公司,未来可能分化成两类公司:成为更聚焦AI的AI-Infra,成为更关注底层算力资源的IaaS云公司。
AI-Infra模式。我们认为,在AI时代,AI-Infra会成为最为核心的智算云模式。
差异化模式,模式4-6。一方面,底层云技术的成熟,也包括AI-MaaS层技术的成熟;另一方面,轻模式智算云成为主流,其切入门槛会进一步降低,从目前数十亿投入进一步降低到千万甚至百万级投入。未来会出现非常多的以模式4-6为切入点的公司,更聚焦行业,更聚焦业务,更聚焦客户。