专家交流:GB300服务器与Rubin架构GPU的核心_安博体育能玩吗/安博电竞app安卓版-安博ios官网下载
专家交流:GB300服务器与Rubin架构GPU的核心
来源:安博体育能玩吗    发布时间:2025-02-14 08:05:30
详情

  在当今科技前沿的服务器与GPU领域,诸多关键要素犹如精密的齿轮,相互咬合,驱动着总系统高效运转,它们对于系统性能、后续演进均起着无可替代的关键作用,可以让我们深入剖析。

  且看Socket在芯片中所扮演的关键角色。Socket仿若芯片的专属“科技基座”,恰似为承载芯片量身打造的稳固“港湾”,类比于承载食物的餐盘,其重要性不言而喻。它借助内部的pin针与芯片引脚精准对接,从而搭建起数据与信号传输的“高速通道”。形象地说,数据运算宛如飞驰的“信息流”,通过pin针顺畅地涌入GPU芯片内部完成处理,而后运算结果又沿着引脚有序输出。引脚功能多元且强大,既能为芯片提供源源不断的电能供应,又能充当连接CPU、网卡等外围设备的“桥梁”,确保各组件之间实现无缝的数据交互。Socket更是肩负起将二维平面的芯片与主板紧密相连的重任,使得GPU或CPU得以与主板之间构筑起稳定且高效的数据链路。相较于传统的SMT(贴片焊接)方式,Socket这种插槽式设计无疑展现出了卓越的便利性,芯片能够轻松嵌入Socket插座,而在面临维修、升级等需求时,亦可便捷地拔出,极大地优化了硬件的组装、维护以及升级流程,宛如为硬件系统赋予了灵活应变的“超能力”。

  一般而言,GPU芯片的引脚数量往往在1000个以上,这些密密麻麻的引脚如同芯片的“神经网络”,分布于单颗GPUdie之上,肩负着供电、数据传输以及连接外围设备等多重使命。以GB200为例,在其一个节点架构中,涵盖两组superchip,而每个superchip又巧妙集成了两个GPUdie与一个CPUdie,如此一来,一个GB200节点总计包含四个GPUdie和两个CPUdie。在此种配置之下,每个节点便需要借助四个GPUsocket和两个CPUsocket来完成硬件层面的完美连接,构建起一个协同运作的“科技矩阵”。

  此Socket封装绝非传统的SMT贴片工艺,它更像是台积电精心打造的一种“芯片封装艺术”,先是对整个GPU芯片进行全方位封装,待芯片封装完毕后,在OEM厂商端着手主板制造,进而完成GPU芯片与主板的组装整合。得益于Socket的存在,无需再通过SMT工艺将芯片焊接至主板,而是凭借Socket形式直接实现高效组装,且在拆卸时亦展现出便捷性,为整个硬件制造与维护环节注入了科技化的“灵动因子”。

  谈及SMT工艺,早期主要由富士康担纲负责,诸如早期的H卡和A卡产品均采用这一工艺模式。不过,彼时这一些产品并未采用Socket,而是将GPU直接焊接于底板之上,并辅以坚固的外框做加固,旨在避免运送过程中也许会出现的损坏风险。以GB200系列为例,其设计架构中摒弃了pin针,直接将芯片焊接到主板,同时依靠外框提供额外保护,内部并不存在引脚结构。然而,在后续诸如Rubin等产品的迭代中,逐步引入了插槽式Socket设计,这一设计变革宛如一场“科技革新风暴”,带来诸多优势,不仅简化了组装流程,还极大提升了市场适配性,更打破了以往像纬创或富士康等少数厂商对底板制造的垄断局面,降低了对单一厂商生产能力的依赖程度。大型OEM厂商凭借成熟的SMT工艺水平,能保证生产质量的高度一致性,为总系统的稳定运行筑牢根基;而小型厂商受限于经验不足,技术水平尚有待提升,需进一步强化制造能力,方可在激烈的市场之间的竞争中崭露头角。

  实则在早期阶段,整体市场需求量相对有限,若将有限的产能分散至众多厂商,必然导致端到端成本水涨船高。因此,权衡之下通常选择一到两家供应商,以此有效缓解供应链压力。就如2023年,纬创因自身产能不足,便将部分底板生产任务转移至富士康新增的产能板块。对于SMT工艺而言,即便数百万片的订单量,放在整个产业规模中亦算不上庞大。

  一旦未来主板市场迎来开放格局,各大ODM厂商便能凭借自身实力自主完成更多部件的设计与制造工作,进而实现利润率的显著提升。以售价处于290万至300万美元区间的机柜产品为例,ODM厂商当前整体纯利润大致在7万至10万美元左右。若主板授权得以放开,预计净利润有望提升30%左右,当然,这一提升幅度因厂商而异,像富士康由于涉及更多部件,其利润率相较于其他竞争者或许更具优势,犹如在这场“科技利润博弈”中占据了有利地形。

  这一过程需同时获得英伟达(NV)的官方许可,并顺利通过美国政府的严格审查,涵盖客户备案、政策合规性检查,诸如BIS调查等一系列严谨程序。唯有成功通过上述审查环节,产品诸如GB200或GB300方可正式交付市场。有必要注意一下的是,美国政府对部分企业,例如Supermicro的严格审查,已致使其交付周期大幅延长,甚至会出现订单取消的情况。由此可见,未来若要正式销售相关这类的产品,拿到NV授权并通过美国政府审查,已然成为不可或缺的关键步骤,毕竟客户需完成备案且获得政府认可,方能开启GB200或GB300等产品的销售之旅。

  当下,ODM厂商主要负责研发、集成、生产测试、包装和运输等多个环节,然而核心部件大多依赖外部采购。在GB200产品层面,ODM厂商利润获取的关键环节在于集成测试部分,这一环节倾注了大量资源,前期需紧密配合NV客户端开展需求对接、前期研发测试等工作,相应投入成本亦会分摊至产品报价之中。诸如GBSuperchip、液冷组件、冷板、manifold、电缆、DPU网卡以及风扇等关键组件皆需从外部采购。因而,GB200阶段的ODM厂商更像是专业的集成服务提供者,其前期研发投入侧重于需求对接和测试环节,并非聚焦于核心技术开发,这也导致整体利润空间相对受限,不过富士康凭借自身优势,在此方面可能略胜一筹,在这场“科技利润版图”中分得相对更多的份额。

  Rubin预计将于2026年重磅登场,其具备诸多亮眼的科技特性。在插槽设计方面,依旧沿用先进的socket工艺,而在网络端,更是创新性地引入光缆互联CPO技术,旨在逐步替代传统的铜缆连接方式,尽管目前该项技术仍处于研发攻坚阶段,但已然展现出巨大的应用潜力。这一技术变革有望显著削减信号衰减,极大拓展传输距离,为数据的高速、稳定传输开辟全新“科技通道”。在电源部分,功率将从现有的5.5千瓦跃升至约10千瓦,以充分满足日渐增长的高功耗需求,助力系统在高强度运算场景下稳定运行。当前,GB200和GB300采用24个或36个5.5千瓦的电源模块,而Rubin凭借更高功率电源的应用,不仅仅可以提升系统可靠性与性能表现,还能因单个电源功率提升而减少电源数量,从而释放出更多宝贵空间,用以安置计算节点(compute)和NVSwitch节点,打造出更为紧凑且高效的内部结构。以Rubin机柜为例,通过多个机柜巧妙组网,可构建起一个强大的整体GPU系统,实现288块GPU卡的互联互通,这一设计无疑是对空间利用率和计算能力的一次重大“科技优化升级”。

  此前提及的24和36个电源配置,是否是GB200和GB300的本质区别?

  实则不然,GB200最低配置大约为24个电源,每个电源功率为5.5千瓦。而GB300系列则可依据业务负载需求灵活选择电源配置,可选用24个5.5千瓦的电源,亦能按需增加冗余配置,特别是在负载处于90%-100%且对可靠性要求颇高的场景下,增加冗余配置能够有很大成效避免因单点故障引发的运算中断或系统关机风险,确保整个运算过程的连续性和稳定能力,犹如为系统构筑起一道坚固的“科技防线kW的方案?

  答案是其电源方案并无太大变动,它可选择5.5千瓦乘以24、5.5千瓦乘以36甚至乘以48等多种配置模式,不过需结合具体业务需求来做抉择,且电源数量不能低于24个。然而,考虑到成本因素,每台5.5千瓦电源的造价约为1万元人民币或2000美元,受此影响,客户通常会将24或36台电源作为主流选择方案,48台电源的配置相对较为少见,成为这场“科技成本考量”中的小众选项。

  就目前而言,单个机柜所需电源数量通常不会少于16个,这是由于其采用并柜设计,相当于构建一个大型的集成机柜,需配置四个机柜以及四个电源框,每个电源框大约涵盖16个电源,综合计算下来,总共约需64个电源左右,这些电源如同“科技能量源”,为总系统提供强劲动力支持。

  这是因为系统内部实则划分了多个电源框,而后进行合并整合。鉴于当前并无超大尺寸机柜能够一次性容纳如此众多的GPU芯片,所以一定要采用分柜运行的模式,将运输、工厂测试等环节分别开展,直至最终交付至客户机房时,再将各个机柜进行并柜操作,使其形成一个具备288块GPU卡的完整机柜。并且,客户在购买时没有办法进行拆分采购,最低采购单位即为288块GPU卡,是因为机柜内部的各项参数、互联设置等均是按照288块GPU卡的规模进行统一规划与配置的,由此也凸显出Rubin与GB系列在设计理念上的显著差异,GB200或GB300可支持单独购买一个机柜,而Rubin下一代产品则更倾向于以整体并柜的形式呈现,犹如一个“科技巨舰”,承载着更强大的运算能力。

  从技术发展的新趋势来看,Rubin系统大概率会采用高压直流供电方案,这一方案相较于传统交流供电,宛如一场“能源革命”,能够明显提升能源转换效率,大幅度降低能耗成本,为总系统的绿色、高效运行提供有力支撑。服务器的稳定运行离不开电源的有力保障,若电源具备支持HVDC高压直流的功能,那么在多数情况下均可满足系统供电需求。此前,在部分产品的部署场景中,高压直流供电已得到一定应用,非常适合于核心机房环境。不过,对于中小机房而言,由于其变压器等基础设施往往并不支持高压直流,整个机房配套设施也缺乏相应支持,所以未来Rubin系统将主要使用在于核心数据中心、核心机房等具备相应条件的场所,从而充分的发挥其高压直流供电的“科技优势”。

  据专业推测,Rubin系统有望实现100%的高压直流覆盖,这主要归因于其整体功耗极为庞大,高压直流供电不仅仅可以有效削减能源损耗,还能完美契合超大规模计算对于稳定性和效率的严苛要求,成为保障系统高效运转的“科技密钥”。

  高压直流属于柜外方案,更多地由CSP厂商进行决策,目前已知Meta似乎已确定采用该方案,而其余三家的态度尚不明朗。那么,这三家未来是否也会采用这一方案?

  从产品应用的通用性方面出发,无论客户机房是不是具备高压直流条件,产品自身都一定要具有支持该功能的能力,否则极易引发部署方面的诸多问题,影响系统的正常上线与运行。因此,在产品配置设计与交付流程中,已然将支持高压直流作为一项标准化要求加以落实,目前的配置建议均明确指向全面支持高压直流,这一举措正是从ODM厂商层面进行实施推进的,旨在确保整个产业链条在技术应用上的协同性与一致性。

  实际上,从GB系列新产品便已开始慢慢地普及这一技术,其中H200部分型号已经具备高压直流功能。而在更早的产品中,多数并未提供此项支持。基于当前的发展形态趋势以及客户的真实需求综合考量,预计Rubin系列有望实现100%采用高压直流方案。当然,若部分客户出于成本因素的考量,厂商也可能针对特定客户提供不带高压直流功能的定制版本,不过必须要格外注意的是,采用高压直流方案在总成本上相较于普通方案大约会增加5%左右,这也是在“科技成本权衡”中需要斟酌的一个关键因素。

  GB300的主板面积相较于GB200增加了约30%,这一变化背后蕴含着独特的“科技考量”。GB200基于superchip架构,其部件呈现高度集成化特点,如此设计旨在便于运输,确定保证产品在物流环节的稳定性与便捷性。而GB300则采用了扩展布局的设计思路,将原本集成于superchip上的部件分散布局至更大面积的主板之上,并且额外新增了一个socket接口,这进一步拓展了主板面积。这一设计调整不仅有助于优化散热性能,为芯片在高负载运行下提供更为稳定的“热环境”,同时又需谨慎把控面积增长幅度,避免因面积过大导致贴片元件出现失效或虚连接等潜在问题,犹如在“科技平衡木”上精准把控每一个细节。

  新增的socket无疑提升了整体的价值量。从单个部件角度审视,CPUsocket的价格通常处于几十美元的区间,而GPUsocket由于其pin针数量更为可观,对材质的要求也更为严苛,例如在耐温性、可靠性以及镀金含量等方面有着更高标准,并且承载重量的需求也更大,诸多因素叠加使得GPUsocket的价值量远超CPUsocket,成为主板上除CPU、GPU之外价值颇高的关键组件之一。当前,GPUsocket的样品采购价格大多集中在数百美元的范围以内,随着后续量产规模的逐步扩大,预计其价格将会会降低。待量产并引入第二供应商之后,GPUsocket的单价有望降至约100美元左右,即便如此,鉴于其自身的精密度与材质要求,其价格仍相比来说较高,与CPUsocket之间有着明显的“科技价值差”。

  若按照整机柜来计算,总成本又该如何估算呢?GPUsocket的定价是以每组三颗die为单位做核算的。若从整机柜方面出发进行成本估算,每台机柜需配置72组GPUdie和36组CPUdie。按照量产后预估的价格进行计算,GPU部分的成本即为100美元×72,CPU部分则为50美元×36,总计成本大约为10,800美元。此外,CPU部分在未来亦存在降价空间,不过预计其价格不会低于20-30美元,这一系列的成本数据也成为产业链上下游在“科技成本规划”中的重要参考依据。

  pin针是否包含在socket采购范畴之内呢?GPUsocket主要由底座、外围框架以及pin针这三大部分构成,在实际采购过程中,企业通常是从专业的socket厂商进行采购,而这些socket厂商自身亦拥有相应的pin针供应商,共同构建起这一“科技组件供应链”。

  据悉,在前期的工厂和实验室测试阶段,曾有采购和林微纳产品的情况出现,不过就量产环节而言,目前只能说其存在一定机会。在国内市场,和林微纳应当也为部分CPUsocket提供了供货服务。该公司起初主要专注于pin针的供应业务,实则其自身亦具备socket的生产制造能力,在整个科技产业链中亦有着不可忽视的潜在影响力。

  其单独售价又该怎么样做估算呢?pin针成本在整个socket价格中所占比例大约为70%,以量产后单价为100美元的GPUsocket为例,其中pin针部分的成本便约为70美元,这一高占比充分彰显了pin针在精密度与数量方面的高要求及其在整个socket组件中的主体地位,可谓是“科技成本结构”中的关键要素。

  在这一领域,主要的参与者包含来自台湾地区的企业,例如LOTES,以及鸿腾精密等。鸿腾精密作为富士康旗下的子公司,其生产的产品更多地应用于富士康内部的供应链体系之中,而外部客户往往更倾向于选择LOTES等厂商所提供的产品,目前市场上使用比较广泛的便是由台湾LOTES生产的socket产品,形成了一种特定的“科技市场格局”。

  富士康为何能够降低其内部使用socket产品的成本,而外部客户却面临着相比来说较高的费用?

  这背后的重点是富士康通过自有工厂或业务单元(BU)实现了端到端的生产模式,涵盖开模、采购pin针以及组装等全流程环节,凭借这种高度整合的生产方式,大大降低了整体制造成本,构建起自身的“科技成本优势”。反观外部客户,由于依赖外购模式,各个生产环节相对分散,导致总成本相对偏高,在这场“科技成本博弈”中处于相对劣势地位。

  在GPU和CPU领域中,各类socket及pin相关这类的产品的毛利率与净利率分别处于何种水平?

  对于GPU/CPU领域内的socket产品而言,它的毛利率通常维持在20%-30%的区间范围以内,净利率略低,但也不会低于15%。而对于pin针产品来说,因其技术上的含金量较高且市场需求相对来说比较稳定,其净利率能达到20%左右,高于socket成品。这种差异源于二者在制造复杂性以及附加值方面的不同定位,当然,前期一些测试样品由于其特殊性,价格相对来讲会偏高一些,这也是行业内常见的“科学技术产品价值特性”体现。

  主要厂商的市场地位又是如何分布的呢?在pin针领域,鸿腾精密、和林微纳以及泰科等厂商均具备生产能力。鸿腾精密由于隶属于富士康集团,其产品在富士康内部的使用占比较高,所以在市场占有率方面相对领先。其次是泰科,该公司不仅仅可以直接供应socket,还能提供pin针,服务于下游众多客户,在市场中也占据着主体地位。而和林微纳则尚处于测试验证阶段,其产品在后续量产环节是否会被大量采购还存在不确定性,目前在市场中影响力相对有限。总的来看,台系厂商对大陆厂商似乎存在某些特定的程度的排斥现象,即便大陆厂商在产品性能和价格这一块具备优势,却仍未成为市场的优选供应商,这也反映出当前pin针市场复杂的“科技竞争生态”。

  和林微纳的pin针价格较台系及泰科等国际厂商低大约10%,这一成本优势主要来自于人力成本的差异。台湾地区的人力成本约为大陆地区的三倍,使得大陆企业能够凭借更低的人力支出实现同样甚至更高的利润率,不过海外企业通常对利润率有着较高要求,这进一步拉大了彼此之间的价格竞争力差距,在“科技价格比拼”中呈现出不同的态势。

  其进展如何?和林微纳目前慢慢的开始涉足GPU相关pin针业务了,并且大约在11月份向英伟达(NVIDIA)送样来测试,这些样品主要是提供给英伟达研发部门用于实验室测试,不过最终能否实现量产目前尚未确定。据推测,相关测试结果可能会在3月左右公布,其后续发展形态趋势备受行业关注,犹如一颗在“科技探索轨道”上待发光的新星。

  鸿腾精密和泰科也正在紧锣密鼓地进行GPUpin针相关这类的产品的测试工作,与和林微纳类似,其送测时间集中在12月左右。就目前情况去看,由于它们不具有大陆背景,被选为供应商的概率相对较大。然而,在未来进入大规模量产阶段后,为降低整体成本,下游客户可能会考虑引入包括和林微纳在内的大陆供应商,毕竟大陆厂商在效率方面具有一定优势,送样进度也相对更快,有望在后续的“科技供应链重塑”中占据一席之地。

  又面临哪些挑战呢?大陆厂商未来有望通过降本增效方案来获取更多的发展机会,例如,在富士康之外,大陆地区还有华硕、纬创等拥有大量工厂资源的大型制造企业,这为国内供应链的引入提供了潜在的发展空间。不过,现阶段由于研发资源相对有限,且前期订单量较小,大陆企业尚未被广泛采用作为第二供应商。短期内,要想大规模引入国内供应链,还需等待实际的需求进一步增长以及下游客户完成初步选型之后才能实现,大陆厂商在pin针领域的发展之路可谓是机遇与挑战并存的“科技征途”。

  测试结果是在3月份吗?是的,GB300确定会采用socket,而且相关测试结果大概率会在3月份出炉。从3月份起,各ODM厂商需要着手组装整机,并开展一系列相关测试工作,以确保能够在5月至6月向客户提供样机。若不能及时完成这些验证工作,将会对整体项目进度产生较大影响。毕竟3月份之后,整机需要搭载包括pin针等诸多组件在内做全面测试,所以测试结果的按时出炉至关重要。而且,核心部件的采购周期普遍较长,例如电源的采购周期约为两个月,其他部件也基本维持在两个月左右。此外,像超级电容(超容)等组件也需要按计划纳入整机,不过前期采购量比较小,主要是为满足5月至6月样机和小批量生产的需求,这一系列环节都如同紧密咬合的“科技齿轮”,任何一环出现一些明显的异常问题都可能会影响整体运转。

  超级电容(BBU)通常作为选配项,不一定会随样机一同送测给客户。在未来的渠道客户中,中小型客户可能更倾向于选择超级电容,是因为这类客户往往缺乏对机房配置的专业判断能力,所以选配超级电容的概率相比来说较高,它在不一样的客户需求场景下扮演着不同的“科技角色”。

  大批量生产预计将在第三季度启动,并会经历一个逐步爬坡的阶段,大致时间点落在8月至9月之间。在此之前,样机会经过1至2个月的内部测试,然后由ODM厂商送给客户测试,大约在5月至6月完成交付,之后将于7月至8月进行内部验证,只有通过验证后,方可进入大规模交付阶段。在ODM送测试阶段,数量不会特别大,总共ODM的量可能在几百柜,分摊到每个ODM厂商上,估计也就是几十柜,而且这几十柜可能还要分发给不同的客户,整一个完整的过程就像是一场严谨有序的“科学技术产品孵化之旅”,每个阶段都有着明确的任务和目标,以确保最终推向市场的产品质量放心可靠、性能卓越。