阿里巴巴自研CPU广泛应用!芯云强强联手,重塑算力体系

2023-11-15 7609阅读 0评论

作者 | 李水清

编辑| 莫英

智东西杭州11月3日报道,今天,在2022云栖大会上,阿里云智能总裁张剑锋宣布,阿里巴巴平头哥自研云原生处理器倚天710已规模部署,成为中国首个大规模云计算平台。基于突破性的自主研发CPU。

作为阿里巴巴首款自研服务器CPU,亿天710自去年10月推出以来,已在数据库、大数据、视频编解码等多个场景落地。 张剑锋表示,随着亿天710云实例的应用慈云数据自营海外云服务器,高稳定高性价比,支持弹性配置,算力性价比提升了30%以上,单位算力功耗降低了60%。 未来两年,20%的新增算力将采用自主研发的CPU。

阿里巴巴自研CPU广泛应用!芯云强强联手,重塑算力体系 第1张

张建锋 阿里云智能总裁

当前,算力已成为与水力、电一样重要的生产要素,云计算已融入人们生产生活的方方面面。 如何进一步提升算力效率,满足数字化转型需求? 这已经成为全球科技公司关注的话题。

芯片、操作系统和上层应用的原生集成已成为大势所趋。 未来十年,软硬件融合的自主研发技术系统或将成为算力突破的关键。 纵观阿里巴巴的技术发展,从软件到硬件,进入了技术门槛极高的通用CPU领域。

在当前的CPU领域,流片已不再罕见,但能够大规模实现的“好用”处理器并不多。 倚天710的大规模落地,无疑再次刷新了互联网企业核心制造的天花板水平。

那么倚天710是如何在上市一年多后如此迅速上市的呢? 这对阿里巴巴乃至算力行业的发展道路有何影响? 本文对此进行了深入探讨。

1、自研CPU大规模实现云计算终端是虚拟服务器,性价比提升30%。

2022年科技圈的主题是产业落地。 2022年云栖大会上,有关倚天710的新消息证实了这一趋势。

Mobvista 成立于中国广州,是一家营销 SaaS 公司,为全球超过 95 个国家的客户提供服务。 汇量科技首席AI官朱小强表示:“随着广告模型结构不断升级,在线推理模型请求参数增加,我们对CPU性能和内网带宽提出了更高的要求。亿天710云实例可以很好地满足我们的需求。”业务需求。升级的需求降低了成本,提高了效率。” 据悉,亿天710云实例推出后,CPU性能和内网带宽均得到提升,整体性价比提升40%以上。

去年10月的2021阿里云大会上,亿天710正式上市。 这是阿里巴巴首款为云而生的CPU,也使阿里巴巴成为继亚马逊、华为之后全球第三家拥有自研Arm服务器芯片的公司。 云计算供应商。

亿天710单芯片上可容纳多达600亿个晶体管。 在全球权威CPU基准测试集SPECint2017中,钰天710得分440,超出行业基准20%。 能效比优于行业基准50%以上,可有效帮助数据中心节能。 减少排放。

阿里巴巴自研CPU广泛应用!芯云强强联手,重塑算力体系 第2张

在益天710上市后不久的2021年“天猫双11”,该技术立即遭遇了极限考验。

众所周知,“天猫双11”创造了一年来全社会最高的流量峰值。 高并发需要极高的算力性能和稳定性。 阿里巴巴将淘宝的核心交易系统迁移到基于亿天710的实例上,官方数据显示,此次更换算力性价比提升了30%。

电子商务业务的应用仅仅是一个开始。 阿里巴巴在全球管理着超过150万台服务器。 随着其自研CPU的诞生,已经上市并支持存储、数据库、大数据、视频云等多个行业。

今年,益田710的落地步伐加快。 通过阿里云的输出,益天710提供的算力也从行业内部转移到行业外部。 据了解,国内科学计算、智能手机行业、互联网等领域的一些知名企业在迁移至易天710云实例后,性价比显着提升。

这意味着益天真正成为中国首款面向大规模云应用的自主研发CPU。 倚天710不仅好用,而且好用。

2、克服实施难,核云融合潜力巨大

倚天710的成功并不容易。

目前,科技公司冲进硬件创新赛道正成为趋势,但选择在通用处理器技术上竞争的玩家却屈指可数。

近年来,Arm阵营在Intel和AMD主导的x86服务器市场中占据了一席之地。 Arm在2018年推出了专为云数据中心设计的服务器处理器。基于Arm架构,目前只有亚马逊等少数大公司和少数独立CPU公司推出了顶级性能的云通用处理器。

开发高性能通用服务器芯片本身就具有技术挑战性,但这只是一系列挑战的开始。 要真正实现芯片的大规模应用,必须攻克许多技术难题。

在这个过程中,技术团队需要对场景进行深度优化,以适应不同的软件和应用生态。 比如,需要提供多语言、多操作系统的迁移工具和“证明”最佳实践,让用户愿意尝试,以最小的工作量完成迁移适配。

阿里巴巴技术团队在操作系统层面做了很多优化,完成了主流业务关键组件的完整适配。 用户业务迁移需要更改的代码量为-0。

能够实现如此极致效果的背后,是倚天710为云而生的设计理念。 为云而生,当然更容易被云所利用。

云场景往往对算力要求高并发、高性能、高能效。 因此,研天710被设计成为一款能够提供极致物理核心性能的处理器,通过单物理核心独占缓存,有效提升性能稳定性和可预测性。 这使得使用亿天710云实例的计算服务能够持续输出更稳定的算力。

生于云,用于云,益天710云实例的规模化应用,证明阿里巴巴选择的核心与云算力深度融合的道路是可行的、深远的。

阿里巴巴自研CPU广泛应用!芯云强强联手,重塑算力体系 第3张

3、算力竞争打响,阿里巴巴亮出新王牌

知名行业研究机构IDC预测,未来五年全球算力规模将增长50%以上,到2025年将达到3300EFlops(每秒33万亿次浮点运算)。

对计算能力需求的爆炸式增长对技术提出了更高的挑战。

回顾现代算力行业的发展历史,从大型机、小型机、PC、移动终端到云计算,在幕后,人们对算力的需求也从早期的单纯发送消息,转变为发送图片在可预见的未来,自动驾驶、虚拟宇宙、人工智能的需求将驱动新一波的算力升级。

算力产业正在进入软件定义、硬件加速的新阶段。 这场算力升级竞赛,不仅比拼从底层硬件到上层IaaS、PaaS、SaaS的数据传输和计算效率,还比拼云与大量、多样的边缘终端的协同集成能力。

面对这一趋势,从本次阿里云大会上我们可以看到,阿里巴巴的新王牌是“飞天+CIPU+以太710”驱动的全新计算系统。

阿里巴巴自研CPU广泛应用!芯云强强联手,重塑算力体系 第4张

追溯整个系统的起点,还得从2009年飞天的第一行代码说起。

当时中国还没有自己的算力系统。 在IOE(IBM小型机、Oracle数据库、EMC存储)架构下,企业只能不断扩大采购规模。 飞天的诞生,让算力成为可以在线获取的资源。 分布式取代了传统的集中式架构,也拉开了中国企业云计算自主发展的序幕。

2013年,飞天调度服务器数量突破5000台大关,标志着早期算力基地正式建成。 基于此,阿里云十余年来成功应对“双11”、“12306”春运购票等极端并发场景的挑战,不断拓展云计算的性能边界,在云计算领域排名第一。连续多年位居亚太区、全球前三名。

随着数字经济的蓬勃发展,企业对上云提出了强算力、低时延、高带宽的新需求,仅靠软件和系统级优化已无法满足。 于是,阿里巴巴开始深入硬件,从神龙到CIPU,完成一系列突破。

CIPU于2021年6月发布,是专为阿里云飞天操作系统设计的专用处理器。 CIPU相当于云计算的CPU,飞天云操作系统运行在其上,从而在云上形成统一的虚拟资源池,让客户使用云算力。 无论是在分布式应用还是AI场景测试中,“CIPU+飞天”都展现了优越的性能。

今天,亿天710云实例再次升级为“CIPU+飞天”。 通过芯片、操作系统、计算架构、上层应用的协同优化,云计算的整体性能和性价比得到了大幅提升。

经过13年的算力耕耘,阿里巴巴已经成长为一家实力雄厚的科技公司。 张建锋表示,阿里云将坚持技术长征,构建下一代系统的第二条技术曲线云计算终端是虚拟服务器,抢占未来技术的定义权。

阿里巴巴自研CPU广泛应用!芯云强强联手,重塑算力体系 第5张

经少发来自奥飞寺

量子比特报告 | 公众号QbitAI

等待时间不长! 阿里云基础设施算力再次升级!

这次“失败”的是第七代高频ECS企业级实例、商用含光800云服务器、新一代容器(神龙)服务。

还记得去年在杭州云栖,搭载自研第二代神龙云服务器架构的第六代ECS就被广泛期待; 现在,搭载第三代神龙云服务器架构的高频第七代ECS在算力方面堪称前身。 2.6倍。

阿里巴巴自研CPU广泛应用!芯云强强联手,重塑算力体系 第6张

2.6倍的涨幅从何而来?

非常关键的一点是,它配备了最新一代的英特尔®至强®可扩展处理器。 据说,连英特尔自己都还没有来得及发布这波技术尝试。

此外,得益于集成的第三代神龙架构,第七代高频实例的性能和稳定性也得到了显着提升。

从底层存储、网络、虚拟化技术的升级,到云盘的性能、每秒IO操作数、吞吐能力,都可圈可点。

不说别的,支持的vCPU数量高达192个。

附带的内存频率也达到了3200 MHz。

第七代首次支持50Gx2网络架构,PPS高达2400万每秒。 除了果断支持大帧传输外,实例带宽提升高达5倍,物尽其用。

整机存储吞吐量从每秒2GB提升到4GB,转发提升到60万IOPS。 写入延迟下降高达20%,性能接近裸盘,值得期待。

为了安全稳定,阿里云还进一步完善了无QEMU极致优化,减少第七代实例抖动。

配合Aliyun Linux 2 LTS,启动速度可大幅提升高达60%; 即使在运行时,也可能高达 30%。

大力引入硬件级QOS能力,保障关键业务。

看来确实是又快又好的节奏。

据悉,由于算力与稳定​​性并存,高频第七代ECS特别适用于半导体仿真设计、工业仿真、游戏、高性能数据库等对算力要求较高的场景。渲染。

截至发稿,量子位获悉,第七代ECS企业级高频实例和新一代弹性裸金属云服务器现已启动邀请测试。

从六到七,帮助降低成本的技术尝试是关键

从六级到七级,算力和稳定性确实提升了好几个级别。

不过阿里云服务器位置选择,阿里云弹性计算首席架构师蔡俊杰透露,事实上,除了市场需求、性能等硬催化剂外,成本考量无疑成为关键。

简单来说,这个第七代高频实例省钱了!

当然,这种成本节省是针对标准的第六代高主频,而不是针对最畅销的第六代增强示例。

阿里巴巴自研CPU广泛应用!芯云强强联手,重塑算力体系 第7张

有多种方法可以降低成本,首先是更好地定制 CPU。

据悉,阿里云此次在第七代芯片的选型上做了大量的工作。

通过洞察数百万客户对云服务器的实际使用情况,从内存带宽、缓存、频率需求等角度,包括用户应用的性能最佳点,进行了大量的数据分析。

“通常情况下,价格越高意味着性能越好,但如果用户需要提高1%的性能却需要承担20%的成本增加阿里云服务器位置选择,那就确实不划算了。当然,这是基于迫切需要改进的情况。” 。 向下。”

阿里云最后定制的弹性计算CPU,不仅保证了满足用户需求的高性能,而且整体成本也降低了不少。

更重要的是,为了满足低成本的需求,技术研发甚至开始在服务器设计上探索新的路线。

或许你可能知道,主流的云服务器以前都是采用双路服务器,即一台服务器搭载两个CPU。

如今的第七代创新性地选择了更密集部署的四路服务器格式,同时承载四个CPU。

不仅单个单元的计算性能得到了显着的提升,从整机的性能来看也有了巨大的飞跃。

显然,四路服务器带来的好处,每台服务器的成本均摊到整体基础设施上,相比之前确实下降了不少。

但蔡俊杰透露,尽管成本降低了,但运维和稳定性难度却急剧增加。

随着服务器上设备数量的增加,散热成为需要克服的关键问题。

同时,如何保证所有设备能够在性能稳定的基础上正常工作并达到目标,也是一个挑战。 毕竟,由于CPU和内存增加了一倍,出现故障的概率也增加了一倍。

无论开发什么样的新产品慈云数据自营海外云服务器,高稳定高性价比,支持弹性配置,阿里云都不希望通过牺牲稳定性来降低成本,因此阿里云在保证实例的稳定性方面做了大量的工作。

得益于阿里云成熟的主动运维体系,包括极高的故障检测和预测能力、全球领先的热迁移技术等,第七代ECS将继续承诺全球第一的稳定性SLA,单实例达到99.975%。

第七代高频ECS企业级实例成本的不断提升,也反映出更多用户在使用云服务器时越来越注重成本优化。

2020年突如其来的疫情,给全球经济环境带来了诸多挑战。

越来越多的云服务器用户在云服务器的选择和使用上会表现出更加精致的态度。 毕竟,大家都希望在有限的成本投入下,实现资源利用率的最大化。

作为云服务器未来发展可预见的趋势之一,这一点是可以理解的,值得更广泛的关注。

如何更好地理解“新一代容器服务”?

谈起新一代容器服务,大家可能听到过这样的说法,“基于神龙架构,阿里云还对容器服务的计算能力进行了升级。同等条件下,新一代容器服务可以减少计算量”。客户的成本降低了 50%。” 。

阿里巴巴自研CPU广泛应用!芯云强强联手,重塑算力体系 第8张

据此,蔡俊杰甚至没有在网上算账。

事实上,这个判断不仅是基于广泛提及的神龙架构,而且采用裸机服务器的形式来支持容器场景,大​​大降低了整体成本。

以第七代高频ECS为例,原有的四路服务器大幅提升了整机的计算能力。 它在容器层面还有哪些额外的好处?

说得直接一点,就是将原本分散在各种小机器上的容器实例高效聚集起来,节省算力成本,更好地利用容器服务。

试想一下,对于一台拥有32个vCPU计算能力的小型服务器,假设每台服务器上运行的操作系统需要1个vCPU和500MB内存,那么6台将消耗6个vCPU和3G内存。

如果第七代高频ECS支持192个vCPU,仅操作系统的消耗将仅为原来的六分之一。

更重要的是,在这种部署环境下,容器服务的超卖优势就显露出来,即越来越多的应用可以实现错峰,带来部署密度的提升,保证数量。

性能方面,现实表明,神龙裸机服务器与容器的结合在阿里经济体内部多种场景的多次测试中,实现了整体性能20%的提升。

即使在用户群中验证,由于底层IO和存储的软硬件一体化加速机制,预计也能带来30%的性能优势。

如果你有足够的技术远见,你可能会发现云服务器未来的另一个触发点无疑是云原生。

或许,这也是阿里云在业界率先推出弹性裸机等创新产品形态的关键。

云原生是未来,与容器结合是必然的。

天然的属性适合配合K8S容器编排引擎实现Serverless服务的弹性计算。 它可以让更多用户关注应用程序如何运行,而不是底层架构如何构建。 弹性容器实例 ECI 为 Serverless 而生。 新一代“云服务器”。

当然,两朵花盛开,两边各开一朵。

如何实现更轻的部署、更快的启动、更强的并发能力,也对云服务器的整体生产链路提出了更高的要求。

蔡俊杰认为,在极短的时间内准备好计算、网络、存储等资源,通过全链路的优化升级达到最终的服务状态,满足复杂的云原生场景且安全性高,是“困难”的。

由此看来,安全稳定地提供满足云原生用户体验的基础设施能力必然是各大云计算进入者竞相讨论的首要任务之一。

含光800云服务器为何而来?

日前,阿里云正式宣布推出搭载含光800推理芯片的云服务器,标志着自研含光芯片正式大规模商用的开始。

从芯片到云服务器,本质上阿里云正在竭尽全力,让更多已经上云或者正在上云路上的合作伙伴尝试一下含光800的超强算力。

云端AI推理,这波操作颇为独特。

量子比特了解到,由于搭载了阿里巴巴平头哥自主研发的神经网络加速芯片含光800,这款云服务器提供了全球最高的单芯片AI推理性能,比同类处理器高出数十倍。

此外,还实现了针对业务场景的深度优化,如广泛应​​用于图像搜索、场景识别、视频内容识别、自然语言处理等业务。

总之,计算能力出众,推理能力性价比高。

好的产品必须从自己的使用开始,比如阿里云城市大脑交通信号系统。

由于含光800服务器用于处理车辆检测、品牌识别、车牌识别等算法模型,单条含光800全链路实际上可以支持100路实时视频的分析和特征结构化数据的提取。

结果呢? 与GPU相比,性能提升5倍以上。

多方了解到,含光云服务器依然基于阿里云自研神龙云服务器架构,目前为用户提供弹性裸机加速实例。

阿里巴巴自研CPU广泛应用!芯云强强联手,重塑算力体系 第9张

其中,开发工具采用阿里巴巴平头哥HAI自动开发工具,支持主流深度学习框架TensorFlow、Caffe、MXNet、ONNX。

就在今年3月,阿里云飞天AI加速引擎AIACC与含光800的组合不仅击败了谷歌,还在斯坦福大学DAWNBench ImageNet推理成本上排名全球第一。

据了解,其能效比达到500IPS/W,是第二名的3.3倍,被誉为阿里云软硬件一体化极致性能优化的典型案例。

说到软硬件融合能力所带来的效果,无论是国外的云计算巨头AWS还是我们身边的阿里云,具体产品的性能在一年内都实现了飞跃甚至翻倍。

从技术角度来看,这种软硬件融合的自研能力很可能是未来3-5年大家非常重视并会被模仿的路线之一,云服务器自然也不例外。

此外,含光800云服务器的商用兼顾了软硬件的集成能力,同时重点解决云场景下的机器学习问题。

由此可以推断,将云与数据、人工智能紧密结合,用云的视角服务更多不同的技术场景,或许会成为云服务器场景演进的必然路径。

如今,云服务器作为云计算基础设施的主机板,阿里云经济“全面上云”的号角已经实现。

云服务器能力建设作为阿里云自身的技术基础,被认为是云服务商产品能力的命脉。

随着云计算自身形态的多样化、亲民化、无处不在的实际部署,包括国内越来越重视自主研发和本土化的核心竞争力,可以判断该领域在很长一段时间内不会有大的发展来。 性方面的颠覆性变化。

可以肯定的是,云服务器无疑仍然是军事战略家的战场。

附:采访嘉宾简介

阿里巴巴自研CPU广泛应用!芯云强强联手,重塑算力体系 第10张

作者为网易新闻·网易账号“每个人都有自己的态度”签约作者

- 超过-

《数据库》系列公开课程现已开放,快来免费报名吧!

在6月17日的首场直播中,腾讯云数据库副总经理王一成将全面剖析全球数据库的发展历程,分享如何将云计算、新基建、数据库能力融合创新。 此外,还将结合实际金融案例详细介绍腾讯云自研国产数据库TDSQL和TBase的产品核心架构和最佳实践。

在接下来的课程中,来自浪潮和蚂蚁集团的数据库业务负责人也将带来精彩分享,内容丰富,免费参与。 欢迎扫描二维码报名~

阿里巴巴自研CPU广泛应用!芯云强强联手,重塑算力体系 第11张

阿里巴巴自研CPU广泛应用!芯云强强联手,重塑算力体系 第12张

量子比特QbitAI·今日头条签约作者

̾'ᴗ' ̫ 追踪AI技术和产品新进展

喜欢的话就点击“观看”吧!


免责声明
1、本网站属于个人的非赢利性网站,转载的文章遵循原作者的版权声明。
2、本网站转载文章仅为传播更多信息之目的,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所
提供信息的准确性及可靠性,但不保证信息的正确性和完整性,且不对因信息的不正确或遗漏导致的任何
损失或损害承担责任。
3、任何透过本网站网页而链接及得到的资讯、产品及服务,本网站概不负责,亦不负任何法律责任。
4、本网站所刊发、转载的文章,其版权均归原作者所有,如其他媒体、网站或个人从本网下载使用,请在
转载有关文章时务必尊重该文章的著作权,保留本网注明的“稿件来源”,并白负版权等法律责任。

手机扫描二维码访问

文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。

发表评论

快捷回复: 表情:
评论列表 (暂无评论,7609人围观)

还没有评论,来说两句吧...

目录[+]