英伟达下一代GPU,信得过性能发布
发布时间:2024-11-14 09:40 浏览:56次
(原标题:英伟达下一代GPU,信得过性能发布)
若是您但愿不错频繁碰面,接待标星储藏哦~
起头:内容编译自IEEE,谢谢。
Nvidia、甲骨文、谷歌、戴尔和其他 13 家公司证明了他们的策动机覆按现在使用的关键神经收集所需的时候。这些纵容包括初度亮相的Nvidia 下一代 GPU B200和谷歌行将推出的加快器Trillium。B200在某些测试中的发达比现在的主力Nvidia芯片H100提高了一倍。况兼Trillium 的性能比谷歌在 2023 年测试的芯片提高了近四倍。
该基准测试称为 MLPerf v4.1,包括六项任务:保举、大型话语模子(LLM) GPT-3和 BERT-large 的预覆按、 Llama 2 70B 大型话语模子的微调、对象检测、图形节点分类和图像生成。
覆按GPT-3是一项阻挠的任务,若是仅仅为了提供一个基准而完成通盘任务是不切实质的。相背,测试是将其覆按到众人以为的水平,这意味着若是你赓续覆按,它很可能会达到筹商。关于 Llama 2 70B 来说,筹商不是重新初始覆按 LLM,而是弃取还是覆按过的模子并对其进行微调,使其专注于某一特定专科常识——在这种情况下,政府文献。图节点分类是一种用于诈骗检测和药物发现 的机器学习。
跟着东谈主工智能的首要性不竭演变,主要转向使用生成式东谈主工智能,测试集也发生了变化。MLPerf 的最新版块记号着自基准测试职责初始以来测试内容的透澈更动。“现时,悉数原始基准测试齐已冉冉淘汰,” MLCommons 基准测试职责珍藏东谈主David Kanter暗示。在上一轮测试中,推论某些基准测试仅需几秒钟。
凭据 MLPerf 的策动,新基准套件上的 AI 覆按正在以摩尔定律预期速率的两倍左右的速率校正。跟着时候的推移,纵容比 MLPerf 总揽期间初始时更快趋于矫健。Kanter 将此主要归因于公司还是弄明晰了如安在相等大的系统上进行基准测试。跟着时候的推移,Nvidia、Google和其他公司还是确立出允许近乎线性彭胀的软件和收集时刻——将惩办器数目增多一倍不错将覆按时候镌汰苟简一半。
第一个 Nvidia Blackwell 覆按纵容
这一轮是 Nvidia 下一代 GPU 架构 Blackwell 的初度覆按测试。关于 GPT-3 覆按和 LLM 微调,Blackwell (B200) 的每 GPU 性能苟简是 H100 的两倍。关于保举系统和图像生成,收益略有下跌,但仍然绝顶可不雅——分辨为 64% 和 62%。
Nvidia B200 GPU 所弃取的Blackwell 架构 延续了使用越来越低精度数字来加快 AI 的趋势。关于 Transformer 神经收集的某些部分(举例ChatGPT、Llama2 和Stable Diffusion),Nvidia H100 和 H200 使用 8 位浮点数。B200 将其降至仅 4 位。
英伟达暗示,在 MLPerf Training 4.1 行业基准测试中, NVIDIA Blackwell平台在悉数测试的职责负载上齐获得了令东谈主印象深切的收货,在 LLM 基准测试中,每块 GPU 的性能提高了 2.2 倍,包括 Llama 2 70B 微归拢 GPT-3 175B 预覆按。此外,NVIDIA 在 NVIDIA Hopper 平台上的提交赓续在悉数基准测试中保抓大规模记载,包括在 GPT-3 175B 基准测试中使用 11,616 个 Hopper GPU 提交的提交。
如上所说,Blackwell 初度向 MLCommons 定约提交覆按,该定约为行业参与者创建范例化、平允且进程严格同业评审的测试,重心先容了该架构若何提高生成式 AI 覆按性能。
举例,该架构包含新的内核,不错更有用地哄骗 Tensor Core。内核是进程优化的专用数学运算,举例矩阵乘法,是好多深度学习算法的中枢。Blackwell 更高的每 GPU 策动蒙胧量和更大、更快的高带宽内存使其能够在更少的 GPU 上运行 GPT-3 175B 基准测试,同期完结出色的每 GPU 性能。
哄骗更大、带宽更高的 HBM3e 内存,仅需 64 个 Blackwell GPU 即可在 GPT-3 LLM 基准测试中运行,且不会影响每个 GPU 的性能。使用 Hopper 运行换取的基准测试则需要 256 个 GPU。
Blackwell 覆按纵容投降了之前提交给 MLPerf Inference 4.1 的纵容,与 Hopper 一代比拟,Blackwell 的 LLM 推感性能提高了 4 倍。哄骗 Blackwell 架构的 FP4 精度以及 NVIDIA QUASAR 量化系统,提交纵容展现了深广的性能,同期知足了基准的准确性条目。
英伟达暗示,NVIDIA 平台不竭进行软件确立,为各式框架、模子和应用顺次的覆按和推理提供性能和功能校正。在这一轮 MLPerf 覆按提交中,自推出基准以来,Hopper 的 GPT-3 175B 每 GPU 覆按性能提高了 1.3 倍。
NVIDIA 还使用 11,616 个 Hopper GPU 通过NVIDIA NVLink 和 NVSwitch 高带宽 GPU 到 GPU 通讯以及 NVIDIA Quantum-2 InfiniBand 收集聚集,在 GPT-3 175B 基准上提交了大规模纵容 。
自前年以来,NVIDIA Hopper GPU 在 GPT-3 175B 基准测试中的规模和性能提高了三倍多。此外,在 Llama 2 70B LoRA 微调基准测试中,NVIDIA 使用换取数目的 Hopper GPU 将性能提高了 26%,这反应了软件的抓续增强。
NVIDIA 不竭奋发于于优化其加快策动平台,从而抓续改善 MLPerf 测试纵容 - 提高容器化软件的性能,为现存平台上的互助伙伴和客户提供更深广的策动才气,并为他们平台投资带来更高的陈诉。
谷歌推出第六代硬件
谷歌展示了其第六代 TPU Trillium 的 首批纵容(上个月才发布),以录取五代变体 Cloud TPU v5p 的第二轮纵容。在 2023 年版块中,这家搜索巨头推出了第五代TPU 的另一个变体 v5e,其想象更防备效果而非性能。与后者比拟,Trillium 在 GPT-3 覆按任务上的性能提高高达 3.8 倍。
但与悉数东谈主的强敌 Nvidia 比拟,情况并不那么乐不雅。由 6,144 个 TPU v5ps 构成的系统在 11.77 分钟内到达了 GPT-3 覆按检讨点,远远落伍于由 11,616 个 Nvidia H100 构成的系统,后者在苟简 3.44 分钟内完成了任务。顶级 TPU 系统仅比其一半大小的 H100 策动机快约 25 秒。
戴尔科技公司的策动机使用了约 75 好意思分的电力对 Llama 2 70B 大型话语模子进行了微调。
在 v5p 与 Trillium 最接近的正面比较中,每个系统由 2048 个 TPU 构成,行将推出的 Trillium 将 GPT-3 覆按时候镌汰了整整 2 分钟,比 v5p 的 29.6 分钟提高了近 8%。Trillium 和 v5p 的另一个区别是 Trillium 与AMD Epyc CPU 配对,而不是 v5p 的Intel Xeon。
谷歌还使用 Cloud TPU v5p 覆按了图像生成器 Stable Diffusion。Stable Diffusion 有 26 亿个参数,难度不大,MLPerf 参赛者需要将其覆按到不断,而不是像 GPT-3 那样只覆按到检讨点。1024 TPU 系统排行第二,在 2 分 26 秒内完成任务,比由 Nvidia H100 构成的换取大小的系统慢了苟简一分钟。
覆按才气仍不透明
覆按神经收集的高尚动力老本永恒以来一直令东谈主担忧。MLPerf 才刚刚初始测量这小数。戴尔科技是动力类别的惟一参赛者,其八办事器系统包含 64 个 Nvidia H100 GPU和 16 个Intel Xeon Platinum CPU。惟一的测量是在 LLM 微调任务 (Llama2 70B) 中进行的。该系统在 5 分钟的运行中糜费了 16.4 兆焦耳,平均功率为 5.4 千瓦。按照好意思国的平均老本策动,这意味着苟简 75 好意思分的电费。
天然纵容自己并不成证实什么,但照实可能为访佛系统的功耗提供大要的数据。举例,Oracle 证明了接近的性能纵容——4 分 45 秒——使用换取数目和类型的 CPU 和 GPU。
半导体宏构公众号保举
专注半导体领域更多原创内容
热心环球半导体产业动向与趋势
*免责声明:本文由作家原创。著述内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或复旧,若是有任何异议,接待有关半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3946期内容,接待热心。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
可爱咱们的内容就点“在看”共享给小伙伴哦