AMD MI1000 Instinct Accelerator 7nm GPU til HPC Officielt lanceret med 11,5 Teraflops of Peak Double-Precision Floating Point Performance

AMDs første GPU nogensinde er baseret på CDNA-arkitekturen, MI100 er officiel. MI100 Instinct Accelerator GPU hævdes at være "verdens hurtigste HPC GPU" med 11,5 teraflops med top dobbeltpræcision med flydepunktsydelse. GPU hævder at pakke dobbelt så mange computerenheder som den forrige generation, mens de holder sig inden for den samme 300 watt effektgrænse.

AMD annoncerede i dag det nye MI100 Instinct accelerator. GPU'en er baseret på CDNA-motoren, der adskiller sig lidt fra RDNA Architecture, der driver den nyeste AMD Radeon RX 6000-serie med grafikkort. MI100 Instinct Accelerator efterfølger MI50 og MI60 Instinct acceleratorer, der blev lanceret for to år siden. På trods af den relativt lille tidsperiode mellem generationer tillader den nye GPU-arkitektur og Compute Engine AMD GPU at overgå forventningerne.

AMD MI1000 Instinct Accelerator 7nm GPU til HPC-branchespecifikationer og funktioner:

MI100 GPU er den første til at inkorporere AMDs Compute DNA (CDNA) arkitektur. GPU'en har 210 computerenheder arrangeret i fire arrays. CDNA-arkitekturen er et betydeligt evolutionært spring sammenlignet med GCN-arkitekturen, og den inkluderer nye matrixkernemotorer, der øger beregningsgennemstrømningen til forskellige numeriske formater.

AMD hævder, at den nye AMD-matrixkerneteknologi giver MI100 en 7x større peak-præcision floating-point ydeevne sammenlignet med MI50. Virksomheden hævder, at MI100 Instinct Accelerator tilbyder 46,1 teraflops peak single-precision matrix (FP32), 23,1 teraflops peak single-precision (FP32), 184,6 teraflops peak half-precision (FP16) floating-point performance og 92,3 peak teraflops of bfloat16 performance .

Det MI100 får også AMDs Infinity Fabric Technology der hævdes at tilbyde ca. 2x peer-to-peer peak I / O båndbredde over PCIe 4.0 med op til 340 GB / s samlet båndbredde pr. kort. I realtidsinstallationer kan MI100 GPU'er konfigureres med op til to integrerede quad-GPU-nældefeber, der hver giver op til 552 Gbps peer-to-peer I / O-båndbredde.

Tilsvarende giver fire stakke 8 GB HBM2-hukommelse i alt 32 GB HBM2-hukommelse på hver MI100 GPU. Med en 1,2 GHz urhastighed tilbyder hukommelsen 1,23 Tbps hukommelsesbåndbredde. MI100s understøttelse af PCIe Gen 4.0-teknologi muliggør 64 Gbps maksimal teoretisk transportdatabåndbredde mellem CPU og GPU.

Er AMD MI100 Accelerator GPU bedre end NVIDIA A100 GPU?

Strengt på papiret ser AMDs MI100 GPU bedre ud end NVIDIA A100 GPU, som er vurderet til 9,7 teraflops af den teoretiske peak-ydeevne. I virkeligheden tilbyder NIVIDIA A100 dog højere FP64 Linpack-kørsler.

AMDs CDNA og RDNA-arkitektur er stort set de samme, hvor den største forskel er slutbruger-scenarierne. Der er dog et par grundlæggende forskelle, som ikke tillader, at CDNA-arkitekturen bruges til gengivelse af spil eller visuelt indhold.

I øvrigt forbereder AMD ROCm, som er virksomhedens open source-værktøjssæt bestående af compilere, programmerings-API'er og biblioteker. Dette værktøjssæt vil tjene som basis for exascale computing-arbejdsbelastninger. Den seneste ROCm 4.0 har opgraderet compileren til at være open source og samlet til at understøtte både OpenMP 5.0 og HIP. Kort sagt, konkurrencen mellem AMD og NVIDIA i HPC-segmentet strækker sig ud over enkle muligheder og rå processorkraft.