Radeon Open Compute “ROCm” Stack v3.1 lançado com RAS para Vega 7nm, suporte SLURM para melhor gerenciamento de recursos, mas o Navi continua ausente

Hardware / Radeon Open Compute “ROCm” Stack v3.1 lançado com RAS para Vega 7nm, suporte SLURM para melhor gerenciamento de recursos, mas o Navi continua ausente 2 minutos lidos

AMD Radeon



Radeon Open Compute ou pilha “ROCm” nova versão é agora acessível para download. O Radeon Open Compute v3.1 traz com ele alguns recursos, mas estranhamente, o suporte para AMD Navi e GFX10 ainda está ausente.

ROCm, a plataforma universal mais amplamente aceita para computação acelerada por GPU, está agora na versão 3.1. A atualização mais recente da plataforma modular que permite aos fornecedores de hardware construir drivers que suportem a estrutura ROCm inclui alguns recursos muito esperados, como suporte RAS para Vega 7nm e suporte SLURM para GPUs AMD. No entanto, por razões ainda desconhecidas, o ROCm ainda não tem suporte completo para a arquitetura AMD Navi de próxima geração.

O que há de novo no Radeon ROCm v3.1:

A maior e mais óbvia mudança na nova instalação do Radeon ROCm v3.1 está na estrutura de diretório de instalação do ROCm. Uma nova instalação do kit de ferramentas ROCm instala os pacotes no / opt / rocm- pasta. Anteriormente, os pacotes do kit de ferramentas ROCm eram instalados no / opt / rocm pasta.



A nova versão do ROCm aprimorou a confiabilidade, acessibilidade e suporte de manutenção (RAS) para GPUs Vega 7nm. Este trabalho de 7 nm Vega está presumivelmente sob o microscópio ainda para o “Arcturus” baseado em Vega acelerador de computação chegando este ano. O suporte inclui:



  • UMC RAS ​​- HBM ECC (injeção de erro incorrigível), retirada de página, recuperação de RAS via GPU (BACO) redefinir
  • GFX RAS - GFX, MMHUB ECC (injeção de erro incorrigível), recuperação de RAS via GPU (BACO) reset
  • PCIE RAS - PCIE_BIF ECC (injeção de erro incorrigível), recuperação de RAS via GPU (BACO) redefinir

O Radeon ROCm v3.1 também obtém suporte SLURM para GPUs AMD. SLURM ou Simple Linux Utility para Resource Management é um dos sistemas de gerenciamento de cluster e agendamento de trabalho altamente preferido e prontamente usado para clusters Linux. O SLURM é preferido por ser de código aberto, tolerante a falhas e altamente escalável.

Este sistema agora pode interagir bem com GPUs AMD. A última versão 20.02.0 do SLURM inclui plug-ins AMD que permitem ao SLURM detectar e configurar GPUs AMD automaticamente. Ele também coleta e relata o consumo de energia de chips gráficos. O suporte SLURM é uma adição útil dado o número crescente de implementações de supercomputação usando GPUs Radeon e outros clusters de GPU AMD maiores.

Apesar da inclusão de vários recursos, ainda não há sinais de suporte GFX10 / Navi no ROCm. o Página GitHub para ROCm foi atualizado para refletir todas as alterações, notas de instalação e problemas conhecidos.



Tag amd