Red Hat AI na AWS utiliza os chips Trainium e Inferentia AI para oferecer aos clientes maior variedade, flexibilidade e eficiência para cargas de trabalho de IA em produção
A Red Hat e Amazon Web Services (AWS) acabam de anunciar uma expansão de sua colaboração estratégica para impulsionar soluções corporativas de IA generativa (gen AI) na AWS por meio do Red Hat AI e dos chips de IA da AWS. Com essa nova fase colaboração, a Red Hat busca capacitar os tomadores de decisão de TI com a flexibilidade necessária para executar inferência de IA de alto desempenho e eficiência em escala, independentemente do hardware subjacente.
“Ao habilitar o Red Hat AI Inference Server para o setor corporativo, desenvolvido sobre o inovador framework vLLM, com chips de IA da AWS, estamos capacitando organizações a implantar e escalar cargas de IA com mais eficiência e flexibilidade. Baseada na herança open source da Red Hat, essa colaboração busca tornar a IA generativa mais acessível e economicamente viável em ambientes de nuvem híbrida”, afirmou Joe Fernandes, vice-presidente e general manager da AI Business Unit da Red Hat
A ascensão da gen AI e a consequente necessidade de inferência escalável estão levando as organizações a reavaliar sua infraestrutura de TI. Como resultado, a IDC prevê que “até 2027, 40% das organizações usarão silício customizado, incluindo processadores ARM ou chips específicos para AI/ML, para atender às crescentes demandas por otimização de desempenho, eficiência de custos e computação especializada.”. Essa tendência reforça a necessidade de soluções otimizadas para melhorar o poder de processamento, minimizar custos e permitir ciclos de inovação mais rápidos para aplicações de IA de alto desempenho.
A colaboração da Red Hat com a AWS capacita organizações com uma estratégia completa de gen AI, ao unir uma vasta biblioteca de recursos de plataforma da Red Hat com a infraestrutura de nuvem e os chipsets de IA da AWS: AWS Inferentia2 e AWS Trainium3. Os principais aspectos dessa nova fase da parceria incluem:
Red Hat AI Inference Server em chips de IA da AWS:
O Red Hat AI Inference Server, baseado e impulsionado pelo vLLM, será habilitado para rodar com os chips de IA da AWS, incluindo AWS Inferentia2 e AWS Trainium3, para entregar uma camada de inferência comum, capaz de suportar qualquer modelo de gen AI, oferecendomais desempenho, menor latência e melhor custo-benefício ao escalar implantações de IA em produção, com uma eficiência até 30-40% superior às instâncias Amazon EC2 baseadas em GPU atualmente comparáveis.
Habilitando a IA no Red Hat OpenShift:
A Red Hat trabalhou com a AWS para desenvolver um operador de AWS Neuron para o Red Hat OpenShift, Red Hat OpenShift AI e Red Hat OpenShift Service on AWS, uma plataforma de aplicações completa e totalmente gerenciada na base da Amazon, fornecendo aos clientes um caminho mais simples, e com suporte, para executar suas cargas de trabalho de IA com aceleradores da AWS.
Facilidade de acesso e implantação:
Ao disponibilizar suporte aos chips de IA da AWS, a Red Hat vai proporcionar acesso aprimorado e simplificado a aceleradores de alta demanda e alta capacidade para clientes Red Hat na AWS. Além disso, a Red Hat lançou recentemente o amazon.ai Certified Ansible Collection para o Red Hat Ansible Automation Platform, ambiente no qual é possível orquestrar serviços de IA na AWS.
Contribuição com a comunidade upstream:
A Red Hat e a AWS estão colaborando para otimizar um plugin de chip de IA da AWS a ser disponibilizado upstream no vLLM. Como principal colaboradora comercial do vLLM, a Red Hat está comprometida em habilitar o vLLM na AWS a fim de acelerar os recursos de inferência e treinamento de IA para usuários. O vLLM também tem como arquitetura técnica o llm-d, projeto open source focado em entregar inferência em escala, agora disponível como recurso comercial no Red Hat OpenShift AI 3.
A Red Hat possui um longo histórico de colaboração com a AWS para capacitar clientes desde o datacenter até a edge. Este novo marco visa atender às necessidades em evolução das organizações à medida que integram IA em suas estratégias de nuvem híbrida para alcançar resultados de gen AI otimizados e eficientes.
Disponibilidade
O operador comunitário AWS Neuron já está disponível no OperatorHub do Red Hat OpenShift para clientes que utilizam o Red Hat OpenShift ou o Red Hat OpenShift Service na AWS. O suporte do Red Hat AI Inference Server para chips de IA da AWS está previsto para janeiro de 2026, em versão prévia para desenvolvedores.
