Plataforma de IA nativa em nuvem híbrida da Red Hat oferece novas e poderosas capacidades de inferência, além de capacitar equipes de TI para inovar com mais rapidez e eficiência
A Red Hat, empresa referência no fornecimento de soluções open source, acaba de anunciar o Red Hat AI 3, uma importante evolução de sua plataforma empresarial de IA. Reunindo as mais recentes inovações do Red Hat AI Inference Server, Red Hat Enterprise Linux AI (RHEL AI) e Red Hat OpenShift AI, a atualização ajuda a simplificar a complexidade da inferência de IA de alto desempenho em escala. Desta forma, permitindo às organizações acelerar a transição das cargas de trabalho de provas de conceito para a produção, além de melhorar a colaboração em torno de aplicações habilitadas por IA.
À medida que as empresas superam a fase de experimentação com IA, passam a enfrentar outros obstáculos significativos, como a privacidade de dados, o controle de custos e a gestão de diversos modelos. O relatório “The GenAI Divide: State of AI in Business”, do projeto NANDA do Massachusetts Institute of Technology (MIT), destaca a realidade da IA em produção: cerca de 95% das organizações não conseguem enxergar retornos financeiros mensuráveis a partir de um investimento corporativo de aproximadamente US$ 40 bilhões.
O Red Hat AI 3 aborda diretamente esses desafios ao oferecer uma experiência mais consistente e unificada para CIOs e líderes de TI maximizarem seus investimentos em tecnologias de computação acelerada. A plataforma permite escalar e distribuir rapidamente cargas de trabalho de IA em ambientes híbridos e com múltiplos fornecedores, ao mesmo tempo em que melhora a colaboração entre equipes em cargas de trabalho de IA de próxima geração, como agentes de IA, em uma única plataforma. Com base em padrões abertos, o Red Hat AI 3 acompanha as organizações em qualquer estágio da jornada de IA, suportando qualquer modelo em qualquer acelerador de hardware: desde datacenters a nuvens públicas, e ecossistemas de IA soberana até a edge.
Do treinamento à ação: a mudança para a inferência de IA empresarial
Com as organizações levando suas iniciativas de IA para a produção, o foco passa do treinamento e ajuste de modelos para a inferência, a fase de “ação” da IA empresarial. O Red Hat AI 3 dá ênfase à inferência escalável e economicamente viável, baseando-se no enorme sucesso dos projetos comunitários vLLM e llm-d, e nas capacidades de otimização de modelos da Red Hat, para oferecer serviços de inferência de grandes modelos de linguagem (LLM) em nível de produção.
Para ajudar os CIOs a aproveitarem ao máximo seus investimentos em aceleração de hardware de alto valor, o Red Hat OpenShift AI 3.0 disponibiliza o llm-d, que reinventa a forma como os LLM são executados nativamente no Kubernetes. O llm-d habilita a inferência inteligente distribuída, aproveitando o valor comprovado da orquestração do Kubernetes e o desempenho do vLLM, combinado com tecnologias open source essenciais, como o Kubernetes Gateway API Inference Extension, a biblioteca de transferência de dados de baixa latência NVIDIA Dynamo (NIXL) e a biblioteca de comunicação DeepEP Mixture of Experts (MoE), permitindo às organizações:
- Reduzir custos e melhorar os tempos de resposta com agendamento inteligente de modelos com reconhecimento de inferência e execução desagregada.
- Simplificar as operações e maximizar a confiança com percursos prescritivos que simplificam a implementação de modelos em escala no Kubernetes.
- Maximizar a flexibilidade com suporte multiplataforma para implantar a inferência de LLM em diferentes aceleradores de hardware, incluindo NVIDIA e AMD.
- O llm-d expande as capacidades do vLLM, evoluindo-o de um motor de inferência de alto desempenho em nó único para um sistema distribuído, consistente e escalável, integrado ao Kubernetes, e projetado para permitir desempenho previsível, ROI mensurável e planejamento eficaz de infraestrutura. Todas as melhorias abordam diretamente os desafios de lidar com cargas de trabalho de LLM altamente variáveis e de servir modelos massivos, como os Mixture-of-Experts (MoE).
Uma plataforma unificada para uma IA colaborativa
O Red Hat AI 3 oferece uma experiência unificada e flexível, adaptada às demandas colaborativas da construção de soluções de IA generativa prontas para produção. Foi projetado para entregar valor tangível, fomentando a colaboração e unificando os fluxos de trabalho entre as equipes por meio de uma plataforma única para que tanto os engenheiros de plataforma como os engenheiros de IA executem sua estratégia de IA. Novas capacidades voltadas a oferecer a produtividade e eficiência necessárias para escalar do conceito à produção incluem:
- Capacidades de Modelo como Serviço (MaaS) baseadas na inferência distribuída, que permitem às equipes de TI agir como seus próprios provedores de MaaS, servindo modelos comuns centralmente e entregando acesso sob demanda para desenvolvedores e aplicações de IA. Isso possibilita uma melhor gestão de custos e dá suporte a casos de uso que não podem ser executados em serviços públicos de IA devido a preocupações com privacidade ou dados.
- O AI Hub capacita os engenheiros de plataforma a explorar, implantar e gerenciar ativos fundamentais de IA. Ele fornece um hub central com um catálogo de modelos selecionados, incluindo modelos de IA generativa validados e otimizados, um registro para gerenciar o ciclo de vida dos modelos e um ambiente de implantação para configurar e monitorar todos os ativos de IA em execução no OpenShift AI.
- O Gen AI Studio oferece um ambiente prático para que engenheiros de IA interajam com modelos e prototipem rapidamente novas aplicações de IA generativa. Com o recurso de endpoint de ativos de IA, os engenheiros podem descobrir e consumir facilmente modelos disponíveis e servidores MCP, projetados para otimizar a interação entre modelos e ferramentas externas. O ambiente de teste integrado fornece um ambiente interativo e stateless para experimentar modelos, testar prompts e ajustar parâmetros para casos de uso como chat e Retrieval-Augmented Generation (RAG).
- Novos modelos validados e otimizados pela Red Hat estão incluídos para simplificar o desenvolvimento. A seleção com curadoria inclui modelos populares de código aberto, como o gpt-oss da OpenAI, o DeepSeek-R1, e modelos especializados, como o Whisper para fala-para-texto e o Voxtral Mini para agentes habilitados por voz.
Construindo a base para a próxima geração de agentes de IA
Os agentes de IA estão prestes a transformar a forma como as aplicações são desenvolvidas, e os seus fluxos de trabalho autônomos e complexos vão exigir alta capacidade de inferência. O lançamento do Red Hat OpenShift AI 3.0 continua a estabelecer a base para sistemas de agentes de IA escaláveis, não apenas por meio da inferência, mas também com novos recursos voltados à gestão de agentes.
Para acelerar a criação e implantação de agentes, a Red Hat introduziu uma camada de API unificada, baseada no Llama Stack, que ajuda a alinhar o desenvolvimento com padrões da indústria, como os protocolos de interface de LLM compatíveis com a OpenAI. Além disso, para promover um ecossistema mais aberto e interoperável, a Red Hat é uma das primeiras a adotar o Model Context Protocol (MCP), um padrão emergente e poderoso que simplifica como os modelos de IA interagem com ferramentas externas, um recurso essencial para os agentes de IA modernos.
O Red Hat AI 3 introduz um novo conjunto de ferramentas modular e extensível para a customização de modelos, construído sobre a funcionalidade existente do InstructLab. Ele fornece bibliotecas Python especializadas que dão aos desenvolvedores maior flexibilidade e controle. O toolkit é alimentado por projetos de código aberto como o Docling para processamento de dados, que simplifica a ingestão de documentos não estruturados em um formato legível por IA. Também inclui uma estrutura flexível para geração de dados sintéticos e um hub de treinamento para o ajuste fino de LLM. O hub de avaliação integrado ajuda os engenheiros de IA a monitorar e validar os resultados, capacitando-os a alavancar com confiança seus dados proprietários para resultados de IA mais precisos e relevantes.