Pular para o conteúdo principal

Chips de IA da AWS

AWS Inferentia

Obtenha alta performance com o menor custo no Amazon EC2 para inferência de aprendizado profundo e IA generativa

Por que escolher o Inferentia?

Os chips do AWS Inferentia foram projetados pela AWS para fornecer alta performance com o menor custo no Amazon EC2 para suas aplicações de inferência em aprendizado profundo (DL) e em IA generativa. 

O chip do AWS Inferentia de primeira geração é responsável pelas instâncias Inf1 do Amazon Elastic Compute Cloud (Amazon EC2), proporcionando throughput até 2,3 vezes maior e até 70% de redução no custo por inferência em relação a instâncias comparáveis do Amazon EC2. Muitos clientes, com destaque para a Finch AI, Sprinklr, Money Forward e Amazon Alexa, adotaram instâncias Inf1 e perceberam seus benefícios de performance e custo.

O chip do AWS Inferentia2 fornece throughput até quatro vezes superior e latência até dez vezes menor em comparação ao Inferentia. As instâncias Inf2 do Amazon EC2 baseadas em Inferentia2 são otimizadas para implantar modelos cada vez mais complexos, como grandes modelos de linguagem (LLM) e modelos de difusão latente, em escala. As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a oferecer suporte à inferência distribuída do aumento horizontal da escala com conectividade de altíssima velocidade entre os chips. Muitos clientes, incluindo Leonardo.ai, Deutsche Telekom e Qualtrics, adotaram instâncias Inf2 para suas aplicações de DL e IA generativa. 

O AWS Neuron SDK ajuda os desenvolvedores a implantar modelos nos chips do AWS Inferentia (e a treiná-los nos chips do AWS Trainium). Essa solução se integra nativamente a estruturas conhecidas, como PyTorch e TensorFlow, permitindo que você continue usando o código e os fluxos de trabalho existentes e realize a execução nos chips do Inferentia.

Benefícios do AWS Inferentia

Cada chip do Inferentia da primeira geração contém quatro NeuronCores de primeira geração, e cada instância Inf1 do EC2 pode ter até 16 chips do Inferentia. Cada chip do Inferentia2 contém dois NeuronCores de segunda geração, e cada instância Inf2 do EC2 pode fornecer suporte para até 12 chips do Inferentia2. Cada chip do Inferentia2 pode fornecer suporte para até 190 trilhões de operações de ponto flutuante por segundo (TFLOPS) de performance em FP16. A primeira geração do Inferentia contém 8 GB de memória DDR4 por chip e uma grande quantidade de memória no chip. O Inferentia2 oferece 32 GB de HBM por chip, aumentando a memória total em quatro vezes e a largura de banda de memória em dez vezes em comparação com o Inferentia.

O AWS Neuron SDK se integra nativamente a frameworks de ML bem conhecidos, como PyTorch e TensorFlow. Com o AWS Neuron, você pode usar esses frameworks para implantar modelos de aprendizado profundo de maneira otimizada tanto nos chips do AWS Inferentia quanto no Neuron, que é projetado para minimizar as alterações no código e a dependência de soluções específicas de fornecedores. O Neuron ajuda a executar as aplicações de inferência para compreensão e processamento de linguagem natural (PLN), tradução de idiomas, resumo de textos, geração de vídeos e imagens, reconhecimento de fala, personalização, detecção de fraudes e muito mais nos chips do Inferentia.

A primeira geração do Inferentia oferece suporte aos tipos de dados FP16, BF16 e INT8. O Inferentia2 acrescenta suporte para os tipos de dados FP32, TF32 e o novo FP8 configurável (cFP8) para oferecer aos desenvolvedores mais flexibilidade para otimizar a performance e a precisão. O AWS Neuron seleciona automaticamente os modelos FP32 de alta precisão para tipos de dados com precisão mais baixa, ao mesmo tempo que otimiza a precisão e a performance. A seleção automática reduz o tempo de entrada no mercado, removendo a necessidade de retreinamento de precisão mais baixa.

O Inferentia2 acrescenta otimizações de hardware para tamanhos de entrada dinâmicos e operadores personalizados escritos em C++. Também comporta arredondamento estocástico, uma maneira de arredondar de forma probabilística que permite alta performance e precisão mais elevada em comparação com os modos de arredondamento herdados.

As instâncias Inf2 oferecem até 50% mais performance por watt em comparação com instâncias do Amazon EC2 equivalentes, pois elas e os chips do Inferentia2 subjacentes são projetados com propósito específico de executar modelos de aprendizado profundo em escala. As instâncias Inf2 ajudam você a atingir suas metas de sustentabilidade ao implantar modelos muito grandes.

Karakuri

Saiba como a Karakuri fornece IA de alto desempenho enquanto controla os custos usando o AWS Inferentia


Missing alt text value

Metagenomi



Saiba como a Metagenomi reduziu os custos de design de proteínas em grande escala em até 56% usando o AWS Inferentia

Leia o blog

NetoAI

Saiba como a NetoAI alcançou uma latência de inferência de 300 a 600 ms usando o AWS Inferentia2

Missing alt text value

Tomofun

Saiba como a Tomofun reduziu os custos de implantação da inferência BLIP em 83% ao migrar para o AWS Inferentia

Leia o depoimento

SplashMusic



Saiba como a SplashMusic reduziu a latência de inferência em
até dez vezes usando o AWS Inferentia

Missing alt text value

Leonardo.ai

“Nossa equipe na Leonardo aproveita a IA generativa para permitir que profissionais criativos e entusiastas produzam recursos visuais com qualidade, velocidade e consistência de estilo incomparáveis. Utilizando o AWS Inferentia2, conseguimos reduzir nossos custos em 80%, sem sacrificar o desempenho, alterando fundamentalmente o valor que podemos oferecer aos clientes, fazendo com que nossos recursos mais avançados ficassem com um preço mais acessível. Isso também alivia as preocupações com custo e disponibilidade de capacidade para nossos serviços auxiliares de IA, que são cada vez mais importantes à medida que crescemos e escalamos. É uma tecnologia capacitadora fundamental para nós à medida que continuamos a desafiar os limites do que é possível com a IA generativa, permitindo uma nova era de criatividade e poder expressivo para nossos usuários.

Pete Werner, chefe de IA, Leonardo.ai

Logo for Leonardo AI featuring a stylized portrait resembling Leonardo da Vinci with geometric accents and vibrant colors next to the text 'Leonardo AI'.

Qualtrics

A Qualtrics projeta e desenvolve software de gerenciamento de experiências.

Na Qualtrics, nosso foco é criar tecnologia que preencha lacunas de experiência para clientes, funcionários, marcas e produtos. Para isso, estamos desenvolvendo modelos complexos de DL multimodal e multitarefa para lançar novos recursos, como classificação de texto, marcação de sequências, análise de discurso, extração de frases-chave, extração de tópicos, agrupamento em clusters e compreensão de conversas de ponta a ponta. À medida que utilizamos esses modelos mais complexos em mais aplicações, o volume de dados não estruturados aumenta e precisamos de mais soluções otimizadas para inferência de performance que possam atender a essas demandas, como as instâncias Inf2, para oferecer as melhores experiências aos nossos clientes. Estamos entusiasmados com as novas instâncias Inf2, pois elas não só nos permitirão alcançar maiores throughputs, ao mesmo tempo que reduzirão de forma significativa a latência, mas também introduzirão recursos como inferência distribuída e suporte aprimorado ao formato de entrada dinâmico, que nos ajudarão a escalar para atender às necessidades de implantação à medida que avançamos para modelos grandes e mais complexos.

Aaron Colak, diretor de core machine learning, Qualtrics

Qualtrics XM logo with stylized 'XM' in blue gradient on a white background.

Finch Computing

A Finch Computing é uma empresa de tecnologia de linguagem natural que fornece aplicações de inteligência artificial para clientes governamentais, de serviços financeiros e integradores de dados.

Para atender às necessidades de PLN em tempo real dos nossos clientes, desenvolvemos modelos de DL de última geração que se adaptam a grandes workloads de produção. Precisamos fornecer transações de baixa latência e obter altos throughputs para processar feeds de dados globais. Já migramos muitas workloads de produção para instâncias Inf1 e obtivemos uma redução de 80% no custo em relação a GPUs. Agora, estamos desenvolvendo modelos maiores e mais complexos que promovem um significado mais profundo e esclarecedor do texto escrito. Muitos de nossos clientes precisam acessar esses insights em tempo real, e o desempenho das instâncias Inf2 nos ajudará a oferecer menor latência e maior throughput em relação às instâncias Inf1. Com as melhorias de desempenho e os novos recursos das instâncias Inf2, como suporte para tamanhos dinâmicos de entrada, estamos melhorando o custo-benefício, elevando a experiência do cliente em tempo real e ajudando nossos clientes a obter novos insights de seus dados.

Franz Weckesser, arquiteto chefe, Finch Computing

Logo of Finch AI featuring a stylized origami bird and the text 'FinchAI'.

Dataminr

Alertamos sobre vários tipos de eventos em todo o mundo em vários idiomas, em diferentes formatos (imagens, vídeo, áudio, sensores de texto, combinações de todos esses tipos) de centenas de milhares de fontes. Otimizar a velocidade e o custo, considerando essa escala, é absolutamente essencial para nossos negócios. Com o AWS Inferentia, reduzimos a latência do modelo e alcançamos um throughput até nove vezes melhor por dólar. Isso nos permitiu aumentar a precisão do modelo e desenvolver os recursos de nossa plataforma implantando modelos de DL mais sofisticados e processando cinco vezes mais volume de dados, mantendo nossos custos sob controle.

Alex Jaimes, cientista-chefe e vice-presidente sênior de IA, Dataminr

The logo for Dataminr, featuring the company name and a distinctive icon in blue.

Snap Inc.

Incorporamos ML a vários aspectos do Snapchat, e explorar a inovação nessa área é a principal prioridade. Depois que conhecemos o Inferentia, começamos a colaborar com a AWS para adotar instâncias Inf1/Inferentia para nos ajudar com a implantação de ML, inclusive sobre desempenho e custo. Começamos com nossos modelos de recomendação e estamos ansiosos para adotar mais modelos com as instâncias Inf1 no futuro.

Nima Khajehnouri, vice-presidente de engenharia, Snap Inc.

The Snapchat logo, featuring a white ghost icon on a black background.

Sprinklr

A plataforma de gerenciamento da experiência do cliente orientada por IA da Sprinklr (Unified-CXM) permite que as empresas coletem e traduzam o feedback do cliente em insights acionáveis, em tempo real, por meio de vários canais. Isso resulta em uma resolução proativa de problemas, no aperfeiçoamento do desenvolvimento de produtos, no aprimoramento do marketing de conteúdo, em um melhor atendimento ao cliente e muito mais. Com a instância Inf1 do Amazon EC2, conseguimos melhorar significativamente o desempenho de um de nossos modelos de PLN e o desempenho de um de nossos modelos de visão computacional. Estamos ansiosos para continuar usando as instâncias Inf1 do Amazon EC2 para melhor atender nossos clientes globais.

Vasant Srinivasan, vice-presidente sênior de engenharia de produto, Sprinklr

The logo of Sprinklr, featuring a multicolored icon and text. Used for branding and visual identification.

Autodesk

A Autodesk está aprimorando a tecnologia cognitiva do nosso assistente virtual baseado em IA, o Autodesk Virtual Agent (AVA), com o uso do Inferentia. O AVA responde a mais de 100 mil perguntas de clientes por mês empregando técnicas de compreensão da linguagem natural (NLU) e de DL para extrair o contexto, a finalidade e o significado das consultas. No projeto piloto do Inferentia, conseguimos alcançar um throughput 4,9 vezes superior em relação às instâncias G4dn para nossos modelos de NLU, e estamos na expectativa de executar mais workloads nas instâncias Inf1 baseadas no Inferentia.

Binghui Ouyang, cientista de dados sênior, Autodesk

The Autodesk logo in black text on a white background.

Screening Eagle Technologies

O uso do radar de penetração no solo e da detecção de defeitos visuais é normalmente o domínio de inspetores especializados. Uma arquitetura baseada em microsserviços da AWS nos permite processar vídeos capturados por veículos de inspeção automatizados e por inspetores. Ao migrar os modelos criados internamente das instâncias baseadas em GPU para o Inferentia, conseguimos reduzir 50% do custo. Além disso, conseguimos melhorar o desempenho, quando comparamos os tempos com uma instância G4dn de GPU. Nossa equipe está entusiasmada com a execução de mais workloads nas instâncias Inf1 baseadas no Inferentia.

Jesús Hormigo, diretor de nuvem e IA, Screening Eagle Technologies

The Screening Eagle logo featuring a stylized eagle head with the words 'Screening Eagle' in teal.

NTT PC Communications Inc.

A NTT PC Communications, um provedor de soluções de comunicação e serviços de rede no Japão, é líder em telecomunicações na introdução de novos produtos inovadores no mercado de tecnologia da informação e comunicação.

A NTT PC desenvolveu o AnyMotion, um serviço de plataforma de API de análise de movimento baseado em modelos avançados de ML para estimativa de postura. Implantamos nossa plataforma AnyMotion em instâncias Inf1 do Amazon EC2 usando o Amazon ECS para um serviço de orquestração de contêineres totalmente gerenciado. Ao implantar nossos contêineres AnyMotion na instância Inf1 do Amazon EC2, notamos que o throughput aumentou cerca de 4,5 vezes, a latência de inferência diminuiu 25% e o custo foi reduzido em 90% em comparação com as instâncias do EC2 baseadas em GPU da geração atual. Esses resultados superiores ajudarão a melhorar a qualidade dos serviços do AnyMotion em grande escala.

Toshiki Yanagisawa, engenheiro de software, NTT PC Communications Inc.

The logo of NTTPC Communications, featuring stylized text and a circular emblem.

Anthem

A Anthem é uma das empresas de prestação de serviços de saúde líderes do mercado, que atende às necessidades de mais de 40 milhões de associados do setor de saúde em vários estados americanos.

O mercado de plataformas de saúde digital está crescendo a um ritmo notável. A coleta de inteligência neste mercado é um desafio devido ao grande volume de dados de opiniões dos clientes e à sua natureza não estruturada. A nossa aplicação automatiza a geração de insights práticos obtidos pelas opiniões dos clientes, por meio de modelos de linguagem natural de DL (Transformers). A aplicação tem um forte componente computacional e precisa ser implantada com alta performance. Implantamos facilmente nossa workload de inferência do DL nas instâncias Inf1 do Amazon EC2, com a tecnologia do processador AWS Inferentia. As novas instâncias Inf1 fornecem um throughput duas vezes maior para as instâncias baseadas em GPU e nos permitem agilizar as workloads de inferência.

Numan Laanait e Miro Mihaylov, PhDs, cientistas-chefe de IA e dados, Anthem

The Anthem logo featuring the word 'Anthem' alongside stylized blue cross and blue shield symbols.

Vídeos

Veja os bastidores da infraestrutura de IA generativa na Amazon
Apresentação das instâncias Inf2 do Amazon EC2 com a tecnologia AWS Inferentia2
Como quatro clientes da AWS reduziram os custos de ML e impulsionaram a inovação com o AWS Inferentia