O que é o aumento de dados?
Tópicos da página
- O que é o aumento de dados?
- Por que o aumento de dados é importante?
- Quais são os casos de uso do aumento de dados?
- Como o aumento de dados funciona?
- Quais são algumas técnicas de aumento de dados?
- Qual é o papel da IA generativa no aumento de dados?
- De que maneira a AWS pode apoiar seus requisitos de aumento de dados?
O que é o aumento de dados?
O aumento de dados consiste no processo de gerar artificialmente novos dados com base em dados existentes, principalmente para treinar novos modelos de machine learning (ML). Os modelos de ML requerem conjuntos de dados grandes e variados para o treinamento inicial, mas a obtenção de conjuntos de dados reais suficientemente diversos pode ser desafiadora devido a silos de dados, regulamentações e outras limitações. A técnica de aumento de dados aumenta artificialmente o conjunto de dados ao fazer pequenas alterações nos dados originais. Atualmente, as soluções de inteligência artificial generativa estão sendo usadas para o aumento de dados rápido e de alta qualidade em diversos setores.
Por que o aumento de dados é importante?
Os modelos de aprendizado profundo se baseiam em grandes volumes de dados diversos para desenvolver previsões precisas em vários contextos. O aumento de dados complementa a criação de variações de dados que podem ajudar um modelo a melhorar a precisão de suas previsões. Os dados aumentados são fundamentais no treinamento.
A seguir, apresentamos alguns dos benefícios do aumento de dados.
Aprimoramento da performance do modelo
As técnicas de aumento de dados auxiliam no enriquecimento de conjuntos de dados ao gerarem diversas variações de dados existentes. Isso proporciona um conjunto de dados maior para treinamento e permite que um modelo encontre características mais diversas. Os dados aumentados auxiliam o modelo a ter uma melhor generalização para dados desconhecidos e a aprimorar a performance global em ambientes reais.
Redução da dependência de dados
A coleta e a preparação de grandes volumes de dados para treinamento podem ser dispendiosas e demoradas. As técnicas de aumento de dados aumentam a eficácia de conjuntos de dados menores, reduzindo drasticamente a dependência de grandes conjuntos de dados em ambientes de treinamento. É possível usar conjuntos de dados menores para complementar o conjunto com pontos de dados sintéticos.
Mitigação do sobreajuste nos dados de treinamento
O aumento de dados ajuda a prevenir o sobreajuste quando você está realizando o treinamento de modelos de ML. O sobreajuste é o comportamento indesejável de ML em que um modelo consegue fornecer previsões com precisão para os dados de treinamento, mas enfrenta dificuldade em lidar com novos dados. Se um modelo for treinado apenas com um conjunto de dados restrito, ele pode sofrer sobreajuste e fornecer previsões relacionadas somente a esse tipo específico de dados. Em contrapartida, o aumento de dados fornece um conjunto de dados muito maior e mais abrangente para o treinamento de modelo. Isso faz com que os conjuntos de treinamento pareçam únicos para redes neurais profundas, impedindo que elas aprendam a trabalhar somente com características específicas.
Saiba mais sobre redes neurais
Aprimoramento da privacidade de dados
Se você precisar treinar um modelo de aprendizado profundo com dados sensíveis, poderá usar técnicas de aumento nos dados existentes para criar dados sintéticos. Estes dados aumentados retêm as propriedades estatísticas e pesos dos dados de entrada enquanto protegem e restringem o acesso ao original.
Quais são os casos de uso do aumento de dados?
O aumento de dados fornece diversas aplicações em vários setores, aprimorando a performance de modelos de ML em muitos segmentos.
Serviços de saúde
O aumento de dados é uma tecnologia útil em imagens médicas porque ajuda a melhorar modelos de diagnóstico que detectam, reconhecem e diagnosticam doenças com base em imagens. A criação de uma imagem aumentada fornece mais dados de treinamento para modelos, especialmente para doenças raras que carecem de variações de dados de origem. A produção e o uso de dados sintéticos de pacientes promovem o avanço da pesquisa médica ao mesmo tempo que respeitam todas as considerações de privacidade de dados.
Finanças
O aumento auxilia na produção de instâncias sintéticas de fraude, capacitando os modelos a treinarem para detectar fraudes de forma mais precisa em cenários reais. Conjuntos maiores de dados de treinamento ajudam em cenários de avaliação de riscos, aumentando o potencial de modelos de aprendizado profundo para avaliar riscos com precisão e prever tendências futuras.
Fabricação
O setor de fabricação emprega modelos de ML para identificar defeitos visuais em produtos. Ao complementar dados reais com imagens aumentadas, os modelos podem aprimorar as funcionalidades de reconhecimento de imagem e localizar possíveis defeitos. Esta estratégia também diminui a probabilidade de encaminhar um projeto danificado ou com defeito para fábricas e linhas de produção.
Varejo
Os ambientes de varejo usam modelos para identificar produtos e atribuí-los a categorias com base em fatores visuais. O aumento de dados pode produzir variações de dados sintéticos de imagens de produtos, criando um conjunto de treinamento que apresenta mais variação em termos de condições de iluminação, planos de fundo de imagem e ângulos do produto.
Como o aumento de dados funciona?
O aumento de dados transforma, edita ou modifica os dados existentes para a criação de variações. A seguir, apresentamos uma breve visão geral do processo.
Exploração de conjuntos de dados
A primeira etapa do aumento de dados consiste em analisar um conjunto de dados existente e compreender suas características. Características como o tamanho das imagens de entrada, a distribuição dos dados ou a estrutura do texto fornecem contexto adicional para o aumento de dados.
É possível selecionar diferentes técnicas de aumento de dados com base no tipo de dados subjacente e nos resultados desejados. Por exemplo, aumentar um conjunto de dados com muitas imagens inclui adicionar ruído a elas, redimensioná-las ou recortá-las. Como alternativa, o aumento de um conjunto de dados textuais para processamento de linguagem natural (PLN) substitui sinônimos ou parafraseia trechos.
Saiba mais sobre processamento de linguagem natural
Aumento dos dados existentes
Após selecionar a técnica de aumento de dados mais adequada à sua meta, você começa a aplicar diferentes transformações. Os pontos de dados ou as amostras de imagem no conjunto de dados são transformados usando o método de aumento de dados selecionado, o que fornece uma variedade de novas amostras aumentadas.
Durante o processo de aumento, você mantém as mesmas regras de rotulagem para garantir a consistência de dados, assegurando que os dados sintéticos incluam os mesmos rótulos correspondentes aos dados de origem.
Normalmente, você analisa as imagens sintéticas para verificar se a transformação ocorreu com êxito. Esta etapa adicional conduzida por seres humanos ajuda a manter uma qualidade de dados elevada.
Integração de formulários de dados
Em seguida, você combina os novos dados aumentados com os dados originais para produzir um conjunto de dados de treinamento maior para o modelo de ML. Ao treinar o modelo, você usa esse conjunto de dados composto por ambos os tipos de dados.
É importante salientar que os novos pontos de dados criados por meio do aumento de dados sintéticos carregam o mesmo viés que os dados de entrada originais. Para evitar que vieses sejam transferidos para os novos dados, corrija qualquer viés nos dados de origem antes de iniciar o processo de aumento de dados.
Quais são algumas técnicas de aumento de dados?
As técnicas de aumento de dados variam de acordo com os diferentes tipos de dados e contextos de negócios específicos.
Visão computacional
O aumento de dados é uma técnica central em tarefas de visão computacional. Essa técnica ajuda a criar representações de dados diversificadas e a lidar com desequilíbrios de classe em um conjunto de dados de treinamento.
A primeira aplicação de aumento de dados em visão computacional ocorre por meio do aumento de dados posicionais. Essa estratégia recorta, inverte ou rotaciona uma imagem de entrada para criar imagens aumentadas. Recortar significa redimensionar a imagem ou cortar uma pequena parte da imagem original para criar uma nova. As transformações de rotação, inversão e redimensionamento alteram a imagem original aleatoriamente, com uma determinada probabilidade de gerar novas imagens.
Outra aplicação do aumento de dados em visão computacional é na ampliação de cores. Essa estratégia ajusta os fatores elementares de uma imagem de treinamento, como brilho, grau de contraste ou saturação. Essas transformações comuns de imagem alteram a tonalidade, o equilíbrio entre claro e escuro e a separação entre as áreas mais escuras e mais claras de uma imagem para criar imagens aumentadas.
Saiba mais sobre visão computacional
Aumento de dados de áudio
Arquivos de áudio, como gravações de voz, também são uma área comum na qual você pode usar o aumento de dados. Normalmente, as transformações de áudio incluem a injeção de ruído aleatório ou gaussiano em alguns áudios, o adiantamento de partes, a alteração da velocidade de trechos por uma taxa fixa ou a alteração do tom.
Aumento de dados de texto
O aumento de texto é uma técnica de aumento de dados vital para o PLN e para outros setores de ML relacionados a texto. As transformações de dados textuais incluem embaralhar frases, alterar a posição das palavras, substituir palavras por sinônimos próximos, inserir palavras aleatórias e excluir palavras aleatórias.
Transferência de estilo neural
A transferência de estilo neural é uma forma avançada de aumento de dados que decompõe imagens em partes menores. A transferência usa uma série de camadas convolucionais que separam o estilo e o contexto de uma imagem, produzindo várias imagens de uma única.
Treinamento adversarial
Alterações no nível do pixel criam um desafio para um modelo de ML. Alguns exemplos incluem uma camada de ruído imperceptível sobre uma imagem para testar a habilidade do modelo em perceber a imagem subjacente. Essa estratégia é uma forma preventiva de aumento de dados, com foco no potencial acesso não autorizado no mundo real.
Qual é o papel da IA generativa no aumento de dados?
A IA generativa é essencial no aumento de dados porque facilita a produção de dados sintéticos. Ela ajuda a aumentar a diversidade dos dados, agilizar a criação de dados realistas e preservar a privacidade dos dados.
Redes adversárias generativas
As redes adversárias generativas (GAN) consistem em um framework de duas redes neurais centrais que trabalham em oposição. O gerador produz amostras de dados sintéticos e, em seguida, o discriminador realiza a distinção entre os dados reais e as amostras sintéticas.
Ao longo do tempo, as GANs aprimoram continuamente os resultados do gerador, concentrando-se em ludibriar o discriminador. Os dados que conseguem enganar o discriminador contam como dados sintéticos de alta qualidade, proporcionando um aumento de dados com amostras altamente fidedignas que mimetizam fielmente a distribuição original dos dados.
Codificadores automáticos variacionais
Os codificadores automáticos variacionais (VAE) consistem em um tipo de rede neural que ajuda a aumentar o tamanho da amostra dos dados principais e a reduzir a necessidade de uma coleta de dados demorada. Os VAEs têm duas redes conectadas: um decodificador e um codificador. O codificador recebe imagens de amostra e as converte em uma representação intermediária. O decodificador recebe a representação e recria imagens semelhantes com base em sua compreensão das amostras iniciais. Os VAEs são úteis por serem capazes de gerar dados com alta similaridade aos dados de amostra, auxiliando na adição de variedade enquanto preservam a distribuição original dos dados.
De que maneira a AWS pode apoiar seus requisitos de aumento de dados?
Os serviços de IA generativa na Amazon Web Services (AWS) consistem em um conjunto de tecnologias que organizações de qualquer porte podem usar para desenvolver e escalar aplicações de IA generativa com dados personalizados para casos de uso específicos. É possível inovar com maior rapidez usando as novas funcionalidades, uma variedade de modelos de base (FMs) líderes do setor e a infraestrutura de melhor custo-benefício. A seguir, apresentamos dois exemplos de serviços de IA generativa na AWS.
O Amazon Bedrock é um serviço totalmente gerenciado que oferece uma variedade de FMs de alta performance das empresas líderes em IA. É possível integrar e implantar funcionalidades de IA generativa com segurança para o aumento de dados sem a necessidade de gerenciamento da infraestrutura.
O Amazon Rekognition é um serviço de IA totalmente gerenciado que oferece recursos de visão computacional treinados previamente e personalizáveis para extrair informações e insights de imagens e vídeos. O desenvolvimento de um modelo personalizado para analisar imagens é um empreendimento significativo que requer tempo, conhecimento especializado e recursos. Frequentemente, são necessárias milhares ou dezenas de milhares de imagens rotuladas manualmente para fornecer ao modelo dados suficientes para a tomada de decisões com precisão.
Com o Amazon Rekognition Custom Labels, diversos aumentos de dados são realizados para o treinamento de modelo, incluindo o recorte aleatório da imagem, a variação de cores e os ruídos gaussianos aleatórios. Em vez de milhares de imagens, você precisa fazer o upload de apenas um conjunto reduzido de imagens de treinamento (normalmente algumas centenas ou menos) específicas para o seu caso de uso no console de fácil utilização.
Comece a usar o aumento de dados na AWS ao criar uma conta hoje mesmo.
Próximas etapas na AWS
Browse all cloud computing concepts
Browse all cloud computing concepts content here:
Did you find what you were looking for today?
Let us know so we can improve the quality of the content on our pages