ETL é um processo em Data Warehousing e significa Extrair , Transformar e Carregar . É um processo no qual uma ferramenta ETL extrai os dados de vários sistemas de origem de dados, os transforma na área de preparação e, finalmente, os carrega no sistema de Data Warehouse. 

Vamos entender cada etapa do processo ETL em profundidade: 

  1. Extração: 
    a primeira etapa do processo ETL é a extração. Nesta etapa, os dados de vários sistemas de origem são extraídos, os quais podem estar em vários formatos, como bancos de dados relacionais, No SQL, XML e arquivos simples na área de teste. É importante extrair os dados de vários sistemas de origem e armazená-los na área de preparação primeiro e não diretamente no data warehouse porque os dados extraídos estão em vários formatos e também podem ser corrompidos. Portanto, carregá-lo diretamente no data warehouse pode danificá-lo e a reversão será muito mais difícil. Portanto, esta é uma das etapas mais importantes do processo de ETL.
  2. Transformação: 
    a segunda etapa do processo ETL é a transformação. Nesta etapa, um conjunto de regras ou funções é aplicado aos dados extraídos para convertê-los em um único formato padrão. Pode envolver os seguintes processos / tarefas: 
    • Filtragem - carregando apenas determinados atributos no data warehouse.
    • Limpeza - preenchendo os valores NULL com alguns valores padrão, mapeando EUA, Estados Unidos e América nos EUA, etc.
    • Unindo - unindo vários atributos em um.
    • Divisão - divisão de um único atributo em vários atributos.
    • Classificando - classificando tuplas com base em algum atributo (geralmente atributo-chave).
  3. Carregando: 
    a terceira e última etapa do processo ETL é o carregamento. Nesta etapa, os dados transformados são finalmente carregados no data warehouse. Às vezes, os dados são atualizados carregando no data warehouse com muita frequência e às vezes isso é feito após intervalos mais longos, mas regulares. A taxa e o período de carregamento dependem exclusivamente dos requisitos e variam de sistema para sistema.

O processo ETL também pode usar o conceito de pipelining, ou seja, assim que alguns dados são extraídos, eles podem ser transformados e, durante esse período, alguns novos dados podem ser extraídos. E enquanto os dados transformados estão sendo carregados no data warehouse, os dados já extraídos podem ser transformados. O diagrama de blocos do pipelining do processo ETL é mostrado abaixo: 

Ferramentas ETL: as ferramentas ETL mais comumente usadas são Sybase, Oracle Warehouse builder, CloverETL e MarkLogic.