Skip to main content

Trilha de Desenvolvimento

Este guia apresenta o fluxo completo de desenvolvimento de um projeto no Microsoft Fabric, indicando quais cargas de trabalho utilizar em cada etapa.


Visão Geral do Fluxo

1. SETUP
Lakehouse
Warehouse
2. INGESTÃO(Bronze)
Pipeline
Copy Job
Dataflow
Notebook
3. TRANSFORMAÇÃO(Silver/Gold)
Notebook
Dataflow
4. CONSUMO(BI/ML)
Semantic
Relatório
ML

← ← ← Fluxo de execução → → →

5. ORQUESTRAÇÃOPipeline Master — Automatiza todas as etapas

Etapa 1: Setup do Ambiente

Objetivo: Criar a estrutura de destino dos dados no OneLake.

AçãoCarga de TrabalhoArtefato Criado
Criar repositório de dados BronzeLakehouselh_corp_bronze
Criar repositório de dados SilverLakehouselh_corp_silver
Criar repositório de dados GoldLakehouselh_corp_gold
Criar warehouse para consultas SQL (opcional)Warehousewh_corp_analytics
Quando usar Warehouse vs Lakehouse?
  • Lakehouse: Processamento Spark, arquitetura Medallion, Direct Lake
  • Warehouse: Equipes que preferem T-SQL puro, integrações ODBC/JDBC

Etapa 2: Ingestão (Bronze)

Objetivo: Extrair dados das fontes e carregar no Lakehouse Bronze sem transformações.

Opções de Cargas de Trabalho

Carga de TrabalhoQuando UsarExemplo
Copy JobCópia simples e direta, sem necessidade de orquestração complexaCopiar tabela única do SQL Server para o Lakehouse
Data Pipeline (Copy Activity)Cópia com orquestração, múltiplas tabelas, agendamento avançadoExtrair várias tabelas do Protheus em sequência
Dataflow Gen2Fontes que precisam de leve tratamento visual (Power Query)Ingerir Excel do SharePoint com seleção de colunas
Notebook PySparkFontes complexas, APIs com paginação, lógica customizadaAPI com autenticação OAuth e paginação

Matriz de Decisão: Ingestão

QUAL A FONTE DE DADOS?
Banco de Dados(SQL Server, Oracle, MySQL)
Arquivo(Excel, CSV, Parquet, JSON)
API(REST, SOAP, GraphQL)
Quantas tabelas? Precisa orquestrar?
Precisa de transformação leve?
Lógica complexa? (paginação, auth)
SIMPLESCopy Job
MÚLTIPLASPipeline
USARDataflow Gen2Power Query
SIMPLESPipeline
COMPLEXANotebook

Copy Job vs Pipeline: Quando usar cada um?

CritérioCopy JobData Pipeline
ComplexidadeSimples, uma origem → um destinoMúltiplas origens, orquestração complexa
AgendamentoBásicoAvançado (triggers, dependências)
TransformaçãoNenhumaSuporta atividades de transformação
Caso de usoCopiar tabela única rapidamenteETL completo com múltiplas etapas
Curva de aprendizadoBaixaMédia

Exemplo Prático: Ingestão

FonteCarga de TrabalhoArtefatoDestino
Protheus (SA1 - Clientes)Copy Jobcj_protheus_sa1lh_corp_bronze.dbo.tb_raw_protheus_sa1
Protheus (Múltiplas tabelas)Data Pipelinepl_bronze_protheus_ingestaolh_corp_bronze.dbo.tb_raw_protheus_*
SharePoint (Metas.xlsx)Dataflow Gen2df_bronze_sharepoint_goalslh_corp_bronze.dbo.tb_raw_sharepoint_sales_goals
API BCB (Cotação Dólar)Notebooknb_bronze_dollar_ratelh_corp_bronze.dbo.tb_raw_api_dollar_rate

Etapa 3: Transformação (Silver)

Objetivo: Limpar, padronizar e aplicar regras de qualidade nos dados.

Opções de Cargas de Trabalho

Carga de TrabalhoQuando UsarExemplo
Notebook PySparkTransformações complexas, grande volume, lógica de negócioDeduplicação por CNPJ, cálculo de métricas
Dataflow Gen2Transformações simples, equipe familiarizada com Power QueryRenomear colunas, filtrar registros nulos

Matriz de Decisão: Transformação Silver

QUAL A COMPLEXIDADE DA TRANSFORMAÇÃO?
SIMPLESFiltros, renomear colunas, conversão de tipos, remover nulos
COMPLEXAJoins, deduplicação, merge/upsert, UDFs, regras de negócio
USARDataflow Gen2Interface visual Power Query
USARNotebook PySparkCódigo Python/Spark
Exemplos:• Renomear colunas do Protheus• Filtrar registros ativos• Converter datas
Exemplos:• Deduplicação por CNPJ• Join SD2 + SC5 (vendas)• SCD Type 2

Exemplo Prático: Transformação Silver

TransformaçãoCarga de TrabalhoArtefatoOrigem → Destino
Limpeza de clientes (dedup CNPJ, padronização)Notebooknb_silver_customer_cleaningtb_raw_protheus_sa1tb_dim_customer
Hierarquia de produtosNotebooknb_silver_product_transformationtb_raw_protheus_sb1tb_dim_product
Fato de vendas (join SD2 + SC5)Notebooknb_silver_sales_transformationtb_raw_protheus_sd2 + sc5tb_fact_sales
Dimensão tempoNotebooknb_util_generate_dim_dateScript gerador → tb_dim_date

Etapa 4: Agregação (Gold)

Objetivo: Criar agregações, KPIs e views otimizadas para consumo.

Matriz de Decisão: Agregação Gold

QUAL O TIPO DE AGREGAÇÃO?
SIMPLESViews, agregações básicas, GROUP BY direto
COMPLEXAKPIs com múltiplas regras, grandes volumes, lógica condicional
USARSQL EndpointT-SQL no Lakehouse/Warehouse
USARNotebook PySparkCódigo Python/Spark
Exemplos:• Views para Power BI• SUM/COUNT por período• Tabelas agregadas simples
Exemplos:• KPIs com regras condicionais• Agregações multi-tabela• Cálculos de ranking/percentil

Exemplo Prático: Agregação Gold

AgregaçãoCarga de TrabalhoArtefatoOrigem → Destino
Vendas agregadas por dia/mêsNotebooknb_gold_sales_aggregationtb_fact_salestb_agg_sales_daily, tb_agg_sales_monthly
KPIs comerciaisNotebooknb_gold_kpis_calculationtb_fact_sales + tb_fact_goalstb_kpi_sales_*
View para Power BISQL EndpointQuery SQLtb_agg_*vw_sales_powerbi

Etapa 5: Consumo (BI e ML)

Objetivo: Disponibilizar dados para análise e modelos preditivos.

Opções de Cargas de Trabalho

Carga de TrabalhoQuando UsarArtefato
Semantic ModelModelagem dimensional para Power BIsm_sales_general
Relatório Power BIVisualização e dashboardsComercial - Vendas Diárias
Notebook MLTreinamento e scoring de modelosnb_ml_churn_training

Modo de Conexão: Direct Lake

FLUXO DIRECT LAKE — CONSUMO SEM IMPORTAÇÃO
lh_corp_goldDelta Tables
Direct Lakesem importação
Semantic Modelsm_sales_*
Consumoem tempo real
RelatórioComercial - *
⚡ PerformanceLeitura direta do Delta sem cópia
🔄 AtualizaçãoDados sempre atualizados automaticamente
💾 StorageSem duplicação de dados

Exemplo Prático: Consumo

NecessidadeCarga de TrabalhoArtefato
Dashboard de vendasSemantic Model + Relatóriosm_sales_generalComercial - Vendas Diárias
Análise ad-hoc SQLWarehouse / SQL Endpointwh_corp_analytics
Previsão de churnNotebook MLnb_ml_churn_scoringtb_ml_churn_predictions

Etapa 6: Orquestração

Objetivo: Automatizar e agendar a execução do fluxo completo.

Carga de Trabalho

Carga de TrabalhoFunção
Data PipelineOrquestrar a execução sequencial de todas as etapas

Estrutura do Pipeline Master

pl_master_daily — Execução às 6h
1
INGESTÃO BRONZE
Copy Job: Protheus SA1
Pipeline: Protheus (múltiplas)
Dataflow: SharePoint
2
TRANSFORMAÇÃO SILVER
nb_silver_customer_cleaning
nb_silver_product_transformation
nb_silver_sales_transformation
3
AGREGAÇÃO GOLD
nb_gold_sales_aggregation
nb_gold_kpis_calculation
4
REFRESH SEMANTIC MODELS
sm_sales_general
sm_stock_general
sm_corp_executive

Resumo: Cargas de Trabalho por Etapa

EtapaCargas de TrabalhoObjetivo
1. SetupLakehouse, WarehouseCriar estrutura de destino
2. Ingestão (Bronze)Copy Job, Pipeline, Dataflow Gen2, NotebookExtrair dados das fontes
3. Transformação (Silver)Notebook, Dataflow Gen2Limpar e padronizar
4. Agregação (Gold)Notebook, SQLAgregar e criar KPIs
5. ConsumoSemantic Model, Relatório, Notebook MLAnálise e predição
6. OrquestraçãoPipeline (Master)Automatizar execução

Fluxo Visual Completo

FONTES DE DADOS
ProtheusSQL Server
SharePointExcel
APIsREST
OutrosCSV, JSON
INGESTÃO (Data Factory)
Copy Job
Pipeline
Dataflow
Notebook
lh_corp_bronzetb_raw_protheus_sa1 | tb_raw_protheus_sd2 | tb_raw_sharepoint_sales_goals | tb_raw_api_dollar_rate
TRANSFORMAÇÃO (Data Engineering)
Notebook
Dataflow
lh_corp_silvertb_dim_customer | tb_dim_product | tb_dim_date | tb_fact_sales | tb_fact_stock
AGREGAÇÃO (Data Engineering)
Notebook
lh_corp_goldtb_agg_sales_daily | tb_agg_sales_monthly | tb_kpi_sales_* | vw_sales_powerbi
Data Science
Notebook MLnb_ml_churn_scoring
Power BI
Semantic Modelsm_sales_*
RelatórioComercial - *

Dúvidas, Sugestões ou Problemas?

Entre em contato com o Time de Transformação Digital (TD) ou o Comitê de Dados.