Desvendando a Ingestão de Dados no Microsoft Fabric com Apache Spark (Parte Prática)

แชร์
ฝัง
  • เผยแพร่เมื่อ 10 ก.ย. 2024
  • Neste vídeo, vou mostrar na prática como fazer a ingestão de dados usando um notebook Apache Spark dentro do Microsoft Fabric . Esta é uma ferramenta poderosa para processar grandes volumes de dados de forma eficiente.
    Link do módulo na Microsoft:
    learn.microsof...
    Benefícios e Funcionalidades:
    - Processamento Rápido: Apache Spark processa dados muito mais rápido que as ferramentas tradicionais.
    - Análise em Tempo Real: Permite analisar dados em tempo real, essencial para decisões rápidas.
    - Escalabilidade: Facilmente escalável para lidar com grandes quantidades de dados.
    - Integração Simples: Integra-se facilmente com outras ferramentas e serviços do Microsoft Fabric.
    Se você está começando e quer entender como essas ferramentas podem ajudar sua organização a lidar com dados de forma eficiente, este vídeo é para você!
    Não se esqueça de se inscrever e deixar seu like!
    Links extras:
    learn.microsof...
    #apachespark #microsoftfabric #dataengineering #dataprocessing #bigdata #análisededados #datascience
    Código faltante no material da microsoft:
    from pyspark.sql.functions import col, to_timestamp, current_timestamp, year, month
    Read the parquet data from the specified path
    raw_df = spark.read.parquet(output_parquet_path)
    Add dataload_datetime column with current timestamp
    opt_df = raw_df.withColumn("dataload_datetime", current_timestamp())
    Filter columns to exclude any NULL values in storeAndFwdFlag
    opt_df = opt_df.filter(opt_df["storeAndFwdFlag"].isNotNull())
    Enable V-Order
    spark.conf.set("spark.sql.parquet.vorder.enabled", "true")
    Enable automatic Delta optimized write
    spark.conf.set("spark.microsoft.delta.optimizeWrite.enabled", "true")
    Load the filtered data into a Delta table
    table_name = "yellow_taxi_opt" # New table name
    opt_df.write.format("delta").mode("append").saveAsTable(table_name)
    Display results
    display(opt_df.limit(1))

ความคิดเห็น •