Desvendando a Ingestão de Dados no Microsoft Fabric com Apache Spark (Parte Prática)
ฝัง
- เผยแพร่เมื่อ 10 ก.ย. 2024
- Neste vídeo, vou mostrar na prática como fazer a ingestão de dados usando um notebook Apache Spark dentro do Microsoft Fabric . Esta é uma ferramenta poderosa para processar grandes volumes de dados de forma eficiente.
Link do módulo na Microsoft:
learn.microsof...
Benefícios e Funcionalidades:
- Processamento Rápido: Apache Spark processa dados muito mais rápido que as ferramentas tradicionais.
- Análise em Tempo Real: Permite analisar dados em tempo real, essencial para decisões rápidas.
- Escalabilidade: Facilmente escalável para lidar com grandes quantidades de dados.
- Integração Simples: Integra-se facilmente com outras ferramentas e serviços do Microsoft Fabric.
Se você está começando e quer entender como essas ferramentas podem ajudar sua organização a lidar com dados de forma eficiente, este vídeo é para você!
Não se esqueça de se inscrever e deixar seu like!
Links extras:
learn.microsof...
#apachespark #microsoftfabric #dataengineering #dataprocessing #bigdata #análisededados #datascience
Código faltante no material da microsoft:
from pyspark.sql.functions import col, to_timestamp, current_timestamp, year, month
Read the parquet data from the specified path
raw_df = spark.read.parquet(output_parquet_path)
Add dataload_datetime column with current timestamp
opt_df = raw_df.withColumn("dataload_datetime", current_timestamp())
Filter columns to exclude any NULL values in storeAndFwdFlag
opt_df = opt_df.filter(opt_df["storeAndFwdFlag"].isNotNull())
Enable V-Order
spark.conf.set("spark.sql.parquet.vorder.enabled", "true")
Enable automatic Delta optimized write
spark.conf.set("spark.microsoft.delta.optimizeWrite.enabled", "true")
Load the filtered data into a Delta table
table_name = "yellow_taxi_opt" # New table name
opt_df.write.format("delta").mode("append").saveAsTable(table_name)
Display results
display(opt_df.limit(1))