Mão no código como usar o Spark com pyspark
ฝัง
- เผยแพร่เมื่อ 11 ต.ค. 2024
- Nets vídeo vamos ver como usar o spark com pyspark para processamento de dados.
Muito utilizado na área de engenharia de dados , o spark vem sendo muito utilizado com a linguagem python para desenvolvimento de etl (extração , transformação e carga ) no processo de transformação e processamento de dados.
Aprenda a usar os comandos mais usados no spark como a criação e tranformação de dataframe.
📔Livro: Spark: The Definitive Guide: Big Data Processing Made Simple (English Edition)
amzn.to/3h9T2I5
Curso Udacity Engenheiro de dados:
www.udacity.co...
✍Databricks Training
databricks.com...
💰Seja patrocinador do canal :
picpay.me/codi...
apoia.se/codifike
🖥Site:
www.codifike.c...
✍Blog:
codifike.com.b...
⌨Teclado redragon
corta.ai/vmSA
🎤Microfone samson
corta.ai/vmSA
🔦Iluminação
amzn.to/3xYjOJn
📸Camera logitech
amzn.to/3tyvWNC
#bigdata #engenhariadedados #apachespark
Muito bom. Esclareceu muita coisa e ainda mostrou uma forma de trabalhar com pyspark diferente do que aprendi.
Que bom que ajudou
Muito bom mesmo, e é como ver algo difícil parecer que você já sabe e conhece a tempos. Parabéns pela didática.
Obrigado
Parece tão fácil depois desse vídeo. Parabéns!!!
Obrigado João
Muito bom! Aula perfeita! Obrigada
Vídeos excelentes!
Obrigado por compartilhar com a comunidade
Obrigado Lucas
Excelente! Coisa rara assistir uma aula e não sentir vontade de pular, ta de parabens
Obrigado Gustabo
valeu vei peguei uma vaga numa multinacional como analista de dados BIG DATA, vou trabalhar com pyspark mas nunca tinha visto essa biblioteca
E como tu tá fazendo meu caro? Sou estagiário, e estou com uma task que está me tirando o sono ahahha
Sucesso!
Bacana, bem didático e prático.
Obrigado
amei!!
Valeu Eduardo
Eu Amei também, Edu!!!
tudo fica mais simples quando vc explica... ótimo conteúdo... se pudesse trazer um exemplo do spark realizando o processamento paralelo... que está muito no hype !!! abraço!
Boa sugestão!
Prof poderia ensinar a configurar o PySpark no VS code ??? em alguma video tutorial
Sugestão anotada!
+1 escrito, estou trabalhando com stack azure, utilizando Databricks para transformação de dados em camadas delta no delta lake, excelente conteúdo, parabéns
Maravilha
Muito bom Fabrício. Parabéns e obrigado!
Excelente explicação de comandos simples e poderosos. Obrigado
Que bom que gostou
Excelente conteúdo. Parabéns!!!
Obrigado
Minha dúvida é… um sgbd tipo o Postgres como data lake ? Ou tudo bem tbm fazer isso?
ótimo conteúdo! por favor, traga mais vivencias usando pyspark
Obrigado Letícia. 😀
Sensacional!
Obrigado Roberto
PARABÉNS pelo conteúdo. Acho que seria se disponibilizasse as bases de dados ou os links, em vez de ficarmos procurando, aí a gente teria como ficar fazendo e acompanhando as explicações.
Oi Danniel, obrigado pelo feedback. Vou colocar
Uma duvida, como eu faço tudo isso que vc fez ai na minha máquina, como configuro no meu Windowns
Excelente video
Obrigado
Excelente video!!!
Obrigado
Parabéns pelo trabalho!
Obrigado
Muito bom! Excelente conteúdo!
Obrigado 😃
muito obrigado e muito sucesso
Oi Mateus se quiser se aprofundar temos a formação Spark neste link : codifike.com.br/formacao-spark-full/
Excelente, só não achei no kagle e no imdb os arquivos utilizados.
Muito TOP! Parabens!
Obrigado
Excelente vídeo!
Obrigado
Muito bom, deu uma ótima clareada sobre o assunto.
Não teria como incluir o link para o mesmo arquivo que utilizou nos exemplos?
datasets.imdbws.com/
Excelente!
Obrigado 😃
Parabens pelo conteudo!
Obrigado
muito bom
Que top! Parabens
Obrigado
Man, você poderia fazer vídeo sobre Datavault ? O que eu encontrei e muito básico
Excelente!!!
Obrigado
cara ensina fazer lista invertida em py spark com arquivos de texto, preciso aprender a fazer isso para criar indices e dicionais
Sugestão anotada!
Excelente. Vc tem alguma aula explicando como obter o conjunto de dados de banco Oracle?
Tenta isso:
Antes de começar, certifique-se de ter o driver JDBC para Oracle. Você pode baixá-lo do site oficial da Oracle. Uma vez baixado, coloque o arquivo .jar em um local acessível.
Ao iniciar sua sessão PySpark, certifique-se de adicionar o driver JDBC ao classpath. Isso pode ser feito usando a opção --jars:.
pyspark --jars /caminho/para/o/driver/ojdbc8.jar
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("OracleAccess").getOrCreate()
oracle_url = "jdbc:oracle:thin:@//HOST:PORT/SID"
oracle_properties = {
"user": "SEU_USUARIO",
"password": "SUA_SENHA",
"driver": "oracle.jdbc.driver.OracleDriver"
}
df = spark.read.jdbc(oracle_url, "NOME_DA_TABELA", properties=oracle_properties)
df.show()
Substitua HOST, PORT, SID, SEU_USUARIO, SUA_SENHA e NOME_DA_TABELA pelos valores apropriados para sua configuração
Se você fizer alterações ou análises e quiser gravar os resultados de volta no Oracle, pode usar o método write.jdbc:
df.write.jdbc(oracle_url, "NOME_DA_TABELA_DESTINO", properties=oracle_properties, mode="overwrite")
Muito bom!!!!
Obrigado
Pode compartilhar o link para este colab?
Excelente video, mas gostaria de tirar uma duvida... Em SQL posso analisar o plano de execução e reescrever a consulta ou criar indices... Como esse "tuning" é realizado no PySpark, além da criação de RDs?
Vc pode usar o explain
ce eh o brabo pai
Obrigado 😂
Oi Fabricio, excelente conteúdo, parabéns.
Tenho uma duvida:
quero salvar o resultado do valor em outra variável sem o cabeçalho, é possível?
Como assim? Poderia dar um exemplo?
esse cara é dezz....FAZ CURSO..E COLOCA NA UDEMY...
Obrigado
Ja tem o curso, alias tem vários . Dá uma olhada aqui: codifike.com.br/loja/
os dataset do imdb mudaram estão com mais niveis, o que da pra brincar mais
Show. obrigado por avisar
No Google Colab eu poço simplesmente importar o pandas, começar codar em python e está tudo ok. A minha dúvida é, no caso do spark, quando eu faço a instalação dele no cluster, o que muda do primeiro exemplo que dei? Como é a forma de processar as coisas de ambos? Tudo aquilo que os olhos nossos não veem
Primeiro, você precisa ter um cluster Spark configurado. Isso pode ser um cluster em nuvem (como AWS EMR, Azure HDInsight, Google Cloud Dataproc) ou um cluster on-premise.
Ao criar um objeto SparkSession em seu código, você especifica o modo de execução do cluster. Em vez de master('local'), você usará algo como master('yarn'), master('k8s'), ou master('mesos'), dependendo do gerenciador de cluster que você está usando.
Por exemplo:
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("MeuAppSpark") \
.master("yarn") \
.getOrCreate()
Para você submeter seu código Spark (geralmente um script Python, Scala ou Java) ao cluster, é feito através da linha de comando usando spark-submit, ou através de interfaces de usuário fornecidas por plataformas de cluster em nuvem.
Quando vou deszipar o spark aparece essa mensagem: gzip: stdin: not in gzip format
tar: Child returned status 1
tar: Error is not recoverable: exiting now
algúem sabe porque?
Parece que não está baixando o arquivo zipado
@@Codifike estou tendo o mesmo problema. alguma sugestão pf?
Baixe o arquivo .tar.gz da página do Spark
Não sei se você conseguiu resolver, mas eu estava com o mesmo problema. Eu percebi que algumas coisas mudaram desde o lançamento do vídeo; no caso agora você tem que clicar no link e ele lhe redicionará para a página do *Apache* e de lá que você tem que baixar.
@@matheus_19625 valeu manin, tinha travado nisso tbm
Gostaria de saber como faz para funcionar na maquina local usando o vs code.
Teria que instalar o.dpark.na sua máquina. As vezes dá erro por isso prefiro o notebook
Boa noite pessoal, alguém sabe onde conseguir esses datasets do vídeo? desde já, agradeço.
Pode pegar no site imdb
Boa tarde Fabricio!
Como vai?
Estou com a pretensao de tirar meu certificado do databricks associate, indica algum conteudo para estudo?
Obrigado pelo conteudo!
Oi Leandro, oi melhor e da databricks academy, mas é muito caro. Tens uns muito bons na coursera,
@@Codifike poxa, vlws mesmo pela dica! Vou dar uma fuçada lá
onde baixo os arquivos do imdb?
www.google.com/url?sa=t&source=web&rct=j&url=m.imdb.com/&ved=2ahUKEwj98Iny_r3-AhW6K7kGHV9NDvcQFnoECAgQAQ&usg=AOvVaw3tpEdgQw6c-ab6J9EhGeiy