Mão no código como usar o Spark com pyspark

แชร์
ฝัง
  • เผยแพร่เมื่อ 11 ต.ค. 2024
  • Nets vídeo vamos ver como usar o spark com pyspark para processamento de dados.
    Muito utilizado na área de engenharia de dados , o spark vem sendo muito utilizado com a linguagem python para desenvolvimento de etl (extração , transformação e carga ) no processo de transformação e processamento de dados.
    Aprenda a usar os comandos mais usados no spark como a criação e tranformação de dataframe.
    📔Livro: Spark: The Definitive Guide: Big Data Processing Made Simple (English Edition)
    amzn.to/3h9T2I5
    Curso Udacity Engenheiro de dados:
    www.udacity.co...
    ✍Databricks Training
    databricks.com...
    💰Seja patrocinador do canal :
    picpay.me/codi...
    apoia.se/codifike
    🖥Site:
    www.codifike.c...
    ✍Blog:
    codifike.com.b...
    ⌨Teclado redragon
    corta.ai/vmSA
    🎤Microfone samson
    corta.ai/vmSA
    🔦Iluminação
    amzn.to/3xYjOJn
    📸Camera logitech
    amzn.to/3tyvWNC
    #bigdata #engenhariadedados #apachespark

ความคิดเห็น • 100

  • @darkhill
    @darkhill 3 หลายเดือนก่อน +1

    Muito bom. Esclareceu muita coisa e ainda mostrou uma forma de trabalhar com pyspark diferente do que aprendi.

    • @Codifike
      @Codifike  หลายเดือนก่อน

      Que bom que ajudou

  • @yraion0
    @yraion0 2 ปีที่แล้ว +2

    Muito bom mesmo, e é como ver algo difícil parecer que você já sabe e conhece a tempos. Parabéns pela didática.

    • @Codifike
      @Codifike  2 ปีที่แล้ว +1

      Obrigado

  • @JoaoVitor-os5hh
    @JoaoVitor-os5hh 2 ปีที่แล้ว +3

    Parece tão fácil depois desse vídeo. Parabéns!!!

    • @Codifike
      @Codifike  2 ปีที่แล้ว +1

      Obrigado João

  • @lucianadias7550
    @lucianadias7550 หลายเดือนก่อน +1

    Muito bom! Aula perfeita! Obrigada

  • @bonfimLucas
    @bonfimLucas 2 ปีที่แล้ว +2

    Vídeos excelentes!
    Obrigado por compartilhar com a comunidade

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Obrigado Lucas

  • @gustavodocarmo7239
    @gustavodocarmo7239 2 ปีที่แล้ว

    Excelente! Coisa rara assistir uma aula e não sentir vontade de pular, ta de parabens

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Obrigado Gustabo

  • @SouDeveloper
    @SouDeveloper 4 หลายเดือนก่อน +1

    valeu vei peguei uma vaga numa multinacional como analista de dados BIG DATA, vou trabalhar com pyspark mas nunca tinha visto essa biblioteca

    • @pedrohentec
      @pedrohentec หลายเดือนก่อน

      E como tu tá fazendo meu caro? Sou estagiário, e estou com uma task que está me tirando o sono ahahha

    • @Codifike
      @Codifike  หลายเดือนก่อน

      Sucesso!

  • @oiwelder
    @oiwelder 3 ปีที่แล้ว +1

    Bacana, bem didático e prático.

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Obrigado

  • @etgcrog1
    @etgcrog1 2 ปีที่แล้ว +3

    amei!!

  • @irioam
    @irioam 2 ปีที่แล้ว

    tudo fica mais simples quando vc explica... ótimo conteúdo... se pudesse trazer um exemplo do spark realizando o processamento paralelo... que está muito no hype !!! abraço!

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Boa sugestão!

  • @eduard0ml
    @eduard0ml ปีที่แล้ว +3

    Prof poderia ensinar a configurar o PySpark no VS code ??? em alguma video tutorial

    • @Codifike
      @Codifike  ปีที่แล้ว +2

      Sugestão anotada!

  • @lucasrocha3149
    @lucasrocha3149 ปีที่แล้ว

    +1 escrito, estou trabalhando com stack azure, utilizando Databricks para transformação de dados em camadas delta no delta lake, excelente conteúdo, parabéns

  • @Anselmme
    @Anselmme ปีที่แล้ว

    Muito bom Fabrício. Parabéns e obrigado!

  • @ObrGerson
    @ObrGerson ปีที่แล้ว

    Excelente explicação de comandos simples e poderosos. Obrigado

    • @Codifike
      @Codifike  ปีที่แล้ว

      Que bom que gostou

  • @robsonmedeiros6657
    @robsonmedeiros6657 ปีที่แล้ว +1

    Excelente conteúdo. Parabéns!!!

  • @MarcosSarges
    @MarcosSarges 8 หลายเดือนก่อน +1

    Minha dúvida é… um sgbd tipo o Postgres como data lake ? Ou tudo bem tbm fazer isso?

  • @iagobuche_leticia
    @iagobuche_leticia 2 ปีที่แล้ว

    ótimo conteúdo! por favor, traga mais vivencias usando pyspark

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Obrigado Letícia. 😀

  • @robertobr234
    @robertobr234 2 ปีที่แล้ว +1

    Sensacional!

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Obrigado Roberto

  • @dannielfisico2666
    @dannielfisico2666 2 ปีที่แล้ว

    PARABÉNS pelo conteúdo. Acho que seria se disponibilizasse as bases de dados ou os links, em vez de ficarmos procurando, aí a gente teria como ficar fazendo e acompanhando as explicações.

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Oi Danniel, obrigado pelo feedback. Vou colocar

  • @JoaoPepe10Gamer
    @JoaoPepe10Gamer ปีที่แล้ว +1

    Uma duvida, como eu faço tudo isso que vc fez ai na minha máquina, como configuro no meu Windowns

  • @dcassis
    @dcassis 3 หลายเดือนก่อน +1

    Excelente video

    • @Codifike
      @Codifike  หลายเดือนก่อน

      Obrigado

  • @milzaruiz3065
    @milzaruiz3065 ปีที่แล้ว +1

    Excelente video!!!

  • @infinitycode2793
    @infinitycode2793 ปีที่แล้ว

    Parabéns pelo trabalho!

  • @MeuAmigoDeus
    @MeuAmigoDeus 2 ปีที่แล้ว

    Muito bom! Excelente conteúdo!

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Obrigado 😃

  • @MatheusOrnelas777
    @MatheusOrnelas777 11 หลายเดือนก่อน

    muito obrigado e muito sucesso

    • @Codifike
      @Codifike  11 หลายเดือนก่อน

      Oi Mateus se quiser se aprofundar temos a formação Spark neste link : codifike.com.br/formacao-spark-full/

  • @marcosleno3561
    @marcosleno3561 2 ปีที่แล้ว

    Excelente, só não achei no kagle e no imdb os arquivos utilizados.

  • @jogenio
    @jogenio ปีที่แล้ว

    Muito TOP! Parabens!

  • @patriciadelima_
    @patriciadelima_ 2 ปีที่แล้ว

    Excelente vídeo!

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Obrigado

  • @pedroar9
    @pedroar9 2 หลายเดือนก่อน

    Muito bom, deu uma ótima clareada sobre o assunto.
    Não teria como incluir o link para o mesmo arquivo que utilizou nos exemplos?

    • @Codifike
      @Codifike  หลายเดือนก่อน

      datasets.imdbws.com/

  • @seya2183
    @seya2183 2 ปีที่แล้ว

    Excelente!

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Obrigado 😃

  • @tiagomizuno1226
    @tiagomizuno1226 2 ปีที่แล้ว

    Parabens pelo conteudo!

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Obrigado

  • @RobertoSilva-yv7yy
    @RobertoSilva-yv7yy 4 หลายเดือนก่อน

    muito bom

  • @antoniorochaneto
    @antoniorochaneto 2 ปีที่แล้ว

    Que top! Parabens

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Obrigado

  • @andrearaujo113
    @andrearaujo113 ปีที่แล้ว

    Man, você poderia fazer vídeo sobre Datavault ? O que eu encontrei e muito básico

  • @hjbramos
    @hjbramos 2 ปีที่แล้ว

    Excelente!!!

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Obrigado

  • @thupangas
    @thupangas 2 ปีที่แล้ว +1

    cara ensina fazer lista invertida em py spark com arquivos de texto, preciso aprender a fazer isso para criar indices e dicionais

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Sugestão anotada!

  • @rafaelcampos7799
    @rafaelcampos7799 ปีที่แล้ว

    Excelente. Vc tem alguma aula explicando como obter o conjunto de dados de banco Oracle?

    • @Codifike
      @Codifike  ปีที่แล้ว +1

      Tenta isso:
      Antes de começar, certifique-se de ter o driver JDBC para Oracle. Você pode baixá-lo do site oficial da Oracle. Uma vez baixado, coloque o arquivo .jar em um local acessível.
      Ao iniciar sua sessão PySpark, certifique-se de adicionar o driver JDBC ao classpath. Isso pode ser feito usando a opção --jars:.
      pyspark --jars /caminho/para/o/driver/ojdbc8.jar
      from pyspark.sql import SparkSession
      spark = SparkSession.builder.appName("OracleAccess").getOrCreate()
      oracle_url = "jdbc:oracle:thin:@//HOST:PORT/SID"
      oracle_properties = {
      "user": "SEU_USUARIO",
      "password": "SUA_SENHA",
      "driver": "oracle.jdbc.driver.OracleDriver"
      }
      df = spark.read.jdbc(oracle_url, "NOME_DA_TABELA", properties=oracle_properties)
      df.show()
      Substitua HOST, PORT, SID, SEU_USUARIO, SUA_SENHA e NOME_DA_TABELA pelos valores apropriados para sua configuração
      Se você fizer alterações ou análises e quiser gravar os resultados de volta no Oracle, pode usar o método write.jdbc:
      df.write.jdbc(oracle_url, "NOME_DA_TABELA_DESTINO", properties=oracle_properties, mode="overwrite")

  • @andrepressendo7842
    @andrepressendo7842 2 ปีที่แล้ว

    Muito bom!!!!

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Obrigado

  • @ARJ673
    @ARJ673 6 หลายเดือนก่อน

    Pode compartilhar o link para este colab?

  • @christiangoncalves7666
    @christiangoncalves7666 2 ปีที่แล้ว

    Excelente video, mas gostaria de tirar uma duvida... Em SQL posso analisar o plano de execução e reescrever a consulta ou criar indices... Como esse "tuning" é realizado no PySpark, além da criação de RDs?

    • @Codifike
      @Codifike  2 ปีที่แล้ว +1

      Vc pode usar o explain

  • @PedroSantos-gc7zt
    @PedroSantos-gc7zt 2 ปีที่แล้ว

    ce eh o brabo pai

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Obrigado 😂

  • @EloiiG
    @EloiiG ปีที่แล้ว

    Oi Fabricio, excelente conteúdo, parabéns.
    Tenho uma duvida:
    quero salvar o resultado do valor em outra variável sem o cabeçalho, é possível?

    • @Codifike
      @Codifike  ปีที่แล้ว

      Como assim? Poderia dar um exemplo?

  • @carlossil3895
    @carlossil3895 5 หลายเดือนก่อน

    esse cara é dezz....FAZ CURSO..E COLOCA NA UDEMY...

    • @Codifike
      @Codifike  5 หลายเดือนก่อน

      Obrigado

    • @Codifike
      @Codifike  หลายเดือนก่อน

      Ja tem o curso, alias tem vários . Dá uma olhada aqui: codifike.com.br/loja/

  • @JPGamer
    @JPGamer หลายเดือนก่อน +1

    os dataset do imdb mudaram estão com mais niveis, o que da pra brincar mais

    • @Codifike
      @Codifike  หลายเดือนก่อน

      Show. obrigado por avisar

  • @gabrielevangelista4956
    @gabrielevangelista4956 10 หลายเดือนก่อน

    No Google Colab eu poço simplesmente importar o pandas, começar codar em python e está tudo ok. A minha dúvida é, no caso do spark, quando eu faço a instalação dele no cluster, o que muda do primeiro exemplo que dei? Como é a forma de processar as coisas de ambos? Tudo aquilo que os olhos nossos não veem

    • @Codifike
      @Codifike  10 หลายเดือนก่อน +3

      Primeiro, você precisa ter um cluster Spark configurado. Isso pode ser um cluster em nuvem (como AWS EMR, Azure HDInsight, Google Cloud Dataproc) ou um cluster on-premise.
      Ao criar um objeto SparkSession em seu código, você especifica o modo de execução do cluster. Em vez de master('local'), você usará algo como master('yarn'), master('k8s'), ou master('mesos'), dependendo do gerenciador de cluster que você está usando.
      Por exemplo:
      from pyspark.sql import SparkSession
      spark = SparkSession.builder \
      .appName("MeuAppSpark") \
      .master("yarn") \
      .getOrCreate()
      Para você submeter seu código Spark (geralmente um script Python, Scala ou Java) ao cluster, é feito através da linha de comando usando spark-submit, ou através de interfaces de usuário fornecidas por plataformas de cluster em nuvem.

  • @lucasarruda2824
    @lucasarruda2824 ปีที่แล้ว +2

    Quando vou deszipar o spark aparece essa mensagem: gzip: stdin: not in gzip format
    tar: Child returned status 1
    tar: Error is not recoverable: exiting now
    algúem sabe porque?

    • @Codifike
      @Codifike  ปีที่แล้ว

      Parece que não está baixando o arquivo zipado

    • @ewertonrodrigues4585
      @ewertonrodrigues4585 ปีที่แล้ว

      @@Codifike estou tendo o mesmo problema. alguma sugestão pf?

    • @Codifike
      @Codifike  ปีที่แล้ว +1

      Baixe o arquivo .tar.gz da página do Spark

    • @matheus_19625
      @matheus_19625 7 หลายเดือนก่อน +4

      Não sei se você conseguiu resolver, mas eu estava com o mesmo problema. Eu percebi que algumas coisas mudaram desde o lançamento do vídeo; no caso agora você tem que clicar no link e ele lhe redicionará para a página do *Apache* e de lá que você tem que baixar.

    • @JPGamer
      @JPGamer หลายเดือนก่อน +1

      @@matheus_19625 valeu manin, tinha travado nisso tbm

  • @DanielBezerra1874523472645224
    @DanielBezerra1874523472645224 2 ปีที่แล้ว

    Gostaria de saber como faz para funcionar na maquina local usando o vs code.

    • @Codifike
      @Codifike  2 ปีที่แล้ว

      Teria que instalar o.dpark.na sua máquina. As vezes dá erro por isso prefiro o notebook

  •  ปีที่แล้ว

    Boa noite pessoal, alguém sabe onde conseguir esses datasets do vídeo? desde já, agradeço.

    • @Codifike
      @Codifike  ปีที่แล้ว

      Pode pegar no site imdb

  • @leandrosantanna1565
    @leandrosantanna1565 2 ปีที่แล้ว

    Boa tarde Fabricio!
    Como vai?
    Estou com a pretensao de tirar meu certificado do databricks associate, indica algum conteudo para estudo?
    Obrigado pelo conteudo!

    • @Codifike
      @Codifike  2 ปีที่แล้ว +2

      Oi Leandro, oi melhor e da databricks academy, mas é muito caro. Tens uns muito bons na coursera,

    • @leandrosantanna1565
      @leandrosantanna1565 2 ปีที่แล้ว

      @@Codifike poxa, vlws mesmo pela dica! Vou dar uma fuçada lá

  • @marcelo9223
    @marcelo9223 ปีที่แล้ว

    onde baixo os arquivos do imdb?

    • @Codifike
      @Codifike  ปีที่แล้ว

      www.google.com/url?sa=t&source=web&rct=j&url=m.imdb.com/&ved=2ahUKEwj98Iny_r3-AhW6K7kGHV9NDvcQFnoECAgQAQ&usg=AOvVaw3tpEdgQw6c-ab6J9EhGeiy