Using the {arrow} and {duckdb} packages to wrangle medical datasets that are Larger than RAM

แชร์
ฝัง
  • เผยแพร่เมื่อ 24 พ.ย. 2024

ความคิดเห็น • 16

  • @carvalhoribeiro
    @carvalhoribeiro 2 หลายเดือนก่อน +1

    Very good presentation. Thanks for sharing this

  • @winspyre
    @winspyre 2 หลายเดือนก่อน +1

    Wow. perfectly narrated.

  • @tomfenn4
    @tomfenn4 2 ปีที่แล้ว +7

    Really useful presentation, and timely for me. Personally I find data.table statements are greatly improved with just a little whitespace.

  • @tmuffly1
    @tmuffly1 7 หลายเดือนก่อน +2

    This talk blew my mind. Thank you very much!

  • @musicspinner
    @musicspinner ปีที่แล้ว +2

    Masterful deployment of the "Kobayashi Maru" reference. 🖖

  • @VictorOrdu
    @VictorOrdu 2 ปีที่แล้ว +3

    Wow, thank you for this illuminating presentation.

  • @matthewson8917
    @matthewson8917 ปีที่แล้ว +1

    Perfectly summarizes my big data journey. Really good!

  • @gueyenono
    @gueyenono 2 ปีที่แล้ว +3

    Great presentation.

  • @torbjornstorli2880
    @torbjornstorli2880 11 หลายเดือนก่อน +1

    Loved your presentation. Well done Sir!😊

  • @higgi13425
    @higgi13425 2 ปีที่แล้ว +6

    For further learning, here are the links from the next to last slide:
    Arrow
    cheatsheet: raw.githubusercontent.com/rstudio/cheatsheets/master/arrow.pdf
    video intro: th-cam.com/video/O42LUmJZPx0/w-d-xo.html
    full workshop from useR!: arrow-user2022.netlify.app
    DuckDB
    website: duckdb.org
    R package: cran.r-project.org/web/packages/duckdb/index.html
    data.table
    website: rdatatable.gitlab.io/data.table
    dtplyr (a data.table translator): dtplyr.tidyverse.org

  • @tdawry
    @tdawry 6 หลายเดือนก่อน

    A neat question to answer.
    I'm using the duckplyr library and it's nice to not have to think about anything. It does make a strong argument for having a fast hard drive (an SSD is an order of magnitude faster than a traditional HDD, an M2 is an order of magnitude faster than that, and modern nvme drives are even faster).

  • @porlando12
    @porlando12 ปีที่แล้ว

    Excellent presentation!

  • @JohnoScott
    @JohnoScott ปีที่แล้ว

    Great talk. Concise and to the point.

  • @multitaskprueba1
    @multitaskprueba1 6 หลายเดือนก่อน

    You are a genius! Fantastic video! Thanks!

  • @ZachRenwickData
    @ZachRenwickData ปีที่แล้ว

    great video and interesting analysis use case!

  • @arunabhbarua1924
    @arunabhbarua1924 4 หลายเดือนก่อน +3

    How about just using duckdb and SQL?