Lộ diện Data Lake, Data Warehouse và ví dụ thực tế với Hadoop, Hive, Spark

แชร์
ฝัง
  • เผยแพร่เมื่อ 9 ต.ค. 2022
  • Hello mọi người, bữa nay mình mang tới một siêu phẩm nè.
    Bữa giờ mình nói về Data Warehouse, Datalake, Spark, Hadoop này nọ quá chừng mà có ai biết nó là cái gì, nhìn nó ra sao đâu. Ở video này mình làm một cái demo nho nhỏ để mọi người hình dung ra được Data Warehouse nó trông như thế nào. Ứng dụng Hadoop để build Data Warehouse, Datalake ra sao nha.
    Anh chị em xem vui vẻ. Cám ơn đã ủng hộ mình.
    Fanpage: dataguystory
    🐻 a b o u t 🐻
    Mình tốt nghiệp thạc sĩ tại đại học quốc gia Singapore chuyên ngành Data Science (Khoa học dữ liệu). Mình từng làm Data Scientist được khoảng 2.5 năm tại một tập đoàn tự động hóa lớn nhất nhì thế giới. Hiện tại mình đang làm Senior Data Engineer ở Grab Singapore. Hy vọng những video của mình sẽ giúp đỡ các bạn phần nào đó bước trên con đường Data này.
    Special thanks to: Jay Chua and Larry Xu for the intro video
    Music composed by Nhạc sĩ AI - Bảo Đại.

ความคิดเห็น • 234

  • @DataGuyStory
    @DataGuyStory  ปีที่แล้ว +7

    Nhiều bạn thắc mắc cái tool mà tui sử dụng trong video. Đây là cái tool tui tự chế dùng library faker, bạn nào quan tâm thì link đây nha github.com/canhtran/dgscli

    • @tamhuynh8868
      @tamhuynh8868 9 หลายเดือนก่อน

      Dạ a ơi, e có tải tool của a trên gib và về generate data thử nhưng cứ bị báo lỗi "ModuleNoteFoundError: No module named 'click'". Nếu có thể a cho e hỏi e cần làm thêm bước nào để chạy được tool ạ. E cảm ơn a!!!

    • @DataGuyStory
      @DataGuyStory  9 หลายเดือนก่อน

      @@tamhuynh8868 cài click vào nhé. pip install click

    • @tamhuynh8868
      @tamhuynh8868 8 หลายเดือนก่อน

      @@DataGuyStory e cảm ơn a lắm ạ !!

  • @trietle6785
    @trietle6785 ปีที่แล้ว +42

    Hay quá a Cảnh ơi, đừng bỏ channel nhé anh ơi vì anh là 1 trong số ít những người ở VN làm các chủ đề về Data Engineer. Dù giá trị kinh tế có thể mang lại không được bao nhiêu so với công sức, nhưng giá trị anh mang lại cộng đồng những người đang theo đuổi lĩnh vực data là rất lớn, keep up the good work! As a new grad engineer của Holistics, thật vui khi Holistics được anh mention tới cùng với 2 ông lớn BI PowerBi và Tableau trong các blog và youtube video của anh. Là 1 BI product của người Việt, hy vọng tool sẽ được mọi người gọi tên và biết tới nhiều hơn hehe

    • @DataGuyStory
      @DataGuyStory  ปีที่แล้ว +3

      haha, cám ơn Triết. Nói anh Huy tài trợ cho anh để anh làm video về Holistics nào, nghèo quá không có bản quyền để làm demo :)))

    • @trietle6785
      @trietle6785 ปีที่แล้ว

      @@DataGuyStory Sure thing anh :)))

  • @nenene4250
    @nenene4250 ปีที่แล้ว +4

    hay quá a ơi

  • @viennaarlene2320
    @viennaarlene2320 ปีที่แล้ว +1

    theo dõi anh từ những clip dầu vì thích cách edit và dẫn dắt của anh. Và khi nghe anh nói là anh sẽ đọc hết comment của mọi người, em cảm thấy rất trân trọng. Em cũng đang mày mò học thêm về Spark. Hóng 1 clip a chia sẻ chuyên sâu 1 chút về các cách tối ưu khi xài Spark SQL join

  • @bactran7799
    @bactran7799 ปีที่แล้ว +1

    video chất lượng quá, cảm ơn Cảnh. Lâu nay chưa hình dung được HDFS lưu file như thế nào. Nay đã clear được rồi. Hy vọng Cảnh tiếp tục những series như vậy

  • @sangit_8x
    @sangit_8x ปีที่แล้ว +4

    Mình cũng đang nghiên cứu triển khai data lake cho công ty mình. Mong bác ra nhiều video về data lake, data warehouse, các công cụ thiết kế data pipeline, etl, ingestion để học hỏi thêm. Cám ơn bạn nhiều nhé !

  • @tannguyen_91
    @tannguyen_91 ปีที่แล้ว +1

    Mình thích các video tổng quan thế này. Nó dễ tiếp cận với đại đa số người mới như mình. Cái khó nhất của một người mới như mình là họ cần biết là kiến thức đó nó giải quyết được gì. Và mình thấy các video của bạn đã làm được điều đó.

  • @vietepochtimes8879
    @vietepochtimes8879 ปีที่แล้ว +1

    Mình không chuyên về data nhưng thấy bạn giải thích dễ hiểu nên thật sự mình hy vọng bạn ra nhiều videos hơn để mọi người có thể học tập thêm.
    Nếu có tut thì càng tốt. Chúc bạn thành công

  • @phuonguyenho4212
    @phuonguyenho4212 ปีที่แล้ว +1

    Video hữu ích lắm ạ! Mình có thể nói là chưa hiểu 100% về big data nhưng xem video của bạn xong thì độ tự tin của mình tăng hẳn :D

  • @HungNguyen-ed7uf
    @HungNguyen-ed7uf ปีที่แล้ว +1

    em không phải Data Engineer nhưng yêu thích xem mọi người làm gì với data, xem video của anh cuốn lắm ạ. Không quá nặng về kỹ năng code - em không biết code sql mà xem vẫn thấy hay, video thiên về tư duy logic để giải quyết vấn đề, video hay lắm anh ạ. Bật chuông đợi video tiếp theo của anh ạ hehe :v

  • @riohihi6583
    @riohihi6583 ปีที่แล้ว +1

    hay quá a ơi 😍😍😍 A làm video kiểu này hay nè a...nó giúp có một cái nhìn tổng quan hơn cho các bạn đang học DE. Mong a ra thêm nhiều vid như này nữa

  • @thong.nguyen17
    @thong.nguyen17 ปีที่แล้ว +2

    Cám ơn anh Cảnh. Em có biết anh thông qua vài video của anh Hoàng code dạo, mà không biết là anh có kênh youtube riêng. Em làm software bên Canada, tuy không chuyên về data nhưng video của anh giúp em có thêm ý tưởng để giải quyết một vài vấn đề hiện tại trong công ty. Hy vọng anh có thể ra thêm nhiều video hay như thế này nữa. Chúc anh sức khoẻ!

  • @tynistatue
    @tynistatue ปีที่แล้ว +5

    mình thực sự cảm ơn Cảnh nhiều nha, thực sự bổ ích đừng bỏ channel nhé Cảnh ơi vì anh là 1 trong số ít những người ở VN làm các chủ đề về Data Engineer. Dù giá trị kinh tế có thể mang lại không được bao nhiêu so với công sức, nhưng giá trị anh mang lại cộng đồng những người đang theo đuổi lĩnh vực data là rất lớn

  • @nguyenquanghuy718
    @nguyenquanghuy718 ปีที่แล้ว

    Video quá hay. Cấu trúc dễ hiểu mạch lạc, thao tác với terminal + Vim cực mượt mà. Xem đã mắt ghê gớm.

  • @akaile2233
    @akaile2233 ปีที่แล้ว +1

    Xịn quá anh. Nhờ có anh mà mấy khái niệm, kiến trúc về data đỡ mờ mịt hơn

  • @danhpro5866
    @danhpro5866 ปีที่แล้ว

    hay quá. chờ a mãi. đó giờ cứ thắc mắc dữ liệu lưu dạng nào, hình thù ra sao. nay dc a giải thích.

  • @ngochungpham3473
    @ngochungpham3473 ปีที่แล้ว

    Cảm ơn anh vì những kiến thức bổ ích ạ. Hi vọng anh sẽ cố gắng ra thêm nhiều video anh nhé!

  • @buithanhlam3726
    @buithanhlam3726 ปีที่แล้ว +1

    Hay quá anh ơi, dễ hiểu bằng cả 1 khóa học Big Data em học ở trường đại học.

  • @DongDucAnhQP
    @DongDucAnhQP 2 หลายเดือนก่อน

    hay quá anh ơi, mong anh tiếp tục ra video kiểu này. Em đang từ BE chuyển sang học DE, video của anh hữu ích quá. Em chúc anh sức khỏe và tiếp tục ra những video như này ạ.

  • @NguyenTranTuyetNhiN
    @NguyenTranTuyetNhiN 11 หลายเดือนก่อน

    oh my god luôn, em rất thích video dạng như này luôn á anh tại em cũng đang là sinh viên năm 3 chuyên ngành khoa học dữ liệu giống anh nên kiểu coi video như học được những cái hay ho vì vậy mong anh hãy ráng ra video nha anhhh.

  • @quanphung8231
    @quanphung8231 ปีที่แล้ว +1

    Video của anh hay quá ạ. Kiến thức rất bổ ích

  • @user-yd8jx6dx2o
    @user-yd8jx6dx2o ปีที่แล้ว

    Video của bạn hay và bổ ích quá. Mình mới chuyển qua Data Analysis nên rất cần những video như thế này.

  • @giangpt28
    @giangpt28 ปีที่แล้ว

    Video rất hay, đúng thứ mình đang tìm kiếm. Hy vọng bác sẽ ra thêm nhiều video nữa.

  • @tuantu260507
    @tuantu260507 ปีที่แล้ว +7

    Nếu được thì nhờ bạn có thể làm tiếp series phần 2 với nguồn vào đổ vào datalake thêm một nguồn nữa là NoSQL, sau đó phần ETL kết hợp giữa 2 loại dữ liệu SQL và NoSQL để đổ vào datawarehouse

  • @thphamminh
    @thphamminh ปีที่แล้ว

    Quá đã a ơi. Video được edit nhìn hút hơn hẳn

  • @giangbioinformatics
    @giangbioinformatics ปีที่แล้ว

    em còn nhớ bài về JAV của anh mà giờ anh ra tới cái này rồi hay quá. Em thấy đa phần tụi em có thể tự học phần code, học trên mạng nhiều tài liệu tuy nhiên tụi em bị thiếu về phần ý tưởng để thực hiện và công cụ nào thực hiện các steps đó. Mong anh ra video dạng đó nhiều hơn em cám ơn anh ạ.

  • @stomer4874
    @stomer4874 ปีที่แล้ว

    hay quá bạn ơi. Giúp các bạn chưa biết tới Data có cái nhìn trực quan, dễ hiểu hơn. THanks b nhiều

  • @HungLe-zx9wb
    @HungLe-zx9wb 6 หลายเดือนก่อน

    Cám ơn bạn đã tạo ra video rất bổ ích. Hy vọng bạn tiếp tục ra những video tiếp theo. Cám ơn bạn một lần nữa.

  • @user-ch1lw9tt5r
    @user-ch1lw9tt5r ปีที่แล้ว

    cám ơn anh vì video hữu ích. mong chờ những video chia sẻ tiếp theo ạ.

  • @baohuynh5462
    @baohuynh5462 ปีที่แล้ว +1

    Hay lắm anh ơi mong anh ra nhiều bài về DE DA nhiều hơn nữa

  • @nguyentran8544
    @nguyentran8544 ปีที่แล้ว

    Hóng lâu lắm rồi giờ mới ra clip 🥺

  • @broccoloodle
    @broccoloodle ปีที่แล้ว

    Cám ơn anh đã làm ra một video thú vị dành cho các bạn mới vào nghề ạ

  • @thanginh78
    @thanginh78 ปีที่แล้ว

    hay quá anh ơi. Mong anh ra nhiều video hơn ạ. Cảm ơn anh.

  • @danhnguyen7803
    @danhnguyen7803 ปีที่แล้ว +1

    Video bổ ích lắm ạ. Em đang học thêm về DE, hi vọng anh có thể public link project em tự cài cắm nghiên cứu thêm ạ, thank anh

  • @minimalism-life
    @minimalism-life 2 หลายเดือนก่อน

    Video hay a ơi ^^ a chia sẻ thêm về cách để sắp xếp và làm sạch dữ liệu thô để lưu vào DWH với ạ

  • @desolate_tunes__
    @desolate_tunes__ ปีที่แล้ว

    Cực thích video kiểu này nha anh. Cho 2 like luôn !

  • @ngongocuc3681
    @ngongocuc3681 ปีที่แล้ว

    hay quá anh ! Hy vọng anh ra nhiều video hơn nữa ạ

  • @linhnguyenhai4072
    @linhnguyenhai4072 ปีที่แล้ว

    Chờ anh ra thêm nhiều video ạ

  • @nguyenngocphat2965
    @nguyenngocphat2965 ปีที่แล้ว +1

    đỉnh quá anh, video tới làm về data lake vs data warehouse vs data lakehouse đi anh. Cảm ơn anh vì những video bổ ích

    • @DataGuyStory
      @DataGuyStory  ปีที่แล้ว +4

      có luôn nhé. Anh đang định làm cho video tiếp theo á

  • @quyennguyengia8281
    @quyennguyengia8281 5 หลายเดือนก่อน

    Hay quá anh ơi, anh có thể phóng to code ra tí thì quá tốt :>

  • @nghoangphuc
    @nghoangphuc ปีที่แล้ว +1

    Hi, your videos are very intriguing. I'm also working in Data Engineering and BI in Toronto. Glad to know you and hope to have a chat about this area in the future

  • @khoitran9291
    @khoitran9291 ปีที่แล้ว

    hay quá anh ơi, mong anh làm thêm nhiêu video

  • @phamthaihoangtung
    @phamthaihoangtung ปีที่แล้ว

    Cảm ơn anh đã có một video trực quan.

  • @NguyenHa-pk9rf
    @NguyenHa-pk9rf ปีที่แล้ว +1

    Phần sử dụng hive nằm trên tầng HDFS để xem dữ liệu dưới dạng table thì e mới được thấy lần đầu. Cảm ơn a nhiều nhé.

  • @unicorn4729
    @unicorn4729 ปีที่แล้ว +1

    Anh chính là người cho em cảm hứng để theo DE, lâu rồi anh mới ra video mà video kiểu thực chiến như này ok lắm anh. Chúc anh nhiều sức khoẻ để có thể ra thêm nhiều video bổ ích nha.

    • @BaoHoTrong
      @BaoHoTrong 22 วันที่ผ่านมา

      Chào anh, anh có biết nguồn nào về data engineer roadmap không ạ

  • @dientri2090
    @dientri2090 ปีที่แล้ว +1

    Cảm ơn anh nhiều lắm ạ
    Rất bổ ích

  • @CodeXplore
    @CodeXplore ปีที่แล้ว +1

    A Cảnh mãi đỉnh 😍

  • @the_real_dec1mo
    @the_real_dec1mo ปีที่แล้ว

    Video quá hay, quá thực tế. Cảm ơn anh!

  • @atnguyennang5052
    @atnguyennang5052 ปีที่แล้ว

    Hay quá, làm thêm nhiều video nữa nhé anh

  • @danhpro5866
    @danhpro5866 9 หลายเดือนก่อน

    đang ngồi học sql, data lại nhớ đến a. lâu quá rồi không thấy a ra clip mới. mong a sớm trở lại.

  • @ongnguyen8473
    @ongnguyen8473 ปีที่แล้ว

    tuyệt quá a xem xong có động lực lắm

  • @tanhoang6209
    @tanhoang6209 ปีที่แล้ว

    Cảm ơn anh rất nhiều vì video cực kì bổ ích ạ

  • @inhvanquan7425
    @inhvanquan7425 ปีที่แล้ว

    Em cảm ơn anh rất nhiều, em mới bắt đầu học DE, những video của anh giúp em rất nhiều luôn ạ

    • @vuxuanhuy9079
      @vuxuanhuy9079 ปีที่แล้ว

      bạn ơi bạn có ròadmap k mình xin vs

  • @dangtran9405
    @dangtran9405 ปีที่แล้ว +2

    a làm thêm về elastic search vs redis trong proj data thực tế đi ạ. tks a

  •  ปีที่แล้ว

    nghe xong choáng váng quá

  • @doducanh5098
    @doducanh5098 ปีที่แล้ว

    hay quá! mình đang muốn làm data engineer mà coi xong cũng thấy nhiều công cụ chưa biết quá. hơi buồn nhẹ

  • @linh-phgvu
    @linh-phgvu ปีที่แล้ว

    new intro ngầu quá ạ 😤

    • @DataGuyStory
      @DataGuyStory  ปีที่แล้ว +1

      không uổng công mướn hàng xịn về làm :))

  • @JK-wi9ms
    @JK-wi9ms 9 หลายเดือนก่อน

    cảm ơn anh ạ! quá hay và bổ ích

  • @hienhoangtrong5865
    @hienhoangtrong5865 ปีที่แล้ว

    hay quá ạ❤ Cảm ơn anh rất nhiều

  • @nghiabui9973
    @nghiabui9973 ปีที่แล้ว

    anh làm thêm về datalakehouse đi anh nghe thấy ngta bảo kiến trúc vượt trội lắm

  • @vannhatcao2242
    @vannhatcao2242 ปีที่แล้ว

    Em cảm những chia sẻ thú vị và hữu ích của anh ạ

  • @baostoneytb
    @baostoneytb ปีที่แล้ว

    Cảm ơn rất nhiều ! It's very helpful.

  • @vanviethieuanh2237
    @vanviethieuanh2237 ปีที่แล้ว

    Chuyên sâu và dễ hiểu, vui tính + đẹp trai :v e like + sub vào 1:47

  • @vuangquang4546
    @vuangquang4546 ปีที่แล้ว

    cảm ơn anh! video quá hay

  • @dangtran9405
    @dangtran9405 ปีที่แล้ว

    Không cần tutorial step by step đâu a Cảnh. Chỉ cần hướng dẫn flow etl từ a tới z ntn cho những proj và cv thực tế của DE là dc. Tụi e tự học để làm dc như v hay hơn tutorial nhìn code.

  • @ngontran
    @ngontran ปีที่แล้ว

    Giờ mới được mở rộng tầm mắt. Thnx. 👍. Có thể cho mình hỏi nếu muốn học về những công nghệ này mình phải chạy trên MacOS ko bạn?

  • @mr.cchannel1879
    @mr.cchannel1879 ปีที่แล้ว

    Mình tay ngang từ iOS, xem cuốn quá ❤

  • @thelongnguyen9645
    @thelongnguyen9645 ปีที่แล้ว

    video của bạn rất là hay, cảm ơn bạn

  • @ptquang01222
    @ptquang01222 ปีที่แล้ว

    Bổ ích quá thanks bạn

  • @valentinussofa4135
    @valentinussofa4135 ปีที่แล้ว

    This is an amazing project. Many thanks from Indonesia. God bless you. 🙏

  • @tanhoang6209
    @tanhoang6209 ปีที่แล้ว

    Tuyệt vời quá a ơi

  • @Ari_Peace68
    @Ari_Peace68 ปีที่แล้ว

    Cảm ơn bạn nhiều, video hay lắm

  • @nguyenvantien123
    @nguyenvantien123 ปีที่แล้ว

    Cảm ơn bạn. Thích :)

  • @thanglemon5958
    @thanglemon5958 ปีที่แล้ว

    Em cảm ơn anh nhiều ạ :)

  • @khoanguyen85sgn
    @khoanguyen85sgn ปีที่แล้ว

    hello Cảnh.
    Bữa h a có xem qua blog của Cảnh & các video trên TH-cam thấy rất bổ ích & muốn chuyển sang làm Data Engineer.
    Nhưng câu hổi là:
    Học ở đâu bám sát nội dung cần thiết nhất ? Chi phí thấp nhất ?
    Vì hiện tại a có tham khảo leetcode, Coursera, DataCamp & Udacity thì thấy giá cao so với đồng lương ít ỏi của a hiện nay.
    Ví như Udacity thì khoảng 500$ cho 5 months
    Cám ơn Cảnh

    • @DataGuyStory
      @DataGuyStory  ปีที่แล้ว

      rẻ nhất và bám sát nhất là tự học thôi anh. Bám sát theo documentation. Anh có thể tham khảo cái lộ trình ở đây facebook.com/dataguystory/posts/pfbid02tFwzzPqvnHxyN3zRsr8fw78rV2Mjf8Ss494W5oGn3nuXPqUDisjViDoj5S5VLdm9l

    • @khoanguyen85sgn
      @khoanguyen85sgn ปีที่แล้ว

      @@DataGuyStory cám ơn Cảnh nhé

  • @HuyNguyen-nw1uh
    @HuyNguyen-nw1uh ปีที่แล้ว

    Video rất hay anh ơi, 1000 likes cho anh.
    Mà trên server của big data sẽ chạy tự động như thế nào trong thực tế ạ?
    Và việc incremental loading sẽ lấy update record từ application như thế nào anh?

    • @DataGuyStory
      @DataGuyStory  ปีที่แล้ว

      Thực tế chạy tự động, người ta sẽ sử dụng scheduler như airflow hoặc luigi em nhé. Còn incremental loading thì đa phần là append và insert. Muốn upsert hiệu quả nhất thì em có thể tham khảo CDC (Change Data Capture)

  • @jenifernguyen8907
    @jenifernguyen8907 ปีที่แล้ว

    Cảm ơn bạn nhiều nhé.

  • @dqkhanh1245
    @dqkhanh1245 ปีที่แล้ว

    Cảm ơn bạn giải ngố cho mình🎉

  • @nguyenminhoan7882
    @nguyenminhoan7882 ปีที่แล้ว

    hay quá, cảm ơn anh

  • @bidiezalor
    @bidiezalor ปีที่แล้ว

    Cảm ơn a.Cảnh đã ra video giải thích rất rõ. Nhưng mà em có 1 thắc mắc cho em hỏi là lúc mình ingestion thì chắc chắn là để dạng raw data rồi, và trong video em thấy anh lưu ở định dạng parquet, vậy còn những định dạng readable khác thì sao ạ, ví dụ: csv, json,... Trong thực tế mình làm thì mình luôn ưu tiên raw data là parquet hay sao ạ.

    • @DataGuyStory
      @DataGuyStory  ปีที่แล้ว

      yea, trong thực tế thì người ta prefer lưu ở parquet hoặc arvo hơn. Trừ những trường hợp bất khả kháng như heavily nested json hoặc âm thanh, hình ảnh. Parquet/Arvo nó nén với tối ưu hóa chi phí.

  • @anphan1591
    @anphan1591 ปีที่แล้ว

    mình nhảy việc từ khối ngành kinh tế sang vị trí xây dựng report ở bank, mình ko chắc vị trí của mình có phải data engineer ko vì hệ thống data của bên mình do công ty mẹ ở nước ngoài làm, mình chỉ là xây dựng những report theo yêu cầu của user. Nhưng nhờ xem video của bạn mình tìm thấy khá nhiều điều hay ho và muốn học hỏi thêm. Cảm ơn bạn rất nhiều

    • @DataGuyStory
      @DataGuyStory  ปีที่แล้ว

      vị trí này thường hay gọi là BI Engineer hoặc một số cty gọi là Data Analyst đó bạn

    • @anphan1591
      @anphan1591 ปีที่แล้ว

      @@DataGuyStory cảm ơn bạn nhé. Mình cũng chỉ mới chuyển ngành, mới biết SQL thôi nên còn nhiều cái mơ hồ nhiều lúc ko biết mình ko biết gì để hỏi luôn ấy =)) coi video của bạn giúp mình định hình dc 1 số thứ rồi. Mong sẽ sớm xem thêm nhiều video từ bạn

  • @kajaplayer1866
    @kajaplayer1866 ปีที่แล้ว

    tuyệt vời luôn anh ơi, keep it up 😍

  • @danghuuhieu
    @danghuuhieu ปีที่แล้ว

    hữu ích anh ơi 👍👍

  • @JackLee-oq2io
    @JackLee-oq2io ปีที่แล้ว

    Hi vọng được xem tutorial của anh trên github :)

  • @hungvnt7712
    @hungvnt7712 8 หลายเดือนก่อน

    đã lâu rồi không thấy anh đăng video mới, dạy Data...

  • @linhluonleo04
    @linhluonleo04 หลายเดือนก่อน

    Anh ơi cho em hỏi là giữa scala2 và scala3 thì mình thường sẽ sử dụng phiên bản nào tại em thấy giữa 2 phiên bản này về các câu lệnh, cú pháp có vẻ khác nhau và liệu nó có chạy hiệu quả hơn với scala3 không vì tại nó là phiên bản mới. Em cảm vì anh đã ra những video chất lượng về chủ đề Data Engineer này và mong a sớm ra video mới.

  • @TrungNguyen-zw7sj
    @TrungNguyen-zw7sj ปีที่แล้ว

    A nên chỉnh phóng to màn hình lên để đt xem đc nhé

  • @ThinhLe-eh9re
    @ThinhLe-eh9re 11 หลายเดือนก่อน

    Thanks for your sharing guy

  • @anhlq31
    @anhlq31 ปีที่แล้ว +1

    VIdeo hay quá anh ạ.
    Em có câu hỏi này mong anh giải đáp: Việc ingest dữ liệu bằng job spark so với cách dùng kafka change data capture thì ưu nhược điểm từng cách ntn ạ và thực tế thì cách nào được sử dụng ạ

    • @DataGuyStory
      @DataGuyStory  ปีที่แล้ว

      CDC nó là real-time ingestion đó em. Còn như trong video là batch ingestion. Sự khác nhau là khi em dùng CDC, mỗi lần data thay đổi nó sẽ ingest vào datalake/data warehouse. Còn batch thì chạy theo scheduler.
      Tuỳ theo nhu cầu của cty mà người ta chọn realtime bay batch. Nhưng real time khá tốn kém vì yêu cầu High Availability trong khi batch thì rẻ hơn

    • @anhlq31
      @anhlq31 ปีที่แล้ว

      @@DataGuyStory Em cảm ơn anh ạ

  • @Scorpisces1911
    @Scorpisces1911 ปีที่แล้ว

    Hope to see you soon

    • @DataGuyStory
      @DataGuyStory  ปีที่แล้ว +1

      ủa tự dưng youtube tự động mở cái donate gì đây. Cám ơn em nhé, anh mới tắt rồi đợi nhiều subcribers rồi mở sau :)))

    • @Scorpisces1911
      @Scorpisces1911 ปีที่แล้ว

      @@DataGuyStory hình như xài TH-cam Premium là thấy á anh. Em thử mở = account khác thì ko thấy "Thanks" button :D
      updated: à em thấy button đó ẩn goy` đó anh :D

    • @DataGuyStory
      @DataGuyStory  ปีที่แล้ว +1

      @@Scorpisces1911 ùa, anh mới tắt. Ai đi xin tiền lộ liễu vậy kì :))

  • @phongthanh9724
    @phongthanh9724 3 หลายเดือนก่อน

    ủng hộ channel

  • @coodung
    @coodung ปีที่แล้ว +1

    Em đang học môn này trên trường nhưng toàn lý thuyết, nhờ video của anh em hiểu rõ hơn. Cảm ơn anh nhiều, mong anh ra nhiều video tương tự ạ

    • @longgg1215
      @longgg1215 ปีที่แล้ว

      Mình nghĩ quan trọng là setup ntn thôi

  • @TheGioiTV-di7nj
    @TheGioiTV-di7nj หลายเดือนก่อน

    Hi a , e đang tìm hiểu về big data, e thấy video của a rất hay nhưng do mới tìm hiểu nên ko hiểu tại sao lại code bằng file đuôi jar. E đã biết sẳn ngôn ngữ typescript vậy có thể dùng typescrip ko ạ.

  • @JackLee-oq2io
    @JackLee-oq2io ปีที่แล้ว

    Cho em hỏi câu hỏi là nếu mình có rất nhiều file ( tầm triệu hay vài chục triệu bảng) định dạng data như .csv, .xls thì mình sẽ đọc dữ liệu vào postgres SQL như thế nào là tối ưu nhất ạ?

  • @kienthucdatabase
    @kienthucdatabase ปีที่แล้ว

    Rất hữu ích

  • @jackjun4545
    @jackjun4545 ปีที่แล้ว

    anh ơi , em nghe video của anh rất cuốn ạ ?
    nhưng em là người mới bắt đầu , em chưa có thể làm theo anh được . Anh có thể cho em xin link để học tutorial dành cho beginner được không ạ .
    Em cày cả tuần video của anh mà vẫn không biết làm sao , làm như nào có thể ra được như vậy ạ

  • @tanphamngoc3001
    @tanphamngoc3001 ปีที่แล้ว

    Good job man. 👍

  • @NamNguyen-pn1od
    @NamNguyen-pn1od 11 หลายเดือนก่อน

    anh cho em hỏi lúc anh connect superset với data warehouse thông qua sparksql, hive hay là presto vậy ạ, em có sử dụng superset và metabase để connect với thông qua hive hay sparksql đều được nhưng khi thực hiện các câu truy vấn count, join sum, cơ bản hay vẽ chart thì nó không hiện gì cả,

  • @angvunguyenhai9121
    @angvunguyenhai9121 ปีที่แล้ว

    quá xịn

  • @minhcuong4307
    @minhcuong4307 ปีที่แล้ว

    ×3.14 respects cho anh Cảnh :>