Pyspark Scenarios 8: How to add Sequence generated surrogate key as a column in dataframe.

แชร์
ฝัง
  • เผยแพร่เมื่อ 14 ม.ค. 2025

ความคิดเห็น • 21

  • @SaiKumarvenigalla
    @SaiKumarvenigalla 2 ปีที่แล้ว +2

    Very useful and easily understandable pyspark scenario series. Great work and really appreciate your efforts.!!!!!

  • @pratiksharma8548
    @pratiksharma8548 2 ปีที่แล้ว +2

    Thanks for this wonderful series. Really appreciate your efforts.

    • @TRRaveendra
      @TRRaveendra  2 ปีที่แล้ว

      Thank you Pratik 👍

  • @vis7681
    @vis7681 2 ปีที่แล้ว +2

    neatly explained...✌

  • @usabnd
    @usabnd ปีที่แล้ว

    Great video. Thank you for sharing. 😊

  • @chandrashekar3649
    @chandrashekar3649 2 ปีที่แล้ว +1

    That's great.....

    • @TRRaveendra
      @TRRaveendra  2 ปีที่แล้ว +1

      Thank you Chandra 👍

  • @sowmiyadevik8331
    @sowmiyadevik8331 2 ปีที่แล้ว

    Hi sir, nice explanation but monotonically increasing id will work if there is duplication in combined key to allocate a surrogate key ?

  • @NasimaKhatun-jb7qo
    @NasimaKhatun-jb7qo ปีที่แล้ว

    Hi, how to generate the integertype surrogate key for a column col1. Where we are getting duplicate values in col1. As sha2 gives good result but it's alpha numeric

  • @ramprajapati7480
    @ramprajapati7480 ปีที่แล้ว

    From where can I download the sample file for practice.. Please share the link
    .pls

  • @AnimeManhwaFans
    @AnimeManhwaFans 2 ปีที่แล้ว +1

    when i am using monotonically_increasing_id it is generating random number instead of 0,1,2,3... Can you pleae help me with this

    • @TRRaveendra
      @TRRaveendra  2 ปีที่แล้ว

      Verify data and is there any sorting applied?

    • @AnimeManhwaFans
      @AnimeManhwaFans 2 ปีที่แล้ว +1

      @@TRRaveendra the data is non sortable

    • @TRRaveendra
      @TRRaveendra  2 ปีที่แล้ว +2

      monotonically_increasing_id() will give partition wise sequence values and if you have multiple partitions its wont follow same sequence numbers, it will generate random unique values. partition wise you can find sequence values.

    • @AnimeManhwaFans
      @AnimeManhwaFans 2 ปีที่แล้ว +1

      @@TRRaveendra thank u its a great help

  • @KaveshR
    @KaveshR 2 ปีที่แล้ว

    How can we sum the one column data incremental basis
    salary op
    1 1
    2 3
    3 6
    4 10
    5 15

    • @TRRaveendra
      @TRRaveendra  2 ปีที่แล้ว

      Use window function with sum

  • @ketanmehta3058
    @ketanmehta3058 2 ปีที่แล้ว +1

    @TeckLake monotonicaly_increasing_id is not recommended. It might generate the same ID in the next iteration of job.

    • @Ramakrishna410
      @Ramakrishna410 9 หลายเดือนก่อน

      How to create unique key in next iteration should start from last max id