Les Bases Du Prétraitement De Texte Pour Les Débutants en Deep Learning

แชร์
ฝัง
  • เผยแพร่เมื่อ 6 พ.ย. 2024

ความคิดเห็น • 12

  • @pnzi10
    @pnzi10 ปีที่แล้ว

    merci pour cette vidéo 🙂
    1-b, 2-d, 3-(guess) avoir vocabulaire plus important !

  • @deux-d1313
    @deux-d1313 ปีที่แล้ว

    Salut Natacha et merci pour la video😊... Cependant j'ai quelques préoccupations concernant la tokenisation. T'as pas mentionné la tokenisation par phrase, qui est très utile lorsqu'on a une grande quantité de données textuelles

    • @LeCoinStat
      @LeCoinStat  ปีที่แล้ว

      Effectivement on peut tokeniser par phrase mais je ne l'ai pas encore utilisé. Mais dans la majorité des travaux que j'ai vu jusqu'ici on utilise la tokenisation par mot.

  • @soulemanegoro3490
    @soulemanegoro3490 ปีที่แล้ว

    Salut à toutes et à tous . J'ai installé anaconda 3 , mais le problème est que quand j'écris du code dans jupiter notebook je n'ai pas de suggestions de modules , fonctions ....Je dois connaître l'orthographe juste . C'est vraiment contraignant . Pardon quelqu'un a t-il une solution pour mon problème ? Merci d'avance .

  • @mariengaha
    @mariengaha ปีที่แล้ว

    1_B
    2_D

  • @adonislabnobime7213
    @adonislabnobime7213 ปีที่แล้ว

    1-b 2-d

  • @mariengaha
    @mariengaha ปีที่แล้ว

    stp on peut avoir le notebook?

    • @LeCoinStat
      @LeCoinStat  ปีที่แล้ว

      Le notebook est disponible ici: github.com/LeCoinStat/30DaysGenerativeAI/tree/main/Jour14

  • @deux-d1313
    @deux-d1313 ปีที่แล้ว

    Aussi, je croyais que la représentation numérique c'est plutôt le word embedding...mais lorsque vous avez dit que la tokenisation nous permettait de quitter d'un texte à sa forme numérique, suis un peu perdu 🤨

    • @LeCoinStat
      @LeCoinStat  ปีที่แล้ว

      La tokenisation est le processus de division du texte en unités discrètes, appelées tokens. Ces tokens sont généralement des mots, mais peuvent aussi être des phrases ou d'autres subdivisions linguistiques. À chaque token est associé un identifiant unique. Par exemple, si au mot « bonjour » on attribue l'identifiant 1, alors au mot « comment » on pourrait attribuer l'identifiant 2. L'embedding, de son côté, transforme ces tokens en vecteurs numériques. La dimension de ces vecteurs n'est pas nécessairement liée à la taille du vocabulaire.

    • @deux-d1313
      @deux-d1313 ปีที่แล้ว

      @@LeCoinStat Je comprends mieux maintenant, merci 😅

  • @benjaminhilla9211
    @benjaminhilla9211 8 หลายเดือนก่อน

    1=B et 2 =D