YOLO: input dan outputnya

Anak AI

มุมมอง 10 251

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 2 ต.ค. 2024
Bahas input dan outputnya YOLO (You Only Look Once) dulu yak
Konten, script, suara: Marcella Astrid
Editing, subtitle, ekstra humor: Diaz Jubairy ( / diazjubairy )
Link buat yang mau nyawer:
saweria.co/marcellaastrid
buymeacoffee.com/marcellaastrid
Preliminary video:
Bahas kilat RCNN ke YOLO: • Bahas kilat RCNN ke YOLO
Sumber:
github.com/mot...
arxiv.org/pdf/...
learnopencv.co...
• You Only Look Once: Un...
#YOLO #objectdetection #AnakAI

ความคิดเห็น • 84

@maliqueabdulaziz4441 5 วันที่ผ่านมา ⁺²
kak itu b = 2 dapat darimana?
@jensYSsck 4 หลายเดือนก่อน ⁺¹
ka mau nanya, ini tuh pembahasan umum untuk semua YOLO atau versi berapa saja? berhubung sepengetahuan saya di YOLOv8 ada perubahan dari yang tadinya anchor box di versi sebelumnya jadi anchor free detection di YOLOv8 kak. makasih
@AnakAI 2 หลายเดือนก่อน
YOLO v1. Versi2 berikutnya tentunya bangun dari YOLOv1 nambah/ganti komponen lala lili
@dosenswasta 3 หลายเดือนก่อน
Penjelasan paling mantap. Tks banyak2. Ditunggu pembahasan lainx tentang Yolo. Kalau boleh, langsung dgn contoh kasus.
@shoyaaa14 6 หลายเดือนก่อน
Ka makasih banyak videonya, singkat namun berbobot dan jelas. ini sangat membantu saya dalam memahami yolo untuk tugas akhir skripsi saya. Sehat terus yaa ka.
@IGedeIndrawan_III 2 ปีที่แล้ว
Saya sempat melakukan uji kepada gambar acak yang saya ambil di google, dan gambar tersebut tidak berukuran 448x448 pixel kenapa hal tersebut bisa terjadi? Sedangkan dari penjelasan kk inputan pada yolo berukuran segitu.. Mohon bantuannya kak..
@AnakAI 2 ปีที่แล้ว
YOLO aslinya memang 448x448 input tapi tentu bisa dimodifikasi dengan arsitektur lain yang punya ukuran input atau output (ukuran grid dan jumlah kategori) yang lain. Tapi prinsip tetap sama.
@KadekSukaAstawa ปีที่แล้ว
izin bertanya kak, pada menit 6.26 kan terlihat ada conv layer 224x224x64 maksudnya apa ya? saya belum paham disana.
@AnakAI ปีที่แล้ว
Feature mapnya di tengah2 (lebih tepatnya setelah layer pertama) berukuran lebar 224, tinggi 224, channel 64
@faisalrezarahmat 3 หลายเดือนก่อน
Kategori itu kelas ya kak?
@AnakAI 2 หลายเดือนก่อน
Iya
@mayratat2836 ปีที่แล้ว
Misal di cell ke X gt ke deteksi ada objek (titik) gt trus dia tau panjang lebar kotaknya dari mana ya kak ? Soalnya kan keluar dari cell nya?
@AnakAI ปีที่แล้ว
Coba cari "receptive field". Aku juga ada videonya (tp males nyari wkwkw)
@ameliapuspa7230 8 หลายเดือนก่อน
kak input gambar dibagi menjadi sxs grid itu setelah lapisan konvolusi apa gimana ya?
@AnakAI 8 หลายเดือนก่อน
Karena akhirnya outputnta sxs grid, kita lihatnya inputnya dibagi sxs grid juga
@Claerys 2 ปีที่แล้ว
Kak mau nanya filters itu apa ya? Pernah dibaca di komen klo itu extract feature dll tp lupa pastinya gmn
@AnakAI 2 ปีที่แล้ว
Bisa baca soal convolution layer itu sendiri. Videoku soal convolutional neural network seingatku ada bahas
@glandymundung6856 2 ปีที่แล้ว
request gimana sampe dapet outputnya dengan fully cnn ka🙏 mungkin singgung juga object localization.
terima kasih banyak.
God bless
@AnakAI 2 ปีที่แล้ว
YOLO sendiri itu benar2 asal tau input, output, trus lossnya. Bodo amat convnya arsitekturnya mau kayak apa, yang penting besar keluarannya benar.
@muhammadfadelakbarputra1359 ปีที่แล้ว
wait, kenapa kalo IoU > threshold malah di-suppress?
@AnakAI ปีที่แล้ว
Dianggap deteksi objek yang sama dgn prediksi box confidence tinggi
@fathinazzaim6861 ปีที่แล้ว
kak apakah imbalance class juga menjadi masalah dalam object detection? lalu jika ya biasanya solusi apa yang digunakan untuk masalah tsb? trims
@AnakAI ปีที่แล้ว ⁺¹
Imbalance class buat object detection tentu ada. Yang paling jelas, antara class background dan class lainnya. Caranya, macam2. Ada sampling aja yang class backgroundnya (ada random, ada hard sampling. Hard sampling: cari background class yg terprediksi bukan background). Ada focal loss. Dll.
Belum lagi imbalance antar class objectnya.
@muthiarapanghurina1244 ปีที่แล้ว
Kak yolo kan terbagi jadi 3 yaitu backbone, neck dan head. Nah bagian yang memprediksi bounding box dan kelasnya itu dibagian mana ya kak? terima kasih
@AnakAI ปีที่แล้ว
medium.com/aiguys/yolo-v4-explained-in-full-detail-5200b77aa825
@isnaayu_m ปีที่แล้ว
kak, ijin tanya di menit 4:21 , itu kan 320 untuk x, dan y 64, itu kan katanya 320 dari 64x5, 5 itu dari mana ya, dan kenapa y nya tidak dikali 5, makasih sebelumnya
@AnakAI ปีที่แล้ว
x nya kali 5 karena 5 grid dari kiri. y nya kali 1 karena 1 grid dari atas
@isnaayu_m ปีที่แล้ว
@@AnakAI oke kak makasih 😘😘
@anthoniusadi5754 11 หลายเดือนก่อน
Kak mau tanya itu grid nya pasti 7x7 dan masing masing cell nya 64pixel?
Masih bingung yg dimaksud 7x7 nya grid dan 7x7 nya output yolo
@AnakAI 11 หลายเดือนก่อน
YOLO aslinya, iya begitu. Per gridnya melambangkan 64x64 pixel.
Tapi YOLO secara konsep (input ke deteksi cuma satu stage), nggak selalu harus 7x7 (tergantung ukuran output yang didesain) dan per gridnya nggak harus selalu 64x64 pixel (tergantung ukuran input juga)
@anthoniusadi5754 11 หลายเดือนก่อน
@@AnakAIyang dijellaskan di video ini lebih ke proses inference yolo ya?
@AnakAI 11 หลายเดือนก่อน
@@anthoniusadi5754 iya..... tapi dalam training ya juga perlu inference dulu, lalu hitung loss, lalu backpropagation
@indr.9124 2 ปีที่แล้ว ⁺¹
Kenapa kategorinya 20 sedangkan pengalinya 30 ya kak? Bingung disana
@AnakAI 2 ปีที่แล้ว
20 + 10 (2 bounding box)
@AnakAI 2 ปีที่แล้ว
Per bounding box ada 5: x, y, w, h, objectness
@indr.9124 2 ปีที่แล้ว
@@AnakAI berarti pada YOLO ini, warna juga berpengaruh ya kak? Karena biasanya setau saya pada objek deteksi warna tidak berpengaruh.. Mohon pencerahannya kak :'))
@AnakAI 2 ปีที่แล้ว
@@indr.9124 Kenapa warna tidak berpengaruh?
@indr.9124 2 ปีที่แล้ว
@@AnakAI bukan tidak berangruh sih kak, lebih ke di hitam putihin dulu.. Saya juga kurang mengerti kak, gimana ya penjelasannya?
@edd36 2 ปีที่แล้ว
Bahas sota kakkkk. Btw udh gg sih sebenarnya bahas sampe yolo gitu
@AnakAI 2 ปีที่แล้ว
Tau yang lama kadang2 penting sih. Apalagi yang sepenting YOLO.
@nurstd 2 ปีที่แล้ว
request untuk penjelasan algoritma, input serta output di setiap tahap YOLOnya itu sendiri ya ka. mulai dari backbone, neck dan headnya, lagi ada task buat object detection pake YOLOv5. karena makainya tinggal plug n play bingung cara kerja didalamnya seperti apa
@AnakAI 2 ปีที่แล้ว ⁺¹
YOLO sendiri (bukan YOLO yg versi berapa2) itu benar2 asal tau input, output, trus lossnya. Bodo amat convnya arsitekturnya mau kayak apa, yang penting besar keluarannya benar.
@AnakAI 2 ปีที่แล้ว
Kalau mau tau persis dalamnya neural net kayak apa, itu ada satu bidang lagi, namanya explainable AI. Silakan bisa dicari sendiri
@fahriahmadfachrudin2117 2 ปีที่แล้ว
halo kak, agak bingung di bagian prediksi. pada yolo kan input gambar akan dibagi menjadi grid dan tiap sel pada grid akan memprediksi bounding box, lalu setelah itu titik tengah pada bounding box akan memprediksi object dari bounding box tersebut. nah bagian ini saya kurang mengerti, jadi ada 2x prediksi pada prosesnya?
@AnakAI 2 ปีที่แล้ว
Iya ada 2 prediksi per grid. Anggap saja untuk mengantisipasi adanya 2 objek dalam satu grid
@fahriahmadfachrudin2117 2 ปีที่แล้ว
@@AnakAI lalu bagaimana titik tengah (sel) pada bounding box mendeteksi objek kak? kalau dilihat pada menit 4:44 kan ukuran bounding box tersebut lebih besar daripada sel grid nya sendiri
@AnakAI 2 ปีที่แล้ว
@@fahriahmadfachrudin2117 di satu grid bisa ada 2 titik tengah objek. Kalau cuma ada satu dan kebetulan 2-2nya prediksi objek tersebut, akan dipilih yang confidence tertinggi, sisanya di NMS
@fahriahmadfachrudin2117 2 ปีที่แล้ว
@@AnakAI thank you kak
@arya83o292 ปีที่แล้ว
Permisi kak mau nanya walaupun diluar konteks, saya skrnh lgi buat sistem deteksi objek dengan ssd mobilenetv2, setelah pelatihan selesai lalu melakukan uji coba real time dengan webcam, bagaimana ya kak caranya mobilenet ini dapat menentukan nilai akurasi dan kelas pada gambarnya
@AnakAI ปีที่แล้ว
SSD mobilenetv2... Mobilenetv2 nya itu cuma feature extraction. Yang kamu mesti baca dan cari tahu, bagaimana SSD mengeluarkan kelas dan confidence (bukan akurasi)?
@arya83o292 ปีที่แล้ว
@@AnakAI terimakasih kak
@arya83o292 ปีที่แล้ว
@@AnakAImau nanya lgi kak, masih krg paham, jdi yg ada skor nilai 90% atau 100% itu bukan nilai akurasinya ya kak?
@AnakAI ปีที่แล้ว
@@arya83o292 kalau output ssd nya langsung, bukan akurasi. Tp apakah codinganmu ngitung "akurasi" setelahnya, ku kurang tahu.
(Akurasi pakai tanda kutil karena kalau buat object detection, biasanya bukan akurasi sih, tp mAP)
@arya83o292 ปีที่แล้ว
@@AnakAI maksih kak, kalau kodinganya krg paham jg sih kak cuma ngikutin template dari tensorflow object detection
@dayatbinzen8859 2 ปีที่แล้ว
untuk input citra 416x416 ukuran grid sel nya berapa ya? apakah tetap 7x7?
@AnakAI 2 ปีที่แล้ว
Mesti diitung/dicoba didebug. Bisa sama atau bisa kecilan.
@dayatbinzen8859 2 ปีที่แล้ว
@@AnakAI bagaimana ya kak saya masih belum faham? Cara melihat keterangan grid size nya dimana ya kalau boleh tahu saya cari di file .cfg nggak ada. Saya sangat butuh🙏
@AnakAI 2 ปีที่แล้ว
@@dayatbinzen8859
1. Kalau diitung, setiap convolution, feature sizenya berubah sesuai ukuran kernel, stride, padding, dll. Begitu pula dengan pooling. Itungannya bisa liat di manual, misal, pytorch di pytorch.org/docs/stable/generated/torch.nn.Conv2d.html (lihat rumus Hout dan Wout)
2. Kalau susah ngitungin satu-satu featurenya per layer jadi ukuran berapa, bisa juga dirun aja langsung codingan yolonya dengan ukuran input yang diinginkan trus diprint ukuran feature akhirnya berapa.
@dayatbinzen8859 2 ปีที่แล้ว
@@AnakAI kak, untuk yg ukuran citra 448x448 pada proses train tertera paling bawah 7x7, sedangkan pada ukuran 416x416 paling bawah 13x13. Berarti apakah itu merupakan grid size-nya?
@AnakAI 2 ปีที่แล้ว
@@dayatbinzen8859 kalau paling bawah 13x13 ya berarti memang 13x13
Tapi kalau settingan layernya (jumlah layer, urutan layer, kernel size, stride, dll) sama dengan yang input 448x448, aneh kalau paling bawah jadi lebih besar daripada 7x7. Jadi coba cek lagi (coba cek kalau inputnya 448x448, coba cek kalau cara ngeceknya sudah benar).
Kalau input 448x448 outputnya nggak 7x7, berarti arsitekturnya sedikit berbeda dengan YOLO pertama. Walau sebenarnya arsitektur berbeda ya tetap YOLO intinya (you only look once ntah arsitekturnya bentuknya kayak apa pokoke dari input trus neural net apapun trus output)
@IGedeIndrawan_III 2 ปีที่แล้ว
Sama satu lagi kak, kalau kita mau bikin dataset tersendiri ada syarat khusus ga untuk Gambarnya? Atau bebas yang penting gambarnya jelas..?
@AnakAI 2 ปีที่แล้ว
Banyak hal yang mempengaruhi kualitas dataset. Kejelasan gambar, variasi gambar, variasi kategori, kualitas label, keseimbangan kategori, jumlah, dll. Tentu tidak ada dataset yang sempurna. Ketidaksempurnaan itu nantinya coba diselesaikan/dikurangi lewat algoritma. Kalau object detection, yg kuingat, ada keterbatasan keseimbangan kategori (kategori berat di 'person') jadi ada focal loss yang datang dari object detection. Lalu tentu saja bisa main augmentation buat nambahin data. Dll.
Paling lihat2 dataset publik yang sudah ada dan dikira2 kualitasnya bagaimana.
@IGedeIndrawan_III 2 ปีที่แล้ว
@@AnakAI untuk mengoptimalkan kerja YOLO untuk satu kategori, minimal kira-kira berapa data yang diperlukan untuk dataset kak? Dan training yang optimal untuk satu dataset itu biasanya berapa kali kak?
@IGedeIndrawan_III 2 ปีที่แล้ว
@@AnakAI berarti untuk dataset tidak perlu Ukuranny 448x448 pixel kan kak?
@AnakAI 2 ปีที่แล้ว
@@IGedeIndrawan_III iya. Nantinya bisa disesuaikan arsitekturnya dan ukuran tinggi lebar outputnya. Bahkan tidak harus persegi. Bisa persegi panjang. Tapi, semua input akan diresize ke ukuran input yang ditentukan.
@AnakAI 2 ปีที่แล้ว
@@IGedeIndrawan_III coba saja lihat dataset yang sudah ada. Kasarannya, jumlah data dataset itu dibagi jumlah kategori dataset itu.
Maksudnya training berapa kali? Berapa epoch atau ngulang berapa kali?
Kalau epoch, ikutin aja YOLO buat starting point sambil liat validasi.
Kalau ngulang berapa kali, aku pribadi pakai 3x-5x. Syukur2 ada waktu buat 10x.
@mayratat2836 ปีที่แล้ว
Di yolo setiap konvolusi nge-ekstrak fitur gt kn ya kak, kita bisa tau ga yang diekstrak itu ciri kayak gimana ? Kayak conv 1 ngambil ciri tekstur, conv 2 wana ? Atau emng random suka2 dari filternya entah dapetnya apa jadi ga mengarah ke ciri tertentu?
@AnakAI ปีที่แล้ว
Nggak "random" sih. Tp di-training dengan data. Cirinya yang akhirnya dipelajari adalah ciri yang bisa mengurangi training loss
@mayratat2836 ปีที่แล้ว
@@AnakAI brarti buat setiap conv gabisa di sama ratain ciri apa yg diambil ya kayak conv 1 itu di ambil ciri bentuk , conv 2 itu ciri warna, conv 3 itu ciri tekstur, dst.. Karena setiap gambar yg diinput itu pada conv1 conv2,dst.. Yg diambil beda2 cirinya buat setiap gambarnya ?
@AnakAI ปีที่แล้ว
@@mayratat2836 filternya intinya dipelajari otomatis (aku ga ngerti apa maksudmu disamaratain). Bisa ada filter warna, pola A, pola B, tekstur, dll. Walau kecenderungannya (dilihat dari model klasifikasi, bukan detection) layer lebih awal itu filternya sederhana (warna, tepian) dan layer belakangan lebih kompleks (pola muka, pola kaki, pola lain2nya). Tapi berapa layer lebih awal/akhir itu ga ada patokannya
@mayratat2836 ปีที่แล้ว
@@AnakAI @Anak AI disamaratain kayak gambar x di conv1 ambil tekstur nya conv2 ambil ciri warnanya ,, trus input lagi gambar y di conv1 juga sama ambil tekstur nya conv2 ambil ciri warnanya. Jadi setiap conv udh ditentuin ambil ciri apanya, bener ga si kak ? 😅
Jadi bukan kayak di arsitektur yg sama, gambar x di conv1 diambil tekstur sedangkan gambar y di conv1 diambil warnanya (beda, jadi kayak sedapetnya gt)
@mayratat2836 ปีที่แล้ว
@@AnakAI Sm kita kan bisa nentuin hyperparameter ukuran filter sm jumlah filter, bisa ga si kak kita juga nentuin isi filter nya (misal filter 2*2 itu kita maunya isinya 5,3,8,1) atau udh di setting dari awal?
@gopletzzz1290 4 หลายเดือนก่อน
Makaasih kak
@andianzanulzikra5729 2 ปีที่แล้ว
pertamax
@AnakAI 2 ปีที่แล้ว
Keduax

ต่อไป

เล่นอัตโนมัติ