TF için kaynaklarda Kelimenin tekrar miktarı/toplam kelime sayısı, IDF içinse toplam belge miktarı/kaç belgede geçtiği. Şeklinde formüller veriliyor sizinkinden farklı bir şeyi mi atlıyorum bilgilendirir misiniz?
log fonksiyonu içersinde hem bölen kısmında hem de bölünen kısmında neden +1 eklediğimizi mi sordunuz? Eğer onu sorduysanız döküman içinde geçmeyen bir kelime olması halinde log fonksiyonun bölen kısmı 0 olacak. Bir sayı sıfır ile bölünemeyeceğinden dolayı hem bölen hem de bölünen kısmına +1 ekliyoruz. En sonundaki +1'i de bir kelime tüm dökümanlarda geçecek olursa log(1) oluyor ki bu da 0'a eşit. 0 ile bir herhangi bir sayıyı çarptığında sonuç 0 çıkacağından dolayı TF değerinin etkisi gitmiş oluyor. O etkinin gitmemesi için her ihtimale karşı +1 ekleniyor ki bir kelime tüm dökümanlarda bulunsa bile log(1)+1=1 olacağından tf değeri aynen korunuyor .Ama sonuç olarak farklı bir şey yok. Bu tf-idf'teki ana düşünce bir dökümanda sıklıkla geçen kelimeler diğer dökümanlarda da çok fazla geçiyorsa bu kelimenin anlam bakımında çok da bir önemi yoktur. ama bir dökümanda çok geçip diğer dökümanlarda az bulunuyorsa bu kelimenin önemi daha çoktur. Sizin söylediğiniz formulun de ana düşüncesi bu şekilde.
harika olmuş, ellerine sağlık :) Başarıların ve bu tarz videoların devam etsin :)
Çok yararlı bir video olmuş, teşekkürler.
Buralar değerlenir =) Eline sağlık.
Bir milyon abone olunca dönüp bakarsın :) hatıra.. eline sağlık
palavara yapma palavara
TF için kaynaklarda Kelimenin tekrar miktarı/toplam kelime sayısı, IDF içinse toplam belge miktarı/kaç belgede geçtiği. Şeklinde formüller veriliyor sizinkinden farklı bir şeyi mi atlıyorum bilgilendirir misiniz?
log fonksiyonu içersinde hem bölen kısmında hem de bölünen kısmında neden +1 eklediğimizi mi sordunuz? Eğer onu sorduysanız döküman içinde geçmeyen bir kelime olması halinde log fonksiyonun bölen kısmı 0 olacak. Bir sayı sıfır ile bölünemeyeceğinden dolayı hem bölen hem de bölünen kısmına +1 ekliyoruz. En sonundaki +1'i de bir kelime tüm dökümanlarda geçecek olursa log(1) oluyor ki bu da 0'a eşit. 0 ile bir herhangi bir sayıyı çarptığında sonuç 0 çıkacağından dolayı TF değerinin etkisi gitmiş oluyor. O etkinin gitmemesi için her ihtimale karşı +1 ekleniyor ki bir kelime tüm dökümanlarda bulunsa bile log(1)+1=1 olacağından tf değeri aynen korunuyor .Ama sonuç olarak farklı bir şey yok. Bu tf-idf'teki ana düşünce bir dökümanda sıklıkla geçen kelimeler diğer dökümanlarda da çok fazla geçiyorsa bu kelimenin anlam bakımında çok da bir önemi yoktur. ama bir dökümanda çok geçip diğer dökümanlarda az bulunuyorsa bu kelimenin önemi daha çoktur. Sizin söylediğiniz formulun de ana düşüncesi bu şekilde.