ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
オーバーフィッティングを防ぐためにモデルの細かい精度を敢えて悪化させるという手段を思いついた先人の偉大さを感じる
機械学習における数学をもっともっとやって欲しい!
たくみ先生のように言葉で言ってもらえると、式が何を意味しているのかが分かるので本当にありがたいです。
機械学習で使う数式についての説明は貴重です。正則化の式がグラフで見える化するのはエキサイティングです。お疲れ様でした!
機械学習の数学もっとやってくれーーーー!!頼むーーたくみくんの授業の安心感ぱない!!
L1とL2の使い分けがスパース性にあるとは知りませんでした。この動画に会えて良かった。
非常にわかりやすかった!今迄わからなかったところがわかったので良かったです!ありがとうございました。
ちょうど最近正則化の勉強してたので助かります
図解ありがたい!L1とL2の特徴についてもわかりやすかったです。たくみ先生ありがとうございます!
後の自分へのメモ(疑問)半径Rは大きくしすぎると、lossの最小点が内側になるようにできるが、その場合は問題ないのか?→おそらく問題あり。「L2の円の半径RはW1_min、W2_minの値と比べて、小さくしておく必要はあるのであろう」。そうでない場合、もし、円の内側に最小の点がある場合を考えると、w1,w2と円にフィットさせるため、最小の点よりも右上(つまり、w1,w2ともに最小の点よりも大きな値)に加工することになる。これは、当初の目的「W1やW2の大きさを小さくして、傾きを抑えることで過学習状態を抑制する」に反する気がする。なので、Rには一応の制限はあるはず。ただし、そこまで大きくしてしまうともはや、元のloss関数よりも、正則化項を評価していることになるので、、まぁ当たり前なのかな?"
→いや、基本的には、Rが大きい(=λが小さい)と、原点よりではなく、lossの最小点より重みを採用することになるから、元のloss関数のほうが、誤差より比重が大きくなることを意味する。ただし、あまりに大きすぎると↑の議論になるということか。(疑問)Rが小さすぎたら問題はないのか?→逆にRが小さすぎる(=λが大きすぎる)とw1もw2も原点寄りになってしまうので、ほぼ傾きなしという結果になってしまう(学習が進まないということか?)。なので、あまりに小さすぎる場合も注意が必要。 いい感じにλを調整する必要がありそう。(性質まとめ)多分こんな感じの理解。〇Rについて 結論:全体として、ちょうどいい感じの値に調整する必要あり。 ・Rが小さい(λが大きい)場合 →重みW_iの大きさは小さくなりがちなので、学習は進みづらくはなる。 ・Rが大きい(λが小さい)場合 →w_iはlossの最小点付近のもの(かつ、大きさは原点よりの小さな値)になるが、この場合は、大きすぎるとfitしすぎることになるので注意。 ・Rが大きすぎる(半径の中にlossの最小点がある)場合 →重みの更新で大きさが小さなw_iにしたいのに、修正前より大きなw_iになってしまう。これはやりすぎ。〇L1とL2の性質 ・L1 →尖った点が採用される場合が多い。寄与率の低い説明変数の重みはゼロになってしまう(場合が多い)。 ・L2 →L1ほどではないが、基本的には寄与率の小さな説明変数の重みは、寄与率が大きなものと比べて、大きさが小さくなる傾向にある。
マジでちょい前まで欲しいやつだった
L1正則化で最も重要な点は、正則化項が凸関数であるという点です。理想的には、Lpノルム(0≦p<1)を考えてやったほうが、最適解はスパースな解になりやすいです。(等高線の説明で言うと、アステロイドみたいな形のほうが、より角が接点になりやすいことが分かると思います)ただし、このようなLpノルムは、非凸関数であり、最適化が難しくなります。なので、数値的に扱いやすい、L1ノルムがよく用いられます。
9:40 ころに凸性が必要なことはコメントしていますね。
@@HideyukiWatanabe それは損失関数の凸性の話では?
もっと言うと、そこの部分、損失関数の凸性は別に必要ではないと思います。非凸だったとしても、正則化パラメータに対応するようなRが存在する事は示せるかと
@@zalgo_video いいえ、Rの凸性と理解しましたが?
@@HideyukiWatanabe 9:37「誤差関数が凸関数じゃなきゃいけない」とはっきり発言してますね
機械学習の参考書では天下り的に出てくる正則化項。以前から良く分からないまま放っておいたのですが、動画を2回見たら何となく分かりました。図解の威力が凄いな!というのが感想。
前回の最適化問題の授業がここに繋がっていたとは!!機械学習にも役立つのは感動しました。
大学で少し習いましたが違いがよく分からなかったので、動画ありがたいです!
まさに今つまずいていたところです。ありがとうございます!
接点の位置のwが最適解を与えることがこれまでは理解できなかったのですが、理解するためには、制約付き最適化問題(KKT条件/ラグランジュ未定乗数法) を理解せねばならないことが分かりました。制約付き最適化問題自体の理解はまだですが、見通しが立てられました。ありがとうございます。
素晴らしい動画でした。JDLAのG検定を学んでいますが、正則化についての理解がとても深まりました。ありがとうございます!!!
機械学習関連はありがたい!
エクセルでこんな機能があった記憶がある
統計検定で暗記で乗り切ってたところが理解できました🎉
細かいですが、6:30 は正しくはL2ノルムの「2乗」ですかね
正則化の意味がつかめてきました!
提供先のホームページ見に行ったらヨビノリとのコラボ!とトップに出てきてかっこよきでした
ヨコサワの動画見すぎて忘れてたけど賢いんよな
最適化関連って図形的な意味合い掴むの難しいよな~
機械学習講義、待っていました。理論と実際の差を説明しようとしている人の試みを見てみたいです
まさか大学院に入ってて、レポートを書くためにLASSOを検索したらまたヨビノリが出てきた。。。
助かります!
大学の頃が懐かしい
ちなみにL1正則化は、ヨビのりでも紹介されたブラックホールの撮像手法でも使われています。
痒いところに手の届くヨビノリ
過学習の説明の図で項数増えて線がクネクネするのは、そもそも線と点の差が減るためなのだから、過学習前後の点と線の距離に差を付けた方が良いかなと。図だと点と線の距離が過学習前後で殆ど同じになっているかと(すでに過学習)。
機械学習の再生リストを作ってほしいです!
誤差関数に対して更に残差項も評価する意味がやっとわかりましたmm
正則化の話、こんなにわかりやすく説明しているところある?動画の力っていうのを差し引いても、この方のお話上手ぶりには、びっくりしちゃう。ただ、出来れば、いつもみたいに、先生独自の言葉とニュアンスで説明いただけると嬉しいです。正則化の図や説明用語等、道端に落ちているような、見飽きるほど見ているものばかりなので...もっと想像しやすい、直感的な理解につながる新しい説明をご考案いただけると幸いです。(お忙しいから、難しいか(笑))今後もどうぞよろしくお願いいたします。
今日もありがとうございます。🙆🙆♂💍🤱🙆♀🙆♂💍🤱
ヨビノリさん、ここ最近、最適化関連の動画出してるけど、データサイエンス系のイベント(もしくは書籍発売)が控えてるのかな?
たくみさん!動画に関係無く申し訳ありませんが、以前、このチャンネルの何かの動画で紹介されていた『ジェノサイド』を本日読了しました!人間の現実をまざまざと見せつけられるシーンも多いですが、それだけに脳味噌に衝撃を受け、のめり込んで読みました。とても面白かったです。たくみさんのお蔭でこの小説に出会えました。ご紹介してくださり、ありがとうございました!📚
【質問、コメントを見ていてわかる方がいたら教えてほしいです】今回多項式を例にしていますが、正則化項の最小化を考える上では、多項式も値が出る範囲で内積空間を定義して、互いに直交化している関数を用いて、さらにそれぞれを規格化してからでないと、そもそも正則化の物理的意味や効果が出ないように感じるのですが、いかがなのでしょうか?ゴリ押しでグラムシュミットとかで直行化するかルジャンドル多項式、チェビシェフ多項式等を活用する等想像するのですが、そういう必要はないでしょうか?
ここでは L1/L2正則化の紹介をしているので、どのような関数(群)を使ってフィッティングするかは問題ではないですね。ただ単に、取り掛かりとして多くの人が知っている多項式で書いただけだと思います。
@@田中一郎-p6x ありがとうございます。たしかにL1,L2正則化の紹介の動画なので、見当違いな質問をしていたようにも思います。すみませんでした。私がこの分野に疎いせいか規格直交化してないもので、正則化項を加えるというのが、あまり理解ができて無くてこう言う質問をしてしまいました。1. 正則化項を加える意味2. 多項式の場合には高次のグニャグニャした物を取り除くのが意図だと思うのですが、独立してない関数群の係数を小さくする意味があるのか、ないのか? この辺が分かる動画ってありましたっけ?基礎的な質問ですみません。
@@kcscience929 パラメータ空間を変換する必要があるような場合には、正則化項として||Dx||みたいに、変換行列を噛ませたノルム考えることもありますね(Generalized Ridge/Lasso)
@@zalgo_video 確かにこの変換行列に2階微分行列を指定したりしますね。 空間的に広がったピクセルみたいな物を扱うのには非常に有効な印象ですが、そのような認識で良いでしょうか?
@@kcscience929 2階微分行列を使うgeneralized lassoは、トレンドフィルタリングと呼ばれて、時系列データのトレンド抽出に使えたりしますね
L1正則化の方が演算量抑えられる?
正則化まってた。
こういうチューニング項を弄るの楽しい。でも、高次の項の方がより重い制約をかけるべきだと思うんだよなあ……どうなんでしょう
w1 と w2 でどちらが重要なパラメータかの説明で、13:45付近からの説明は間違ってませんか?普通、重要なパラメータとは、そのパラメータを少し変えた時に、誤差関数の値が大きく変化するものを言いませんか。なので、等高線が縦に潰れていたら w2 が重要となりと言う理解です。たくみさんの説明だと採用している点をどこに選ぶかで w1, w2 の重要性が入れ替わってしまいます。もっと気になるのは、ラムダや R をどのように決めるのが適切か?という問題です。そしてそれが、M の最適化にどう繋がるのか?という問題です。「それは経験的なものなので、動画にしにくい」が答えのような気がしますが。
後半の疑問、いわゆる「解パス図」を使った説明が感覚的に理解しやすい気がします。結局経験則は経験則ですが、ラムダを大きくすればするほどゼロになる変数が増えていくというのが視覚的にわかりますし。
@@zalgo_video 有難うございます。M(最適化するパラメータの数) をどのように決めるべきか考えてみました。私は、「各データが持つ誤差の二乗平均と誤差関数とが同程度になるまで M を少なくする」のが最も自然だと思います。どのパラメータを削るべきかは、この動画で示された方法で決められます。また、λはその作業をするとき、段階に応じて変えていけばいいですね。ただ、上の各データが持つ誤差との比較をするときには、λ=0 を使うと思います。実際の問題に対してはどのようにされているのか、もしご存知でしたら教えて頂けないでしょうか?
@@田中一郎-p6x どの分野に適用するかとかによっても変わると思いますが、例えば機械学習とかだと、検証データで精度が良くなるようなパラメータを単に実験的に探したりしますね(古典的なものだとグリッドサーチ)
@@zalgo_video 有難う御座います。私は、測定データのように誤差の評価がされているものを想定していました。機械学習が扱うようなデータでは、誤差の概念がないので、私の考えはピント外れでしたね。
うぽつです_|\○_‼
3:30
ai専攻してるからうれしい
L1/L2の特徴って、(L2)2乗の方が手計算と相性が良くて、(L1)の方が線形処理しやすいって、ノルムの理解であってますか?(どなたでも教えてくださいmm)
性質として、L1は、あまり重要でない説明変数の回帰係数が0になる性質がある。なので「どの変数が重要か」がわかりやすくなります。L2は、誤差関数を最小化する計算が、L1より簡単ですが、回帰係数を0にすることは、ありません。
いえ、両方とも基本的に手計算で扱うものではなく、コンピュータを用いた数値計算が主な用途です。
とても良い授業なのに54Kしか再生がないのはあんまり機械学習の需要がないのかなぁ
予備校のノリで学んでも良くわからんやった、、、
L2ノルムのどちらが重要なパラメータかを決めるときに疑問になったのですが、等高線の点を取る場所によってパラメータの重要度って変わりませんか??
w1が小さくなるのがL1ノルムというわけではなくパラメータの重要度を考えられるのがL1ノルムだから場合によってパラメータの重要性が変わることは問題ないのではないでしょうか
それはめっちゃ思いました。私も知りたいです。
ビッグディック数学だ!
いまだにX軸Y軸なのねw
一回も噛んでない…
全く関係ないけどAdoの過学習っていう楽曲いいよね
あ、これqiita見ても本見てもイマイチ理解できなかった奴だ。SVMなんか使わねぇしもうええやって切り捨てたL1L2ノルムの説明ありがたい
こんな人が居て、日本の世界の新技術とか作り、世の中に貢献するんだろね?
過学習…Ad○さん…
今日の問題は、興味深い問題でした。 私も、数学系動画を作成してアップしておりますので、この場を借りて、ご紹介させていただきたいと存じます。。 私の場合、数学に関しては、通常の大学の数学科の1~2年程度の内容のものしか、学部で履修しておりません。大学進学時に、国立大学の理学部数学科に合格したものの、親の理解が得られなかったがために、自分の希望ではない学科に進学せざるをえなかったという、苦い体験をしています。そのため、定年になってから、数学関連の動画をアップロードすることを始めた次第です。ただ、あとで見返すと、言い間違いが多少含まれていることに気が付きました。(>_
プロモーションを含みますばっかなのやめてほしい
なんでダメなの?
オーバーフィッティングを防ぐためにモデルの細かい精度を敢えて悪化させるという手段を思いついた先人の偉大さを感じる
機械学習における数学をもっともっとやって欲しい!
たくみ先生のように言葉で言ってもらえると、式が何を意味しているのかが分かるので本当にありがたいです。
機械学習で使う数式についての説明は貴重です。正則化の式がグラフで見える化するのはエキサイティングです。お疲れ様でした!
機械学習の数学もっとやってくれーーーー!!
頼むーー
たくみくんの授業の安心感ぱない!!
L1とL2の使い分けがスパース性にあるとは知りませんでした。この動画に会えて良かった。
非常にわかりやすかった!今迄わからなかったところがわかったので良かったです!
ありがとうございました。
ちょうど最近正則化の勉強してたので助かります
図解ありがたい!
L1とL2の特徴についてもわかりやすかったです。たくみ先生ありがとうございます!
後の自分へのメモ
(疑問)
半径Rは大きくしすぎると、lossの最小点が内側になるようにできるが、その場合は問題ないのか?
→おそらく問題あり。
「L2の円の半径RはW1_min、W2_minの値と比べて、小さくしておく必要はあるのであろう」。そうでない場合、もし、円の内側に最小の点がある場合を考えると、w1,w2と円にフィットさせるため、最小の点よりも右上(つまり、w1,w2ともに最小の点よりも大きな値)に加工することになる。これは、当初の目的「W1やW2の大きさを小さくして、傾きを抑えることで過学習状態を抑制する」に反する気がする。なので、Rには一応の制限はあるはず。ただし、そこまで大きくしてしまうともはや、元のloss関数よりも、正則化項を評価していることになるので、、まぁ当たり前なのかな?"
→いや、基本的には、Rが大きい(=λが小さい)と、原点よりではなく、lossの最小点より重みを採用することになるから、元のloss関数のほうが、誤差より比重が大きくなることを意味する。ただし、あまりに大きすぎると↑の議論になるということか。
(疑問)
Rが小さすぎたら問題はないのか?
→逆にRが小さすぎる(=λが大きすぎる)とw1もw2も原点寄りになってしまうので、ほぼ傾きなしという結果になってしまう(学習が進まないということか?)。なので、あまりに小さすぎる場合も注意が必要。 いい感じにλを調整する必要がありそう。
(性質まとめ)多分こんな感じの理解。
〇Rについて
結論:全体として、ちょうどいい感じの値に調整する必要あり。
・Rが小さい(λが大きい)場合
→重みW_iの大きさは小さくなりがちなので、学習は進みづらくはなる。
・Rが大きい(λが小さい)場合
→w_iはlossの最小点付近のもの(かつ、大きさは原点よりの小さな値)になるが、この場合は、大きすぎるとfitしすぎることになるので注意。
・Rが大きすぎる(半径の中にlossの最小点がある)場合
→重みの更新で大きさが小さなw_iにしたいのに、修正前より大きなw_iになってしまう。これはやりすぎ。
〇L1とL2の性質
・L1
→尖った点が採用される場合が多い。寄与率の低い説明変数の重みはゼロになってしまう(場合が多い)。
・L2
→L1ほどではないが、基本的には寄与率の小さな説明変数の重みは、寄与率が大きなものと比べて、大きさが小さくなる傾向にある。
マジでちょい前まで欲しいやつだった
L1正則化で最も重要な点は、正則化項が凸関数であるという点です。
理想的には、Lpノルム(0≦p<1)を考えてやったほうが、最適解はスパースな解になりやすいです。(等高線の説明で言うと、アステロイドみたいな形のほうが、より角が接点になりやすいことが分かると思います)
ただし、このようなLpノルムは、非凸関数であり、最適化が難しくなります。なので、数値的に扱いやすい、L1ノルムがよく用いられます。
9:40 ころに凸性が必要なことはコメントしていますね。
@@HideyukiWatanabe それは損失関数の凸性の話では?
もっと言うと、そこの部分、損失関数の凸性は別に必要ではないと思います。
非凸だったとしても、正則化パラメータに対応するようなRが存在する事は示せるかと
@@zalgo_video いいえ、Rの凸性と理解しましたが?
@@HideyukiWatanabe 9:37「誤差関数が凸関数じゃなきゃいけない」とはっきり発言してますね
機械学習の参考書では天下り的に出てくる正則化項。
以前から良く分からないまま放っておいたのですが、動画を2回見たら何となく分かりました。
図解の威力が凄いな!というのが感想。
前回の最適化問題の授業がここに繋がっていたとは!!
機械学習にも役立つのは感動しました。
大学で少し習いましたが違いがよく分からなかったので、動画ありがたいです!
まさに今つまずいていたところです。ありがとうございます!
接点の位置のwが最適解を与えることがこれまでは理解できなかったのですが、
理解するためには、制約付き最適化問題(KKT条件/ラグランジュ未定乗数法) を理解せねばならないことが分かりました。
制約付き最適化問題自体の理解はまだですが、見通しが立てられました。
ありがとうございます。
素晴らしい動画でした。JDLAのG検定を学んでいますが、正則化についての理解がとても深まりました。ありがとうございます!!!
機械学習関連はありがたい!
エクセルでこんな機能があった記憶がある
統計検定で暗記で乗り切ってたところが理解できました🎉
細かいですが、6:30 は正しくはL2ノルムの「2乗」ですかね
正則化の意味がつかめてきました!
提供先のホームページ見に行ったらヨビノリとのコラボ!とトップに出てきてかっこよきでした
ヨコサワの動画見すぎて忘れてたけど賢いんよな
最適化関連って図形的な意味合い掴むの難しいよな~
機械学習講義、待っていました。理論と実際の差を説明しようとしている人の試みを見てみたいです
まさか大学院に入ってて、レポートを書くためにLASSOを検索したらまたヨビノリが出てきた。。。
助かります!
大学の頃が懐かしい
ちなみにL1正則化は、ヨビのりでも紹介されたブラックホールの撮像手法でも使われています。
痒いところに手の届くヨビノリ
過学習の説明の図で項数増えて線がクネクネするのは、そもそも線と点の差が減るためなのだから、過学習前後の点と線の距離に差を付けた方が良いかなと。図だと点と線の距離が過学習前後で殆ど同じになっているかと(すでに過学習)。
機械学習の再生リストを作ってほしいです!
誤差関数に対して更に残差項も評価する意味がやっとわかりましたmm
正則化の話、こんなにわかりやすく説明しているところある?
動画の力っていうのを差し引いても、この方のお話上手ぶりには、びっくりしちゃう。
ただ、出来れば、いつもみたいに、先生独自の言葉とニュアンスで説明いただけると嬉しいです。
正則化の図や説明用語等、道端に落ちているような、見飽きるほど見ているものばかりなので...
もっと想像しやすい、直感的な理解につながる新しい説明をご考案いただけると幸いです。(お忙しいから、難しいか(笑))
今後もどうぞよろしくお願いいたします。
今日もありがとうございます。🙆🙆♂💍🤱🙆♀🙆♂💍🤱
ヨビノリさん、ここ最近、最適化関連の動画出してるけど、データサイエンス系のイベント(もしくは書籍発売)が控えてるのかな?
たくみさん!
動画に関係無く申し訳ありませんが、以前、このチャンネルの何かの動画で紹介されていた『ジェノサイド』を本日読了しました!
人間の現実をまざまざと見せつけられるシーンも多いですが、それだけに脳味噌に衝撃を受け、のめり込んで読みました。
とても面白かったです。
たくみさんのお蔭でこの小説に出会えました。
ご紹介してくださり、ありがとうございました!📚
【質問、コメントを見ていてわかる方がいたら教えてほしいです】
今回多項式を例にしていますが、
正則化項の最小化を考える上では、
多項式も値が出る範囲で内積空間を定義して、互いに直交化している関数を用いて、さらにそれぞれを規格化してからでないと、
そもそも正則化の物理的意味や効果が出ないように感じるのですが、いかがなのでしょうか?
ゴリ押しでグラムシュミットとかで直行化するか
ルジャンドル多項式、チェビシェフ多項式等を活用する等
想像するのですが、そういう必要はないでしょうか?
ここでは L1/L2正則化の紹介をしているので、どのような関数(群)を使ってフィッティングするかは問題ではないですね。ただ単に、取り掛かりとして多くの人が知っている多項式で書いただけだと思います。
@@田中一郎-p6x
ありがとうございます。
たしかにL1,L2正則化の紹介の動画なので、見当違いな質問をしていたようにも思います。
すみませんでした。
私がこの分野に疎いせいか規格直交化してないもので、
正則化項を加えるというのが、あまり理解ができて無くてこう言う質問をしてしまいました。
1. 正則化項を加える意味
2. 多項式の場合には高次のグニャグニャした物を取り除くのが意図だと思うのですが、独立してない関数群の係数を小さくする意味があるのか、ないのか?
この辺が分かる動画ってありましたっけ?
基礎的な質問ですみません。
@@kcscience929 パラメータ空間を変換する必要があるような場合には、正則化項として||Dx||みたいに、変換行列を噛ませたノルム考えることもありますね(Generalized Ridge/Lasso)
@@zalgo_video 確かにこの変換行列に2階微分行列を指定したりしますね。 空間的に広がったピクセルみたいな物を扱うのには非常に有効な印象ですが、そのような認識で良いでしょうか?
@@kcscience929 2階微分行列を使うgeneralized lassoは、トレンドフィルタリングと呼ばれて、時系列データのトレンド抽出に使えたりしますね
L1正則化の方が演算量抑えられる?
正則化まってた。
こういうチューニング項を弄るの楽しい。
でも、高次の項の方がより重い制約をかけるべきだと思うんだよなあ……どうなんでしょう
w1 と w2 でどちらが重要なパラメータかの説明で、13:45付近からの説明は間違ってませんか?普通、重要なパラメータとは、そのパラメータを少し変えた時に、誤差関数の値が大きく変化するものを言いませんか。なので、等高線が縦に潰れていたら w2 が重要となりと言う理解です。たくみさんの説明だと採用している点をどこに選ぶかで w1, w2 の重要性が入れ替わってしまいます。
もっと気になるのは、ラムダや R をどのように決めるのが適切か?という問題です。そしてそれが、M の最適化にどう繋がるのか?という問題です。「それは経験的なものなので、動画にしにくい」が答えのような気がしますが。
後半の疑問、いわゆる「解パス図」を使った説明が感覚的に理解しやすい気がします。結局経験則は経験則ですが、ラムダを大きくすればするほどゼロになる変数が増えていくというのが視覚的にわかりますし。
@@zalgo_video 有難うございます。M(最適化するパラメータの数) をどのように決めるべきか考えてみました。私は、「各データが持つ誤差の二乗平均と誤差関数とが同程度になるまで M を少なくする」のが最も自然だと思います。どのパラメータを削るべきかは、この動画で示された方法で決められます。また、λはその作業をするとき、段階に応じて変えていけばいいですね。ただ、上の各データが持つ誤差との比較をするときには、λ=0 を使うと思います。
実際の問題に対してはどのようにされているのか、もしご存知でしたら教えて頂けないでしょうか?
@@田中一郎-p6x どの分野に適用するかとかによっても変わると思いますが、例えば機械学習とかだと、検証データで精度が良くなるようなパラメータを単に実験的に探したりしますね(古典的なものだとグリッドサーチ)
@@zalgo_video 有難う御座います。私は、測定データのように誤差の評価がされているものを想定していました。機械学習が扱うようなデータでは、誤差の概念がないので、私の考えはピント外れでしたね。
うぽつです_|\○_‼
3:30
ai専攻してるからうれしい
L1/L2の特徴って、(L2)2乗の方が手計算と相性が良くて、(L1)の方が線形処理しやすいって、ノルムの理解であってますか?(どなたでも教えてくださいmm)
性質として、
L1は、あまり重要でない説明変数の回帰係数が0になる性質がある。
なので「どの変数が重要か」がわかりやすくなります。
L2は、誤差関数を最小化する計算が、L1より簡単ですが、回帰係数を0にすることは、ありません。
いえ、両方とも基本的に手計算で扱うものではなく、コンピュータを用いた数値計算が主な用途です。
とても良い授業なのに54Kしか再生がないのはあんまり機械学習の需要がないのかなぁ
予備校のノリで学んでも良くわからんやった、、、
L2ノルムのどちらが重要なパラメータかを決めるときに疑問になったのですが、等高線の点を取る場所によってパラメータの重要度って変わりませんか??
w1が小さくなるのがL1ノルムというわけではなくパラメータの重要度を考えられるのがL1ノルムだから場合によってパラメータの重要性が変わることは問題ないのではないでしょうか
それはめっちゃ思いました。私も知りたいです。
ビッグディック数学だ!
いまだにX軸Y軸なのねw
一回も噛んでない…
全く関係ないけどAdoの過学習っていう楽曲いいよね
あ、これqiita見ても本見てもイマイチ理解できなかった奴だ。SVMなんか使わねぇしもうええやって切り捨てたL1L2ノルムの説明ありがたい
こんな人が居て、日本の世界の新技術とか作り、世の中に貢献するんだろね?
過学習…
Ad○さん…
今日の問題は、興味深い問題でした。
私も、数学系動画を作成してアップしておりますので、この場を借りて、ご紹介させていただきたいと存じます。。
私の場合、数学に関しては、通常の大学の数学科の1~2年程度の内容のものしか、学部で履修しておりません。大学進学時に、国立大学の理学部数学科に合格したものの、親の理解が得られなかったがために、自分の希望ではない学科に進学せざるをえなかったという、苦い体験をしています。そのため、定年になってから、数学関連の動画をアップロードすることを始めた次第です。
ただ、あとで見返すと、言い間違いが多少含まれていることに気が付きました。(>_
プロモーションを含みますばっかなのやめてほしい
なんでダメなの?