面白かったです。
去年も今年も年度の後半はLLM講座を聞いているのですが、各層の時点でどんなトークンを予測しているのかというのを見る体験ができました。
初期の基盤モデルなので今とは違うのかもしれませんが最初は全然でだんだん良くなって最後は下がるという動きがよくわかりました。
トークンの露出度合いでもだいぶ違うんだなというのもけんもほろろな結果を見て反転の呪いの意味が何となく分かります。
9.11が数字か日付かがベクトルの表現が日付属性多めで固定されていると確かに間違えるなあと思いました。

how im going
面白かったです。
去年も今年も年度の後半はLLM講座を聞いているのですが、各層の時点でどんなトークンを予測しているのかというのを見る体験ができました。
初期の基盤モデルなので今とは違うのかもしれませんが最初は全然でだんだん良くなって最後は下がるという動きがよくわかりました。
トークンの露出度合いでもだいぶ違うんだなというのもけんもほろろな結果を見て反転の呪いの意味が何となく分かります。
9.11が数字か日付かがベクトルの表現が日付属性多めで固定されていると確かに間違えるなあと思いました。