バッチサイズが大きいと、毎回全部読み込むモデルの方がキャッシュに乗せやすいので有利か
あれ、逆か?
(と思ってるけど実際どうなのか知らない)
llama3 70bは全てのパラメータを毎回読み込む必要があるので、メモリの帯域幅で殴るゲームになる。対してgpt-oss 120bは毎回5b程度しか読み込まなくてもいいので嬉しい
無限に適当吐いてる
LLMでこれなら画像処理とかめちゃくちゃ速いんだろうな
てか金ない
私もNVIDIAのこれ欲しい。まともに使い倒せる自信ないからあれだけど
16窓の動画撮って記事書いたらバズりそう
これで消費電力めっちゃ低いんでしょ。最高じゃん