2023年03月23日追記 この投稿での事例は、1トークンの推論に約1分を要する。とにかく動作させてみることを念頭にしている。swapを用いず、小規模なモデルをオン・メモリで動作させることで、実用に適うパフォーマンスで動作させることができる。そのような…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。