いわゆる「AI」をPCで運用するには、GPUとVRAMをはじめとする潤沢な計算リソースが求められるところ、推論を実行するだけならばRaspberry Piでも対応できる*1。それが実用的であるかはおいて、普及機レベルのPCでも対応可能だ。
"ggerganov/ggml"*2, "gpt-2"は、RAM搭載量が8GBでも実行可能とし、 RAMを16GB搭載していれば、"gpt-j"も実行可能だ。
この投稿では、その手順と実行パフォーマンスを紹介する。テスト環境にはMicrosoft Surface Pro 4と自作のデスクトップPCを用いている。それぞれのスペックに加え、"gpt-2"、"gpt-j"は単一トークン当たりの推論パフォーマンスを示している。
Surface Pro 4 | desktop | |
---|---|---|
OS | Windows 11 Pro 22H2 | Windows 11 Pro 22H2 |
CPU | Intel Core i7-6650U | Intel Core i7-6700T |
RAM | 8GB | 32GB |
gpt-2 | 21~22ms | |
gpt-j | 484~487ms |
- ソースコードとモデルのダウンロード
- 実行ファイルのビルド
- whisper.cの修正
- Visual Studioでのビルド
- gpt-2.exeの実行
- gpt-j.exeの実行
- 余談
*1: I've sucefully runned LLaMA 7B model on my 4GB RAM Raspberry Pi 4. It's super slow about 10sec/token. But it looks we can run powerful cognitive pipelines on a cheap hardware. pic.twitter.com/XDbvM2U5GY
twitter.com