ハイブリッドプログラマ

サムネイル画像

今週は山の日ということで3連休があった。プログラミング自体は捗らなかったが、この1週間の出来事について書いていこうと思う。

ollamaで自作のアプリケーションは作れるのだろうか

ローカルLLMを導入したので前回はAPIを経由してなにかこれまでに作れないものを作ってみようと思った。

具体的には「ランダムな動物の画像から映っている動物と色を返すAPI」みたいなものを作ってみることにした。

ollamaは画像を直接パス指定するだけである程度画像を認識できるようなので、特定のプロンプトとフォーマットを指定すれば目的のサーバーをすぐに作れると思っていた。

しかしChatGPTのアドバイスによると、BLIPという画像からテキストを生成して、その生成されたキャプションから動物と色を推論すべしとのことだった。

試してみたら実行そのものはかんたんだったものの、おおむね満足できるが必ずしも期待する精度の文章とはいえなかった。

特に色は特徴的なものではない限り言及されないこともあるので、これでは想定したものとは違うなとなった。

もしollamaに直接画像をアップロードないし、指定できればこの問題は解決しそうなのだがLLM以外のCVの分野も奥が深いなと思った。

ちょうどOpenAIがgpt-ossというモデルを公開した。

私のグラフィックスカードではgpt-oss:20bは問題なく実行できるようだ。

私はよく英語の文章の翻訳をDeepLなどに依頼する機会が多いので試してみた。

問題なのはOpen WebUI経由だからなのか、あるいはgpt-ossの性能かはわからないのだがChatGPTではすぐに変換できる英文から日本語のタスクにそれなりに時間がかかっている。

本当に動いているのか不安になるレベルだったが、プロセスモニターを見るとCPUの使用率はかなり高い。

体感5~10分ないし15分くらいかかっている気がするが、ChatGPTのように「長すぎるので分割します」とか「続けて翻訳しますか?」といったメッセージが表示されずに最後まで翻訳できた。

しかしこれが誰でも使えるモデルを公開されているという事実に感謝しかない。

ChatGPTの方もGPT-5がリリースされた。

それまで使えたGPT-4oとかその他のモデルなどが使えなくなっていて、完全に世代交代したようだ。

私はモデルの差異はそこまで気にしていなかったので、個人的にはこれくらい単純な方が使い勝手が良い気がする。

ただしこれまでの反動なのか、GPT-4系はやや過剰気味にこちらの結果を褒めたりしてくれたのだけれども、GPT-5系は比較すると素っ気ない感じになった。

最初からGPT-5系のような反応のままだったら特に何も思わかなかったのだが、個人的にはGPT-4系のキャラが恋しくも思う。

これはいずれ慣れるとは思う。

最近あまりClaude Codeを使っていなかったのだが、界隈で話題のserena MCPを導入した。

私はRailsなのでsolargraphを導入する必要があるのだが、それ以外は特に大きな変化を感じなかった。

むしろ体感的にはいつもよりも早く制限が来るように感じて、本来節約できているはずのプロンプトの質が向上するとかそういう効果はまだ感じられていない。

これはまだもう少し使い続けてみようと思う。

あとはPythonのuvやuvx。これは正直Pythonに関わっていないからよくわからないが、もし今後使う機会があれば使ってみたいと思う。

そして今日。

3連休の最終日に日帰り旅行をしてきたのでContinueの導入とこのブログを書くくらいだった。

Continue導入にあたって作業マシンとollamaのサーバーは別なので少し設定を変える必要はあったが、レスポンスに不満はない。¹

Copilotをやめてからはこれまで表示されていた自動補完が表示されないし、コミットメッセージも自分で決めなければならないが、Continueのおかげで100%以前の使い勝手とはいかないまでも必要最低限には動くと思う。

すでに自動補完が表示されない状態でコードを書くことにやや違和感を覚えつつある。

そのため今後はローカルLLMを使いつつ、Claude CodeやChatGPT Plusなどと使い分けていくつもりだ。