最近の生成AIがすごすぎる話
はじめに
この記事では最近は台の生成AIについて私が最近調べたこと、知っていることをブログとしてまとめておこうと思います。私は自称セキュリティエンジニアなので、直接業務で生成AIを活用することはないのですがあまりにも面白くて趣味で調べています。
この記事の内容
- 最近調べた生成AIについて読み物的に書いてます
- ざっくばらんに殴り書き
- とはいえ、なるべく端的に箇条書き
- ただしAIにめちゃめちゃ詳しいわけではないので間違った理解があるかも
気になったもの
生成AIの種類
- 生成AIには多くの種類が存在しています
- 例えばOpenAIのGPT-4や、GoogleのPaLM2(Bard)、MetaのLLaMAなどがあります
- 基本的にはGoogleが開発したTransformerという自然言語処理がベースになっています
生成AIの仕組み
- 大量のコンテンツを学習して、与えられたプロンプトとベースに、応答すべき単語を次々予測するような仕組みらしい
どれがいい?
- 性能の違いはよくわかりませんが、GPT-4が使い勝手がいいようです
- Chatbot Arena Leaderboard - a Hugging Face Space by lmsys
- ベンチマークなるものではGPT-4が1番強い?
- LLaMAはベースのモデルが公開されているため様々なチューニングを行うことができます
- なので、LLaMAをベースとした様々なチューニング済みのモデルが誕生しています。(Pythonのコードレビューに特化など)
- とはいえチューニングやローカルで動かすとなると、想像を絶するGPUパワーが必要になるのでご注意ください
- LLM Explorer: Large Language Model Directory and Analytics (extractum.io)
マルチモーダル
生成AIに対して様々な形式で情報を入力/出力することができるようになりました。オモシロイと思った例も載せておきます。
文字
ChatGPTを代表として文字ベースでやり取りをすることができますね
画像
生成AIに対して画像を読み込ませる、出力させる
GPT-4Vがあれば「ライブカメラに対して質問を投げる」ことができる。テキストベースのGPTはコンテキストを把握させるための入力が重要かつだるかった。これなら一発。シンギュラリティー前夜。(しかも案外GPTベースの研究・起業をする人が少ないのでやれば確実にユーザーメリットがある) pic.twitter.com/rypmdDtGkU
— K. Tanuma (@tanukiponkich) 2023年10月4日
#ChatGPT の #DALLE3 なら特徴をまとめさせて、そこから強調する部分を指定して、イメージをすり合わせてから、描くこともできる。最後のはおもしろいけど、ちょっとレンズのクセが強いから、ここからさらに調整して、もいけるはず pic.twitter.com/3Riqn9Nvua
— うめ (@ume_nanminchamp) 2023年10月5日
試しにBardで画像をベースに質問を投げてみました。ウイスキーかワインかぱっと見ではわからないようなものでも、画像を読み込み判断することができました。すごい。
音
音声や音などのファイルを読み込ませる/出力させる
【GPT-4V】音声機能
— 株式会社stak (@stak_official) 2023年10月3日
ChatGPT同士で会話をさせてみました!
動画をチェック✅
▼ 使ってみた印象
・日本語も対応でボイスがロボット感無く良い
・入力するタイムラグが長い…
・音声で出力した内容も文章化してくれる
今後のアップデートで更に便利になる事を
期待!#AI #chatGPT #GPT4V pic.twitter.com/rEBvX7dngN
プロンプトエンジニアリング
- ChatGPTのようにチャットができるAIではどのような質問を投げるかで、応答の品質が全然変わってきます
- どのように質問を投げればよりよいかをこのブログではプロンプトエンジニアリングということにします
面白かった例
例 | 参考URL |
---|---|
ステップバイステップ ステップバイステップでとお願いすると詳細に応答してくれる |
ChatGPTを賢くする呪文 - 日本経済新聞 (nikkei.com) |
深呼吸して AIもじっくり考えたいんでしょうか |
AIに「深呼吸しよう」といった人間っぽい言葉をかけると問題の正答率が上昇するという研究結果 - GIGAZINE |
ゴールシークプロンプト プロンプトエンジニアリングとはすこしちがうかもしれませんが、生成AIが曖昧な応答しかしてくれない場合、ゴール設定(AIに何をしてほしいのか)が曖昧なケースが多くあります。であれば、プロンプトもAIと質問形式で考えてみませんか。という考え方です |
【ChatGPT】これだけ覚えればOK?ゴールシークプロンプトが誰でも使えて最強すぎた|Masaki KANAI (note.com) |
- この他にも色々あるようですが、みなさんもググってみてください
- とにかく、具体的に、明確に、わかりやすく指示をしてやればいい感じの答えを出してくれることが多いと思います
- 超絶親切な上司になったつもりでお願いしてみましょう
活用例
マルチモーダルなお陰でなんでもできる気がしています。生成AIのニュースを見たほうが早いかもしれません。
Pixel8
- もはや様々なところで活用されているとは思いますが、一番驚いたのはPixel8関連です
- Pixel8では上記のようなAIがスマホのローカルで動くため、色々できるようです
- 例えば、キーボードアプリのGboardが生成AIを使うことにより、校正したり返信する内容の候補を示してくれるようです
- レコーダーで録音したデータを文字起こしして要約してくれるという新しい機能もこの生成AIがやってくれているのでしょうか
LINEBot
GPTが使えるようにLINEBotを作っています。グループラインにBotを入れておくと便利です。
Cursor
Cursor - The AI-first Code Editor
Edge
- EdgeとBingチャットが統合されています。
- 特定のページを開いて、Bingチャットに要約をお願いすると要約してくれます
- あまりにも便利でChromeから乗り換えました
- EdgeのAI機能「Bingチャット」が進化、自分で読まなくても英文PDFの内容が分かるぞ!【イニシャルB】 - INTERNET Watch (impress.co.jp)
langchain
- 生成AIを活用してなにかをするときに便利なライブラリです
- 生成AIだけを使うならこのライブラリは不要ですが、なにかするときは便利です
Photoshop
権利の話
難しいよね。。気になったリンクだけおいておきます
セキュリティ関連で気になったこと
- ログ解析から、リポートのPPTを作ってくれるらしい。すごすぎる
- GoogleもSIEMやインテリジェンス領域にAIを使うっぽい。このモデルはセキュリティ特化とのこと。使ってみたい。。
- IAM関連は生成AIが強いかもしれない
- Ghidra拡張として動作して、リバースエンジニアリングの際にコードを説明してくれるものもあるようです
- BurpSuiteの拡張として動作して、いろいろ教えてくれるそうです
最後に
毎日のようにニュースが更新されるので追いかけるのは大変ですが、わくわくするような技術ですね。もし学生の頃に生成AIの技術があればまっしぐらで勉強していたかもしれません。
まあ、仕事で使う際には社内ルールをしっかり確認しましょう。