これいいね
https://gigazine.net/news/20250609-ai-thinking-model-limit/
gigazine
2025年06月09日
AppleがOpenAI「o3」のようなトップレベルのAIモデルや大規模推論モデルの限界を詳しく説明
Appleが「思考の錯覚:問題の複雑さというレンズを通して推論モデルの強みと限界を理解する」と題した論文を発表しました。研究者たちはAnthropicのClaude、OpenAIのoモデル、DeepSeek-R1、Googleのモデルといった「推論」モデルをテストし、人間の推論をどこまで再現できるかを検証しましたが、AIの推論能力のスケールアップはマーケティングで宣伝されているほどではなかったそうです。
Appleの研究者らは今回の論文で、「ハノイの塔」という有名なボードゲームを使うなどして各種モデルを評価しました。ハノイの塔は3本の柱に大小数枚の円盤を積み重ねるゲームで、「円盤の上に自分より大きな円盤を置いてはいけない」というルールの下、左の柱に積まれた円盤をすべて右の柱に動かさなければなりません。
ハノイの塔は人間でも練習すれば簡単に解くことが可能で、またハノイの塔を解くためにプログラムされたコンピューターでもしっかりクリアできます。ただ、「推論」をうたうAIはほとんどクリアできませんでした。インターネット上にはハノイの塔を解くためのソースコードライブラリが数多く無料で公開されているにもかかわらずです。
例えば、AnthropicのAI「Claude 3.7(推論あり)」が7枚のディスクがあるゲームをプレイすると、正答率は80%を下回りました(画像左下)。最低255手でクリアできる8枚バージョンになるとほとんどクリアできません。
さらに、AIはこうしたパズルを解いているときに演繹的推論や記号的推論をしている様子は一切なく、トレーニング中に見たパターンに基づいて推論していました。つまり、人間がやるように「ハノイの塔というゲームを見て、システムを理解し、解法を導いた」というわけではないということで、「これは果たして宣伝されているような『推論』と呼べるのか?」という疑問を研究者らは投げかけています。
一般的なAIのベンチマークは数学的ベンチマークやコーディングベンチマークに依存することが多く、最終的な解答の正確さに主眼を置いており、推論プロセス自体に対する洞察は限られています。研究者らはこれらのギャップを解決するために先述のハノイの塔や川渡り問題を利用し、モデルがどのように「思考」しようとしているのかを垣間見ようとしましたが、テストされたすべての推論モデルにおいて、ある複雑さの閾値を超えると精度が完全に崩壊することがわかっています。
略す
ガロア第一論文と乗数イデアル他関連資料スレ18
■ このスレッドは過去ログ倉庫に格納されています
138現代数学の系譜 雑談 ◆yH25M02vWFhP
2025/06/09(月) 17:34:29.27ID:n21sjwUN■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 東京駅で切符紛失→「3倍払って」と言われ→拒否すると「警察呼ぶ」と言い始め警備5人が包囲… BD選手のトラブル報告にネット紛糾 [冬月記者★]
- 中傷動画より突っ込まれたくない高市事務所の“急所” 疑惑の本丸「サナエトークン」国会での追及本格化 [バイト歴50年★]
- 東京 北区 小学校で火事 児童ら計11人病院搬送 うち3人が骨折 ★2 [蚤の市★]
- 高木豊氏 本田圭佑のW杯解説に私見「相手の選手も知らないと、野球ではボロカス言われるよ」 [jinjin★]
- トランプ氏の「侮辱的発言」にメローニ氏反論、外相の訪米中止に発展 [蚤の市★]
- 坂口杏里、現在の体重は衝撃の94.2kg 「もうすぐ100キロ…」もダイエット決意「みにくい体型とはおさらば。応援お願いします」 [muffin★]
- 【筋肉】アナトリーて日本人で言うと誰なの? [993451824]
- イラン代表激おこ。試合後すぐに「日帰り」をしないといけないため。これもうFIFAはトランプの犬じゃん。 [592058334]
- 五等分の花嫁で屁が臭そうな女キャラ
- でもぶっちゃけ自分の人生がお前らみたいな人生じゃなくてよかったと思うだろ
- 【実話】僕「うつです😞」精神科医「あのね(笑)本当のうつ病の人はスマホ見れません(笑)」 [589647274]
- 最高の景色をー🏡⚽👊😅👊⚽