ChatGPT-4、パズル「推理」の解答に大苦戦♪(難易度5、ニコリ作、朝日be、23年5月27日、表は使わない)
このブログでは今まで、パズル「推理」(ニコリ作)について、13本の記事を書いてます。
小学生向け、6本(1本目、2本目、3本目、4本目、5本目、6本目、7本目)。
全員向け、1本。
アインシュタイン式・論理脳ドリル、1本。
今日は大人向けで、与えられた表を使わずに解いてみましょう。表の書き方を知りたい方は、過去の記事の解説を見てください。
いつものように、朝日新聞・土曜朝刊別刷beの問題で、ニコリ作、今日(2023年5月27日)掲載されてました。著作権に配慮して、文字が読めないほど縮小した上で引用しておきます。

☆ ☆ ☆
難易度は一番上の星5つですが、それほど難しい問題でもない気がします。私はいつものように、まず何も書かずに自分の頭の中だけで解決。
その後で、話題の対話型AI、ChatGPT(チャット・ジーピーティー)の有料最新版、Model GPT-4を使ってみました。まだ私の環境だと画像入力できないので、問題は文字入力になります。

(途中のやり取りは省略。なぜか入力の改行ができなくなったので、しばらく話が脱線♪)

GPT-4
「了解しました。与えられた条件から以下の情報を得ました。
1. 新井は4問作りましたが、数独ではありません。
2. 志水は迷路を作りました。
3. 数独を作った人は、問題数が5問以下でした。
4. 矢北は、ナンスケを作った人の2倍の問題数でした。
5. 柄田は、推理を作った人よりも、6問多く作りました。」
箇条書きでまとめるのは出来るのですが、すぐに間違った回答を示して来ました。

かなりの混乱で、特に「7問」という答に苦笑 (^^ゞ たぶん、どこかで1問という問題数に6問(柄田の証言)を加えて、7問という問題数を勝手に作ってしまったのでしょう。
以前、朝日のパズル「ナンスケ」を解かせた時に大苦戦してたので、予想はしてましたが、今回もAIは大苦戦。少しずつ何度も解き方を教えて、ようやく正解にたどり着きました。まだ今現在、あまり複雑な論理は扱えないようです。ごく簡単なパズルが解ける程度のレベル。
☆ ☆ ☆
というわけで、人間の私が、AIを少しずつ誘導して行くことになりました。まあ、AIの進化のスピードは非常に速いので、1年後にはもう、単なる昔の笑い話になってるかも知れません♪

私 「やはり、このレベルの問題は解けないようですね。では、私が少しずつ教えて行くので、それに従って回答してください。もし、新井がナンスケだと仮定すると、矛盾します。理由が分かりますか?」
(途中のやり取りは省略。柄田は7問(笑)とか言って来たので、柄田は10問になることを教えました。)
GPT-4 「・・・(省略)・・・ 新井がナンスケを作ったとすると、その問題数は4問です。 矢北の問題数はナンスケを作った人(新井)の2倍なので8問になります。
しかし、柄田は推理を作った人よりも6問多く作るため、推理を作った人の問題数は4問(10-6)でなければならず、これは新井がすでに4問を作っているため矛盾します。したがって、新井がナンスケを作ったという仮定は誤りです。ご指摘ありがとうございました。」
というわけで、新井はナンスケではないし、数独や迷路でもないので、クロスワードか推理のどちらかです。
では、どちらでしょうか? 今はまだ土曜の夜。あまりネタバレにならないよう、いつものように少しずつ書いて行きます。次の更新(アップデート)は、明日(日曜)の夕方の予定です。ではまた。
☆ ☆ ☆
はい。日曜の夕方遅くになりましたが、少し先に進みましょう。

私 「志水が迷路を作ったから、新井は迷路を作っていません。だから、新井が作ったのは、クロスワードか推理です。しかし、もし新井がクロスワードを作ったと仮定すると、矛盾が生じます。理由が分かりますか?」

上のAIの説明は、最後の結論は合ってますが、前半で別の可能性を見落としてるので、私がそれを指摘しました。
私 「違います。柄田が8問作って、推理を作った人が2問の可能性がまだ残されています。この場合、矢北が推理を2問作って、ナンスケを作った人が1問作ったことになります。すると、数独についての矛盾が生じます。理由が分かりますか?」

GPT-4 「すみません。・・・・・・数独を作った人は問題数が5問以下であり、既に1問、2問、4問(新井が作った数)は取られています。しかし、次に少ない問題数である8問はすでに柄田が取っているため、数独を作ったひとが作る問題数が存在しなくなってしまいます。
したがって、新井がクロスワードを作ったという仮定は間違っています。新井は推理を作ったことになります。こうすると新井が作ったパズルは推理で、問題数は4問と確定します。ご指摘と説明に感謝します」
このAIの返事は、赤い色の部分が少し変ですが、もう面倒なので、突っ込みませんでした♪
☆ ☆ ☆

私 「すると、柄田が作ったのは何問ですか? また、矢北が作ったのは何問になりますか?」
この私の質問に、AIは、「柄田の問題数は10問、矢北の問題数は8問となります」、と答えて来ました(その説明は省略)。
だから私は、柄田の10問は合ってるけど、矢北が間違ってると指摘しました。
それでは、矢北の正しい問題数は何問になるでしょうか? 次の更新は明日(月曜)の夜の予定です。ではまた。。
☆ ☆ ☆
はい。月曜の夜になったので、また少し進みます。


GPT-4の回答はまたあちこちがちょっと変ですが、大まかな流れと結論は合ってます。ナンスケを作った人が1問で、矢北が2問のはずです。
この後は、矢北が作ったパズルの種類が分かります。後はもう簡単なので、土曜の正解発表の後に書くことにします。ではまた。。
☆ ☆ ☆
はい。では正解が発表されたので、最後まで書きます。この辺りからはもう、AIも「ほぼ」正確に考えてました。

AIの応答は、途中の志水の説明が変ですが、スルーしましょう♪ 数独は5問以下。ナンスケが1問、推理が4問だから、数独は2問の矢北になります。


迷路の志水はもう、8問しか残ってません。これが応募用の答です。この後の説明はもう省略しましょう。

というわけで、AIが事実と異なることを答えるという話はよく言われてますが、論理的な思考もしばしば間違ってることが確認できました。
開発者も知ってるはずなので、近いうちに修正されるでしょう。数年以内には、このレベルの論理パズルも一瞬で解けるようになるはず。それでは今回はこの辺で。。☆彡
(計 2242字)
(追記464字 ; 合計2706字)
| 固定リンク | 0
« 渡辺名人の細い攻めを丁寧に受け切って、藤井六冠が短手数で圧勝、敗因は8六角か~2023(第81期)名人戦・第4局 | トップページ | また土曜にお仕事・・、眠いのに11km走った後のつぶやきミックス »
「数学」カテゴリの記事
- 算数・数学の自由研究コンクール最優秀賞(文部科学大臣賞)、数学的・論理的間違いの指摘、修正案と感想(2026.02.21)
- 長方形の紙を多数の直線で切り分けると、いくつの部分になるか~灘中学校2026年入試、算数1・問題4の考え方・解き方(2026.02.12)
- 3人と4人のリーグ戦の関係、優勝決定の抽選つき~ 2026年共通テスト・数学 Ⅰ A・第4問(場合の数、確率)の解き方(2026.02.03)
- デジタル画像処理、色変換・ハメ込み合成と、NOT・AND・OR演算~ 2026年共通テスト・情報 I ・第2問B(2026.01.21)
- 2026年共通テスト・数学 Ⅰ A・第1問〔1〕、パラメーター入りで定義された自然数の集合の解き方&つなぎラン(2026.01.19)
「パズル」カテゴリの記事
- パズル「絵むすび」36、解き方とコツ、考え方(難易度3、ニコリ作、朝日新聞be、2025年11月29日)(2025.11.30)
- パズル「絵むすび」35、小学生むけのとき方(難易度2、ニコリ作、朝日新聞be、2025年7月19日)(2025.07.20)
- パズル「推理」の解き方、考え方、表の書き方17(難易度5、ニコリ作、朝日be、25年7月5日)(2025.07.07)
- パズル「絵むすび」34、解き方とコツ、考え方(難易度4、ニコリ作、朝日新聞be、2025年5月24日)(2025.05.25)
- 高速で高度な推論を行う最新AI、ChatGPT o3-mini にパズル「絵むすび」(朝日be、ニコリ作)を解かせると、少し出来る程度(2025.03.25)
「AI」カテゴリの記事
- AIロボットに対する人間の虐待実験映像!、放送倫理的・心情的に許されるのか?~NHK『!?』(びっくりはてな)(2025.07.14)
- 高速で高度な推論を行う最新AI、ChatGPT o3-mini にパズル「絵むすび」(朝日be、ニコリ作)を解かせると、少し出来る程度(2025.03.25)
- 生成AIによるディープフェイク映像・音声の功罪、近未来ドラマと世界の状況〜NHKスペシャル『創られた“真実”』(2025.03.19)
- ノーベル物理学賞2024は人工ニューラル・ネットワークの機械学習の基礎、ChatGPT4oに感想を聞くと&秋雨ずぶ濡れラン(2024.10.09)
- 世界初(?)のミスAIはヒジャブ姿のモロッコ美女、日本ではほとんど話題にならず・・(2024.07.12)


コメント