文章の指示(プロンプト)からリアルな動画を作成、オープンAIの生成AI「Sora(空)」をチェック(間違い探し♪)
(17日)WALK 5km(荷物 5kg)
1年ほど前から対話型生成AI「チャットGPT」で世界を揺るがし続けてる、オープンAI社(Open AI)。正直、この会社だけでも話題が多過ぎるけど、今回はかなり反響が大きいように見える。
たぶん、数十のサンプル動画の冒頭で、いきなり日本っぽい繁華街の映像が披露されたことも関係あると思う。しかも、この種の話が好きな男性の目をキャッチできそうな、美人女性を中心にして。
私は10本くらいのネット報道を見たけど、大まかな印象みたいな記事内容がほとんどになってた。例えば、動画の解像度はどうなってるのか、何がリアルな現実と違うのか、情報の具体性が足りないのだ。そこで、この記事では、報道に欠けてる部分に焦点を絞って簡単にレビューしてみよう。感想というより、細かいチェック。
☆ ☆ ☆
誤解を避けるために最初に書いておくと、私は去年の春、新モデル発表が大きな話題になった時から、有料サブスクでChatGPT(model4)を使ってる。日本円で約3000円の料金の半分くらいは寄付のつもりで、支払い継続中。
つまり、アンチどころか、オープンAIに対して好意的な人間なのだ。ただ、有料で使ってるからこそ、静止画像の関連での実力不足には不満がある。静止画で苦戦してるのだから、動画ですぐ成功するとは思えない。
実際、東京の動画2本を分析すると、多くの報道の論調とは違って、まだまだ開発段階に過ぎないなと思った。すぐフェイクだと分かる。あまり遠くない内に修正できるだろうけど、リアルと区別がつかないレベルまで到達するのは、簡単ではない道のりだと思う。
リアルでなくてもいいのなら、既に合格レベルだろう。著作権その他の社会的問題を除けば。。
☆ ☆ ☆
まず、最も話題になってる感じの上の映像。渋谷109の前のY字型三叉路と、駅前のスクランブル交差点と、センター街を混ぜて作ったようなイメージ。
ちなみに、Soraのトップページ最上段は下図のようなPR動画(紙飛行機の鳥の群れ)で、そのすぐ次が上のサンプルになってる。
「プロンプト」(命令文、内容を指示するテキスト)は次の英文。「スタイリッシュな女性が東京のストリートを歩いてる。周囲は、暖かく輝くネオンや電光掲示板に囲まれてる。彼女は黒いレザー・ジャケットを羽織って、赤いろんぐドレスをを身にまとい、・・・」。
この動画、私は新型iPad Proで拝見。ブラウザがChromeだとダウンロード出来なかったけど、標準のSafariに切り替えたらダウンロード出来た。解像度は1920×1080ピクセルで、全体のデータ量は48MB。
1分でこれだから、もし60分だと3GBほどになって、DVDレベルに到達。実写と比較すれば、ほとんど時間もお金もかけずに。。
☆ ☆ ☆
私がこの1分の動画を見て、最初に気付いたのが、両脚の運びがちょっとおかしいこと。右足と左足がぶつかるような感じで動いてて、現実と違うのはすぐ分かる。彼女の左脇に見えるワイドパンツの歩行者も明らかにおかしい。脚にまとわりついて、転倒しそうになるはず。
決定的なミス、エラーは、冒頭から16秒くらいの箇所で、私は一瞬で気付いた。
上のカットでは、右足と右の太腿を前に出して、左足が後ろに下がってる。この時点でもう、左右の足がくっつき過ぎてるのだ。
上のカットは、その一瞬後。ここで、左右の足と脚がごちゃ混ぜになってる♪ 前側の太腿は、右だったはずなのに、左に変わってる。だまし絵みたいな構図。
上のカットでは、完全に左右が逆転。右足が前、左足が後ろだったはずなのに、左足が前で右足が後ろになってしまってる。
で、平然と後ろの足が右前へと出て来るのだ。結局、後ろに引いた左足が、右足として繰り出されてる。オシャレなショートブーツとロングドレスを身につけてるのに、足元の水溜まりや水はねを気にせずに歩いてるのも不自然。
他にも、横断歩道のペイントが不自然だし、看板の文字はほとんど読めないし、路面の格子模様も歪んでる。さらに終盤、彼女の顔がアップになって、しみや吹き出物が目立つのだ。スタイリッシュな女性なら、もし肌が荒れてるとしても、ファンデーションとかの化粧で隠す方が自然。もちろん、こんな指摘はメディアでは難しい(ルッキズム批判、男女差別批判)。
これではまだリアルとは言えない。ちなみに私がそういった欠点にすぐ気付くのは、もともとドラマの映像分析をやって来てるし、AIの静止画でその種の欠点をよく見てるから。片足が無かったり、手が3本あったり、指が4本とか6本になってたり、明らかにおかしいAI画像を見てるから、動画でもすぐに分かった。ChatGPT4も、よく変な画像を示して来るのだ。
☆ ☆ ☆
続いて、また東京の動画。AIの名前「Sora(空)」もそうだけど、トップのサム・アルトマンが日本びいきなのか? 同じ解像度で、こちらは17秒しかないのに、なぜかデータ量は53MBもある。それだけ複雑な画像の連続ということか。桜の花びらとか、雪道の微妙な凹凸とか。
プロンプトは次の通り。「美しい雪の東京が賑わってる。カメラは賑わうストリートに沿って移動・・・」。
こちらも一見、美しい映像に見えるけど、すぐ遠近感がおかしいと思った。特に、手前のカップルが巨大すぎて、ミニチュアの街並みを進む怪獣みたいに見える♪ そのまま進むと、女性の顔がお店の赤い軒(のき、ひさし)と衝突するはず。逆に、左側の自販機みたいなものや小さい出店みたいなものは、オモチャみたいに小さく描かれてる。右の看板の日本語も意味不明。
ところが、女性の頭部や肩はスルッと屋根の左に出る。ただ、軒の上まで肩が出てしまってる。遠くの人物を見ても分かる通り、当然、本来ならカップルの頭あたりは軒下のはず。
このままカップルが進むと、なぜか道を塞いで作られてるお店に入ることになるけど、それにしてはお店が小さい。あと、右側の乾いた歩道との間にかなり低いガードレールみたいなものが伸びてるのもおかしい。低過ぎるし、ジャマで危ない。歩道の白いペイントもおかしい。
☆ ☆ ☆
というわけで、まだまだ開発段階のAIシステムだと簡単に分かる。しかし、本当にリアルな動画の生成はもう「時間の問題」なのは確実。大まかに見るなら、数年程度か。1年~10年程度の幅に収まるはず。
当然、文章がほとんどの個人ブログなんてものは、AIでも簡単に書けてしまう。人間はどうすべきか。どうなるのか。まだ真剣に考えてる人はほとんどいないように見える。実際、Yahoo!に配信された多数の記事の反応も、あまり目立たない。芸能・政治・スポーツのネタとかと比べると。
だからこそ逆に、非常に危険でもあるのだ。例えば核兵器なら、誰でも非常に危険だとすぐ分かるけど、AIだと素晴らしさの方が目立ってしまうから。とにかく、今後も私は注視し続ける。実際に自分で色々と使ってみながら。
なお、今週は計14696字で終了。ではまた来週。。☆彡
(計 2908字)
| 固定リンク | 0
« 新型コロナ第10波(2024年・冬の波)からも逃げ切れたかな?、妙にハイな身体とメンタルで13km走 | トップページ | 出張終了で気が緩んで食べまくり♪、それでも体重管理も走りも好調キープ »
「日記・コラム・つぶやき」カテゴリの記事
- 珍しく右脚の裏側がプチ痙攣、治らないまま7kmジョグ&つぶやき(2024.09.19)
- 10年ぶりのヤフオク、安い物を落札したらヤフーショッピング商品券を貰って得したけど、出品者とのやり取りは機械的(2024.09.18)
- 前回のパンクに懲りずに、夜の湾岸自転車リベンジ、今度は道を間違えて、スマホも電池切れ・・(2024.09.16)
- 郵便局に届いてるゆうパックを配達前に自分で取りに行けるか?、ネットは両論、電話で問い合わせると&猛暑で2週間連続の運動(2024.09.14)
「AI」カテゴリの記事
- 世界初(?)のミスAIはヒジャブ姿のモロッコ美女、日本ではほとんど話題にならず・・(2024.07.12)
- 株式時価総額でまもなく世界1位、AI半導体トップ企業・エヌビディアの優位性・将来性について、ChatGPT-4oと対話(2024.06.08)
- ChatGPT-4oが音声と画像認識を利用して家庭教師、三角関数(三角比)のsinを英語で教えるビデオ動画の解読(2024.05.18)
- 文章の指示(プロンプト)からリアルな動画を作成、オープンAIの生成AI「Sora(空)」をチェック(間違い探し♪)(2024.02.18)
- ChatGPTみたいなAIが人間の寿命の予測に成功(78%)と聞いて、GPT4自体に予測を質問してみると・・(2023.12.27)
コメント