「フィジカルAIが来る」「ヒューマノイドが工場を変える」——この一年、そんな言葉をよく耳にするようになりました。同時に、「だから御社の現場データは宝だ」「今のうちに手を打たないと乗り遅れる」という売り込みも増えています。
現場に設備を入れるか、いくら払うかを判断する立場からすると、知りたいのは煽りではありません。この技術は今どこまでできて、何ができないのか。自分の現場は、いつ、どの順番で変わるのか。 その地図です。
私たちはメーカーの確かな技術を地域の現場に届け、定着まで実装する立場にいます。その立場から、一次研究にあたって現在地を整理します。期待を煽るためではなく、いま本当に使えるものを見極めるために。
1. ロボットの「手」が、最大の難関
ロボットの仕事は大きく三つに分けられます。脚で歩く・姿勢を保つ「ロコモーション」、目的地まで移動する「ナビゲーション」、そして手でモノをつかみ作業する「マニピュレーション」です。
意外に思われるかもしれませんが、脚の歩行はほぼ解決済みです。コンピュータ上の模擬空間で大量に試行錯誤させて学習させる「Sim-to-real(シミュレーションから実機へ)」という手法が実用水準に達しており、四足ロボットが自然の山道を転倒なく踏破するところまで来ています。中国製ヒューマノイドが滑らかに踊れるのも、現場のデータを大量に集めたからではなく、この計算機上の試行錯誤の成果です。[3]車輪での移動も、もう大きな障壁はありません。
残る本丸が、手の作業=マニピュレーションです。手は多様な道具を扱い、何をどうつかむか常識的に判断し、ミリ単位の器用さと微妙な力加減をこなす必要があります。現場で「機械に任せきれず人がやるしかない」作業の多くは、この手の難しさが理由です。つまり、現場自動化のボトルネックは脚でも移動でもなく、手にある。フィジカルAIの勝負どころも、ここに集中しています。
2. いま技術はどこまで来たか — そして「研究で動く」と「現場で使える」の差
その手の作業に、近年の生成AIの技術が応用され始めています。中心にあるのがVLA(vision-language-action)と呼ばれる方式です。これは、ネット上の膨大な画像と言語で学んだAIを土台に、ロボットの動作生成に転用するもの。[1]言葉で指示すれば、それなりに多様な作業に対応できる——対話AIのロボット版、と考えると分かりやすい。
ただしVLAには弱点があります。言語の学習が土台のため、高度な意味は理解できても、精密な制御に必要な「細かい物理の動き」の把握が甘く、散らかった現実の環境では動作が不安定になりやすい。これは研究でも指摘されている限界です。[2]
そこで台頭しているのが、動画生成をベースにした「世界モデル」系の手法(VAMなどと呼ばれます)です。次にどんな映像になるかを予測させることで物理の動きを取り込み、VLAの弱点を補おうとする。従来方式より少ない試行で学べるという報告も出ており、有望な方向として性能が肉薄しつつあります。
ここで現場の意思決定者に最も大事な一点を、はっきり書きます。「研究レベルで動く」ことと、「あなたの現場で使いものになる」ことは、まったく別の話です。 物流でコンテナを運ぶ・仕分けるような限定的な作業では実用に届きつつありますが、雑多な手作業を幅広くこなす汎用的な能力は、まだ研究の途上にあります。技術は確かに進歩している。けれど、進歩と実用のあいだには、まだ距離があります。
3. あなたの現場は、どの順で変わるか
では、現場が変わるとして、どこから変わるのか。ここに、よく語られる神話とは逆の現実があります。
巷では「日本の匠の技、職人芸をAIにすることが勝ち筋だ」と言われます。しかし技術の筋から見ると、順序はおそらく逆です。フィジカルAIが実用化されるとき、まず自動化されるのは「特別な技能のいらない、誰でもできる単純な反復作業」です。職人技のような難しく希少な作業は、技術がかなり成熟した後にようやく手が届く。しかも、量で言えば単純作業のほうが圧倒的に多い。
これは、あなたの現場にとって実践的な意味を持ちます。「うちの熟練工の技をAI化しよう」と気負うより、「うちの単純で人手のかかる反復作業を、まず片づける」ほうが、はるかに現実的で、効果も早い。そして単純反復の省人化なら、フィジカルAIの完成を待つ必要はありません。すでに現場で結果を出している協働ロボットやAI外観検査、3Dスキャンといった「枯れた技術」で、今すぐ取りかかれます。
「匠の技をAI化が勝ち筋」という神話の逆=単純作業が先。
概念を示すイメージ図であり、厳密な比率・時期を表すものではありません。
4. 見落とされがちな壁 — 安全
技術が賢くなれば全部解決、とはいきません。物理空間で動く以上、フィジカルAIは人に物理的な危害を与えうるという、サイバー空間のAIにはない重さを抱えています。
工場の一角を安全柵で囲い、人と隔離してしまえば、この問題は解決しやすい。しかしそれでは、人と同じ空間で柔軟に働くという汎用ロボット本来の利点が死んでしまい、使える場面が限られます。人と隣り合って安全に動かす枠組みは、現時点でも決定打と呼べるものが確立していません。これは「すぐに何でも置き換わる」という期待を、現実的に冷ます要素です。
裏を返せば、人とロボットが同じ空間で安全に働くための設計——安全機能の選定、レイアウト、リスクアセスメント——は、技術が進んでも残り続ける実装の仕事だということです。
5. いつ来るのか — 誰にも分からない、という誠実な答え
最大の問いは「で、いつ来るのか」でしょう。誠実に答えるなら、誰にも分かりません。
数年で大きな転換点が来る可能性もあれば、製品として価値を出せる水準まで意外に時間がかかり、十年後にようやく、という可能性もある。自動運転が十年ほど前に大きく期待され、その後の実用化に長く苦しんだのと、同じことが起こりうる。フィジカルAIは、うまくいけば莫大な価値を生む一方で、いつ実現するかの不確実性が極めて高い。これが現実です。[4][5]
この不確実性を踏まえると、合理的な構えは一つです。来るか分からない転換点を待つのではなく、今ある確かな技術で、今期の現場を変える。 そのうえで、本当に転換点が来たときに現場へ橋渡しできる態勢を、整えておく。
到来時期は予測困難。図は不確実性を示すイメージです。
おわりに — 私たちの構え
整理します。ロボットの本丸は手の作業であり、そこはまだ研究の途上にある。現場はまず単純作業から変わり、職人技は最後。安全の壁は残り、転換点がいつ来るかは誰にも分からない。
だから私たちは、煽りません。「あなたのデータは宝だ、待っていれば勝てる」とは言わない。いま確かに結果を出せる枯れた技術——協働ロボット、AI外観検査、3Dスキャン——で、目の前の人手不足を一つずつ片づける。そして、フィジカルAIの時代が本当に来たときに現場へ橋渡しできる実装の層を、地域に張っておく。
派手な未来予測より、今期の現場が楽になることを。それが、実装者としての私たちの構えです。
- [1]S. Tong et al., "Beyond Language Modeling: An Exploration of Multimodal Pretraining," arXiv:2603.03276, 2026.(CC BY 4.0) https://arxiv.org/abs/2603.03276
- [2]Z. Zhang et al., "Do World Action Models Generalize Better than VLAs? A Robustness Study," arXiv:2603.22078, 2026. https://arxiv.org/abs/2603.22078
- [3]R. Sutton, "The Bitter Lesson," 2019. http://www.incompleteideas.net/IncIdeas/BitterLesson.html
- [4]進藤智則「フィジカルAI 日本の処方箋[前編]国を挙げて議論渦巻く、今何に取り組むべきか」『日経Robotics』2026年7月号. https://xtech.nikkei.com/atcl/nxt/mag/rob/18/00003/00130/
- [5]進藤智則「フィジカルAI 日本の処方箋[後編]日本のスタートアップエコシステムは巨額資金必要のフィジカルAIを支えきれるのか」『日経Robotics』2026年7月号. https://xtech.nikkei.com/atcl/nxt/mag/rob/18/00003/00131/