解説:強化学習(RL)でエージェント(ロボット)の行動に対して与える報酬を定義する仕組み。協働ロボットが最適な動きを自動学習する際、この報酬設計が成功のカギになる。安全制限や作業効率を同時に満たすよう工夫が要る。例:・部品を正しく組み立てで きたら高報酬、衝突したら大きなペナルティを付与。・タクトタイムを短縮するほどプラス報酬とし、不必要な動作が減るよう誘導。・報酬関数が不適切だと学習が暴走し、実際には危険な行動を取る可能性もある。