top of page

報酬関数 (ほうしゅうかんすう)

解説:
強化学習(RL)でエージェント(ロボット)の行動に対して与える報酬を定義する仕組み。
協働ロボットが最適な動きを自動学習する際、この報酬設計が成功のカギになる。
安全制限や作業効率を同時に満たすよう工夫が要る。

例:
・部品を正しく組み立てできたら高報酬、衝突したら大きなペナルティを付与。
・タクトタイムを短縮するほどプラス報酬とし、不必要な動作が減るよう誘導。
・報酬関数が不適切だと学習が暴走し、実際には危険な行動を取る可能性もある。

bottom of page