Pendulum Reinforcement Learning — Cross‑Entropy Method

A single‑file demo showing a pendulum environment and a simple policy trained via CEM. Click Train and watch it learn to keep the pendulum upright.

Control (Left/Right arrows apply ± torque)

Speed 1×

Gravity 9.8

Friction 0.02

Angle θ (rad)

0.00

Angular vel ω (rad/s)

0.00

Horizon 500

Torque limit 2.0

Population N 60

Elite % 20%

Init σ 0.50

Training progress

Iter

0

Best return

—

Mean return

—

Policy

w·[cosθ,sinθ,ω,1]