Full order sampling _ humanoid_ covariance 바꿔서.pdf

논문 제목:

“Full-Order Sampling-Based MPC for Torque-Level Locomotion Control via Diffusion-Style Annealing”

저자: Haoru Xue∗ , Chaoyi Pan∗, Zeji Yi, Guannan Qu, and Guanya Shi

<Purpose>

diffusion style annealing process(single-step diffusion)를 사용해서 full-order 사족보행을 torque sample하여 optimize함. real time(50Hz)으로

<Process & characteristic>

dynamics : JAX, using the Brax simulator로 모델 업데이트해서 사용.

sampling method : forward density function을 diffusion process에 넣어서 gausian distribution의 평균과 분산을 적합하도록 맞춤.

  1. trajectory level annealing → outer loop trajectory level annealing으로, N이 sampling number이고, sampling num이 크면 더 큰 exploring area를 탐험하고 점차 마지막 sampling num이 될때는 좁은 구역을 봐서 최적화 시킴.

image.png

  1. Action level annealing → inner loop action level annealing으로, H는 time horizon을 의미. 처음에는 좁게 보지만, time step이 커질수록 더 넓은 구역 탐험.

    image.png

⇒ trajectory level annealing이랑 action level annealing을 합치면 아래 알고리즘과 그림과 같아짐.

장점: sampling num이 커질수록 더 최적화시키고(처음에 넓은 area를 보고 맞는 방향으로 좁힘) timestep이 커질 수록 exploration area는 크게 만들어서 더 넓은 영역을 탐색하되, 최적화도 진행.

이 과정을 diffusion process로 annealing해서 이론상 최적화될 거라고 증명함.

image.png

image.png

<adaptable features>

  1. 모델 저렇게 바로 적용 가능한지 확인 → brax바로 사용가능하더라
    1. MUJOCO도 가능한지 → 확인(MJPC)
  2. sampling방법 사용해볼 만도 (diffusion & annealing)

<similar paper(maybe helpful to double check)>

  1. “Real-time whole-body control of legged robots with model-predictive path integral control”
  2. “Sampling-based Model Predictive Control Leveraging Parallelizable Physics Simulations”