들어가며

마키나락스는 국내 최대 개발자 컨퍼런스인 DEVIEW 2020을 통해 실제 제조업에 강화학습을 적용한 경험을 발표했습니다. 이 포스트에서는 발표 당시 설명하지 못했던 부분을 보강하고, 산업용 로봇팔 사용 시 최적의 경로 도출 사례와 전기차 EMS 최적 제어 프로젝트에 대한 구체적인 소개를 하고자 합니다.

더불어 각 사례를 해결하기 위해 강화학습을 시도한 이유와 성과에 대해 다루겠습니다.

사례 소개

1. 로봇팔 simulator 프로젝트 : Offline programming


https://s3-us-west-2.amazonaws.com/secure.notion-static.com/8d354303-1463-498a-8fab-7f865efec36c/OLP_example_image.jpg

1.1 문제 정의

산업용 로봇팔을 사용하기 위해선 수행하는 작업을 입력해야 합니다. 이때 실제 현장에서는 구조물, 다른 로봇과의 충돌, 목표한 사이클 타임 등을 고려하여 최적의 동작 경로(path)를 도출해야 합니다. 이때 단일 로봇에 대해서는 숙련된 작업자나 기존 로보틱스 기술이 효율적으로 문제를 해결하는 반면 수십, 수백 대에 달하는 로봇의 경로 도출의 복잡도는 이를 넘어서게 됩니다.

**OLP(offline programming)***이라 불리는 이 경로 도출 작업은 현재 정밀하게 구현된 Digital twin에서 이뤄지며 작업자들이 각 로봇의 작업 경로를 테스트 해 보고 충돌 및 간섭을 눈으로 확인하여 조정하게 됩니다. 그러나 현재의 작업 방식은 경험을 바탕으로 한 수작업이기 때문에 많은 시간과 비용이 소모되는 문제가 있습니다

*OLP(Offline programming) :  작동이나 작업을 지시하는 컴퓨터 프로그램을 작성할 때, 
그 작동이나 작업이 이루어지는 대상과 시간적, 공간적으로 분리된 상태에서 작성하는 일. 

1.2 왜 강화학습인가?

OLP 문제의 경우 차체 등 구조물의 형태가 매우 복잡하고 복수의 로봇팔을 동시에 제어하며 충돌을 고려해야 하기 때문에 문제의 복잡도가 매우 높습니다. 이 문제를 해결하기 위한 방식으로는 수작업을 통한 경로 도출, 기존 Path planning 알고리즘, 강화학습이라는 3가지 방식이 있습니다.