Ji-Hyeon Yoo, Ho-Jin Jung, Janghyeon Kim, Dae-Han Sim, Song-Woo Kim, KwangEun Ko, Han Ul Yoon
{"title":"Solving the C-Shaped Ring Type Patience Cube as Planning Problem","authors":"Ji-Hyeon Yoo, Ho-Jin Jung, Janghyeon Kim, Dae-Han Sim, Song-Woo Kim, KwangEun Ko, Han Ul Yoon","doi":"10.5391/jkiis.2023.33.5.477","DOIUrl":null,"url":null,"abstract":"정확한 힘과 방향을 요구하는 작업이 주어졌을 때, 사람은 강화학습과 유사한 휴리스틱 방법론을 통해 작업을 수행한다. 따라서, 이러한 사람의 의사결정-조작의 과정을 강화학습으로 구현하여 로봇에게 적용하여준다면 정교한 손동작이 요구되는 작업을 성공적으로 수행할 수 있을 것으로 기대할 수 있다. 본 논문은 사람의 정교한 손놀림이 요구되는 C형 고리 patience cube를 로봇으로 해결하기 위한 강화학습 기반 플래너 설계 기법을 제안한다. 먼저 두 축을 기준으로 회전하는 평평한 판과 그 위에서 구르는 공에 대한 운동 방정식을 구하였다. 이후, C형 고리 patience cube 문제를 C형 고리의 입구로 공을 가져오는 플래닝 문제와 그 영역으로부터 공을 고리 안으로 넣는 플래닝 문제로 구성하였다. 이어서, 각 플래닝 문제를 해결하기 위한 마르코프 의사 결정(MDP) 튜플(상태, 행동, 보상)을 정의하였다. 에이전트(플래너)는 가상환경에서 강화학습 알고리즘(PPO)을 통해 학습되었다. 결과적으로, 가상환경에서 학습된 에이전트가 가상환경에서 C형 고리 patience cube문제를 잘 해결할 수 있음을 확인하였다. 또한, 실제 환경의 양팔 로봇에 이식하였을 때도 주어진 C형 고리 patience cube 문제를 해결할 수 있음을 확인하였다. 이를 통해, 본 논문에서 제안된 방법론으로, 다양한 정교한 손동작 문제를 kinodynamic 플래닝 문제로 정의하여 해결할 수 있는 가능성을 보였다.","PeriodicalId":17349,"journal":{"name":"Journal of The Korean Institute of Intelligent Systems","volume":null,"pages":null},"PeriodicalIF":0.0000,"publicationDate":"2023-10-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal of The Korean Institute of Intelligent Systems","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5391/jkiis.2023.33.5.477","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
정확한 힘과 방향을 요구하는 작업이 주어졌을 때, 사람은 강화학습과 유사한 휴리스틱 방법론을 통해 작업을 수행한다. 따라서, 이러한 사람의 의사결정-조작의 과정을 강화학습으로 구현하여 로봇에게 적용하여준다면 정교한 손동작이 요구되는 작업을 성공적으로 수행할 수 있을 것으로 기대할 수 있다. 본 논문은 사람의 정교한 손놀림이 요구되는 C형 고리 patience cube를 로봇으로 해결하기 위한 강화학습 기반 플래너 설계 기법을 제안한다. 먼저 두 축을 기준으로 회전하는 평평한 판과 그 위에서 구르는 공에 대한 운동 방정식을 구하였다. 이후, C형 고리 patience cube 문제를 C형 고리의 입구로 공을 가져오는 플래닝 문제와 그 영역으로부터 공을 고리 안으로 넣는 플래닝 문제로 구성하였다. 이어서, 각 플래닝 문제를 해결하기 위한 마르코프 의사 결정(MDP) 튜플(상태, 행동, 보상)을 정의하였다. 에이전트(플래너)는 가상환경에서 강화학습 알고리즘(PPO)을 통해 학습되었다. 결과적으로, 가상환경에서 학습된 에이전트가 가상환경에서 C형 고리 patience cube문제를 잘 해결할 수 있음을 확인하였다. 또한, 실제 환경의 양팔 로봇에 이식하였을 때도 주어진 C형 고리 patience cube 문제를 해결할 수 있음을 확인하였다. 이를 통해, 본 논문에서 제안된 방법론으로, 다양한 정교한 손동작 문제를 kinodynamic 플래닝 문제로 정의하여 해결할 수 있는 가능성을 보였다.