우리는 Lunar Lander AI 학습을 오후 8시쯤부터 시작했다.
self.discount_factor = 0.99
self.learning_rate = 0.001
self.epsilon = 1.0
self.epsilon_decay = 0.784
self.epsilon_min = 0.05
self.batch_size = 64
self.train_start = 12000
이러한 값들과 optimizer을 변경하여 최적의 에이전트를 학습시켜야한다.
먼저 우리는 최대한 처음에 우주선에게 탐험(epsilon)을 많이 하도록 하고, 학습 시작점을 늦췄다. (self.train_start+=2000) 그리고, 학습을 늦게 시작하는대신 epsilon_decay 값을 줄여서 학습에 대한 초점을 더 빠르게 맞출 수 있도록 하였다.
많은 케이스가 탄생하였다.
1. 너무 조심스럽다.
FEEDBACK : learning_rate 를 0.001정도 더 올려봤다.
2. 땅을 무서워한다..
처음에 땅에 부딪혔을때 reward 값이 낮아지면서 아예 땅에 닿으면 안되는걸로 학습이 됐나보다.
그냥 땅과의 접촉을 피한다.
모험(epsilon)이 작용해서 착륙을 몇번 더 해본다면 이런일은 없을것이다.
FEEDBACK : decay 값을 0.99로 최대값으로 올려주었다. 최대한 많은 모험을 해서 정책(policy)의 경우의 수를 최대로 만들고 시간이 오래 걸릴지라도 안정적으로 착륙하는 AI를 만들 고 싶었다.
3. 성공! 하지만 다소 착륙시간이 느리다.
안정적으로 착륙에 성공하는 모습을 볼 수 있다. 우리가 만든 최적의 에이전트는 이것이였다.
더 좋은 에이전트를 학습시키고 싶었지만, 새벽 5시의 졸음을 이길 수 없었다.
모든 캠프 참가자분들이 밤을 세워서 에이전트를 학습시키셨다.
새벽 4시전에 취침한 조는 한 조도 없었다.
우리는 겨우 과제를 끝마치고 1시간정도를 잘 수 있었다.
너무 재미있어서 멈출 수 없었다. 오기가 생겼다.
새벽에 과제할때 너무 재밌어서 시간 가는줄 모르고 했다. 정말 하루같은 4일간의 캠프였다 ㅎㅎㅎ 도전적인 과제를 내주셔서 오기도 생기도 더 재밌게 한 것 같다. 정말 깊이 남을 특별한 경험이 되었다.
이 캠프를 관리해주신 유우영 선생님!! 감사합니다!
'강화 학습' 을 가르쳐주신 넥슨에서 심심하면 하스스톤 에이전트 만드시는 옥찬호 선생님!! 정말 감사합니다!!!!
그리고 함께 이 어려운 과제를 헤쳐나간 OSS 캠프 참가자 여러분들, 감사합니다!!
너무나도 여운이 깊게 남는 특강을 해주신 이민석(국민대학교), 오창훈(비바리퍼블리카), 김요한(Korbit), 강석진(우아한형제들), 이병재(Naver백엔드) 선생님분들 정말 감사합니다!!!
'IT 관련 활동' 카테고리의 다른 글
앱의 주요 기능에 대한 총 설명! (0) | 2019.08.04 |
---|---|
2019 NYPC 토크콘서트 (0) | 2019.07.30 |
국민대학교 OSS 여름캠프 3일차 (0) | 2019.07.29 |
국민대학교 OSS 여름 캠프 2일차 (0) | 2019.07.26 |
국민대학교 OSS 여름 캠프 1일차 (0) | 2019.07.25 |