논문명 : Deep Reinforcement Learning for Real-Time Optimization of Pumps in Water Distribution Systems
-> 배수 펌프의 실시간 최적화를 위한 심층 강화 학습 시스템
1)강화학습(Reinforcement Learning)
1-1 개념
: 주어진 환경과 상호작용하여 좋은 점수를 얻는 방향으로 성장하는 머신러닝 분야
: 강화학습은 AI Agent가 특정 state/situation 내에 최대의 보상 Q를 가져다주는 action을 학습하는 과정
- state : 특정 환경 내 상태를 의미
- Agent : 모델 혹은 AI
- Reward : 보상
- Action : Agent가 취할 행동을 의미
- Policy : 특정 state에서의 최대 보상을 제공하는 action을 정하는 알고리즘
-일반적인 강화학습 단계
환경에 따라 state가 주어짐 -> Agent는 state를 통해 이제껏 관잘해온 정보를 바탕으로 최대의 보상을 줄 action을 policy에 따라 선택 -> 보상을 받음 -> Agent는 보상을 바탕으로 policy를 업데이트하고, state는 바뀜 -> 반복
1-2 환경, 상태, 행동 그리고 보상
1-3 벨만 방정식
1-4 Q Learning
1-5 Deep Q Networks