카테고리 없음

강화학습 논문 스터디

강블루 2023. 1. 31. 14:13

논문명 : Deep Reinforcement Learning for Real-Time Optimization of Pumps in Water Distribution Systems

-> 배수 펌프의 실시간 최적화를 위한 심층 강화 학습 시스템


1)강화학습(Reinforcement Learning)

 

1-1 개념

: 주어진 환경과 상호작용하여 좋은 점수를 얻는 방향으로 성장하는 머신러닝 분야

: 강화학습은 AI Agent가 특정 state/situation 내에 최대의 보상 Q를 가져다주는 action을 학습하는 과정

 

https://julie-tech.tistory.com/69

 

  1. state : 특정 환경 내 상태를 의미
  2. Agent : 모델 혹은 AI
  3. Reward : 보상
  4. Action : Agent가 취할 행동을 의미
  5. Policy : 특정 state에서의 최대 보상을 제공하는 action을 정하는 알고리즘

  -일반적인 강화학습 단계

  환경에 따라 state가 주어짐 -> Agent는 state를 통해 이제껏 관잘해온 정보를 바탕으로 최대의 보상을 줄 action을 policy에 따라 선택 -> 보상을 받음 -> Agent는 보상을 바탕으로 policy를 업데이트하고, state는 바뀜 -> 반복

 

 

 

1-2 환경, 상태, 행동 그리고 보상

 

1-3 벨만 방정식

 

1-4 Q Learning

 

1-5 Deep Q Networks