Ⅰ. 행동에 따른 보상으로 모델 학습, 강화학습의 개요
가. 강화학습의 정의
- 주어진 환경에서 정의된 에이전트가 현재 상태를 인식하여 선택 가능한 행동들 중 보상을 최대화하는 행동을 선택하도록 학습하는 기계학습의 한 방법
나. 강화학습의 특징
순차적 의사결정 문제 | - 데이터의 관측 순서가 결과에 영향을 미침 |
환경과 상호작용 | - 비용 증가에 따라 인프라 증설이 필요한 경우 장비 추가로 확장 |
Ⅱ. 강화학습의 개념도 및 주요 기법
가. 강화학습의 개념도
- 에이전트가 행동을 취하고 이에 따른 보상을 최대화하는 정책 학습
나. 강화학습의 주요 기법
구분 | 기법 | 설명 |
Model Free |
MDP (Markov Decision Process) |
- 의사결정 과정을 확률과 그래프를 이용한 기법 - 상태, 상태전이 확률밀도함수, 행동, 보상함수 4요소 활용 |
Markov Chain | - MDP에서 액션과 상태가 없다고 가정하고 시간에 따른 상태 변화 측정 기법 | |
Q-Learning | - Q 함수는 어떤 상태에서 행동을 취할 때 미래에 예상되는 전체 보상의 최대값으로 이를 최대화하는 방향으로 학습하는 기법 | |
Model Based |
DQN (Deep Q Network) |
- 딥러닝과 강화학습의 Q-Learning을 조합한 기법 - |
Ⅲ. 강화학습 활용 분야
분야 | 설명 |
게임 | - 가상 환경의 지능형 캐릭터 |
자율주행 | - 주변 환경 인식 및 판단을 통한 실시간 자율 주행 |
로봇제어 | - 실환경에서 작동 및 제어되는 로봇 학습 |
금융 | - 금융, 경제지표 분석을 통한 수익 극대화 |
'IT 기술 > 인공지능' 카테고리의 다른 글
머신러닝과 딥러닝 차이 (3) | 2024.10.11 |
---|---|
멀티모달 AI (2) | 2024.10.11 |
생성형 적대 신경망 GAN (0) | 2024.10.11 |
시계열 분석 (1) | 2024.10.11 |
RNN과 LSTM (0) | 2024.10.11 |