IT 기술/인공지능

강화학습

gooooooood 2024. 10. 11. 12:40
반응형

Ⅰ. 행동에 따른 보상으로 모델 학습, 강화학습의 개요

가. 강화학습의 정의

- 주어진 환경에서 정의된 에이전트가 현재 상태를 인식하여 선택 가능한 행동들 중 보상을 최대화하는 행동을 선택하도록 학습하는 기계학습의 한 방법

 

나. 강화학습의 특징

순차적 의사결정 문제 - 데이터의 관측 순서가 결과에 영향을 미침
환경과 상호작용 - 비용 증가에 따라 인프라 증설이 필요한 경우 장비 추가로 확장

 

Ⅱ. 강화학습의 개념도 및 주요 기법

가. 강화학습의 개념도

- 에이전트가 행동을 취하고 이에 따른 보상을 최대화하는 정책 학습

 

나. 강화학습의 주요 기법

구분 기법 설명
Model
Free
MDP
(Markov Decision Process)
- 의사결정 과정을 확률과 그래프를 이용한 기법
- 상태, 상태전이 확률밀도함수, 행동, 보상함수 4요소 활용
Markov Chain - MDP에서 액션과 상태가 없다고 가정하고 시간에 따른 상태 변화 측정 기법
Q-Learning - Q 함수는 어떤 상태에서 행동을 취할 때 미래에 예상되는 전체 보상의 최대값으로 이를 최대화하는 방향으로 학습하는 기법
Model
Based
DQN
(Deep Q Network)
- 딥러닝과 강화학습의 Q-Learning을 조합한 기법

 

Ⅲ. 강화학습 활용 분야

분야 설명
게임 - 가상 환경의 지능형 캐릭터
자율주행 - 주변 환경 인식 및 판단을 통한 실시간 자율 주행
로봇제어 - 실환경에서 작동 및 제어되는 로봇 학습
금융 - 금융, 경제지표 분석을 통한 수익 극대화

 

반응형

'IT 기술 > 인공지능' 카테고리의 다른 글

머신러닝과 딥러닝 차이  (3) 2024.10.11
멀티모달 AI  (2) 2024.10.11
생성형 적대 신경망 GAN  (0) 2024.10.11
시계열 분석  (1) 2024.10.11
RNN과 LSTM  (0) 2024.10.11