'AI' 태그의 글 목록

2024.10.04· 프로그래밍 이론/AI

Step 1: DQN 개념DQN(Deep Q-Network)은 Q-Learning을 딥러닝과 결합한 강화학습 알고리즘입니다. Q-Learning이 Q-테이블을 사용하는 것과 달리, DQN은 신경망을 사용하여 Q-값을 근사합니다. 이를 통해 대규모 상태 공간에서도 Q-값을 학습할 수 있습니다.Step 2: Q-Learning의 한계 해결기존 Q-Learning은 상태-행동 공간이 커질수록 Q-테이블 관리가 어려워집니다. DQN은 신경망을 통해 연속적이거나 고차원인 상태 공간에서도 효과적으로 학습할 수 있습니다.Step 3: DQN의 구조입력: 현재 상태 $s$출력: 각 행동에 대한 Q-값 $Q(s,a)$DQN의 신경망은 상태 $s$를 입력으로 받아 각 행동 $a$에 대한 Q-값을 근사합니다.Step 4: ..

[AI] Q-Learning

2024.10.04· 프로그래밍 이론/AI

Step 1: Q-Learning 개념Q-Learning은 강화학습 알고리즘 중 하나로, Off-policy 방식입니다. 에이전트가 환경에서 최적의 행동을 찾기 위해 Q-값을 학습합니다.Step 2: Q-값 정의Q-값은 상태-행동 쌍에서 얻을 수 있는 누적 보상의 기대치를 의미합니다. Q(s, a)로 표현됩니다.Step 3: Bellman 방정식Q-Learning은 Bellman 방정식을 기반으로 Q-값을 업데이트합니다.$Q(s,a) = Q(s,a) + \alpha \left( R + \gamma \max_{a'} Q(s', a') - Q(s, a) \right)$$\alpha$: 학습률$\gamma$: 할인율$R$: 즉각적인 보상$\max_{a'} Q(s', a')$: 다음 상태에서 예상되는 최대 보상..

[AI] 강화학습

2024.10.04· 프로그래밍 이론/AI

Step 1: 강화학습 개념 이해강화 학습(Reinforcement Learning, RL)은 에이전트(Agent)가 환경(Environment)과 상호작용하면서 보상(Reward)을 통해 최적의 행동(Policy)을 학습하는 방법입니다. 여기서 에이전트는 목표를 달성하기 위해 행동을 선택하고, 그에 따라 보상이나 벌을 받습니다. 목표는 장기적인 누적 보상(Return)을 최대화하는 최적의 정책을 학습하는 것입니다.주요 구성 요소에이전트(Agent): 행동을 수행하고 환경에서 보상을 받는 주체.환경(Environment): 에이전트가 상호작용하는 대상.상태(State): 에이전트가 현재 환경에서 처한 상황.행동(Action): 에이전트가 상태에서 선택할 수 있는 동작.보상(Reward): 행동의 결과로 ..

[Unity] 행동 트리(Behaviour Tree)

2024.05.04· 유니티

게임에서 빼놓을 수 없는 것이 AI(Artificial Intelligence)입니다. AI는 컨텐츠를 풍부하게 하는 주 전력이 되며, 플레이어에게 도움을 주거나, 혹은 적대하거나, 혹은 능동적인 상호작용을 통해 플레이어에게 다양한 경험을 제공할 수 있습니다. 저의 경우 AI를 구현할 때 FSM(Finite State Machine - 유한 상태 머신) 방식을 사용했다. 정의할 상태나 상태전이가 적은 소규모 프로젝트에서는 충분했지만, 더 많은 상호작용과 시스템이 있는 대규모 프로젝트에서는 FSM을 사용하여 AI를 구현하기 힘들어집니다. FSM은 다른 기법들에 비해 쉽고 직관적이기 때문에 프로그래머가 아니더라도 누구나 쉽게 설계할 수 있다는 장점이 있지만, 상태와 액션이 다양해지고 복잡해질수록 각 상태의 ..

[Unity] 유한 상태 머신(FSM)

2024.05.03· 유니티

1. 유한 상태 머신(FSM)이란?유한 상태 머신(FSM)은 상태의 유한 집합과 그 상태들 간의 전환을 정의하는 계산 모델입니다. 각 상태는 시스템이나 프로세스의 특정 조건을 나타내며, 이벤트나 조건의 발생에 따라 다른 상태로 전환할 수 있습니다. 상태(State)상태는 시스템이 어떤 특정 시점에서 존재할 수 있는 모든 조건 또는 상황 중 하나를 의미합니다. 각 상태는 시스템의 행동, 즉 시스템이 수행하는 작업을 결정합니다. 예를 들어, 트래픽 신호등에서는 '빨간색', '노란색', '초록색'이라는 세 가지 상태가 있을 수 있으며, 각 상태는 신호등의 빛의 색을 결정합니다.상태는 시스템의 특정 속성이나 상황을 나타내며, 시스템이 그 상태에 있을 때만 일정한 행동을 하거나 특정 이벤트를 기다립니다. 따라서,..

티스토리툴바