제2장: 효율성의 서막 - 파라미터 효율적 미세조정 (PEFT)의 원리
전체 미세조정의 거대한 장벽 앞에서, 연구자들은 "모델의 모든 것을 바꿀 필요가 있을까?"라는 근본적인 질문을 던지기 시작했습니다. 이 질문에 대한 답이 바로 **파라미터 효율적 미세조정(Parameter-Efficient Fine-Tuning, PEFT)**입니다. PEFT는 거대 모델을 특정 작업에 적응시키는 패러다임을 근본적으로 바꾼 혁신적인 접근법입니다.
PEFT의 핵심 철학과 장점
PEFT의 핵심 철학은 매우 직관적입니다. 사전 훈련된 모델이 이미 세상에 대한 방대한 지식을 학습했으므로, 새로운 작업에 적응하기 위해 필요한 변화는 모델 전체의 지식을 뒤엎는 것이 아니라, 일부 핵심적인 부분만 미세하게 조정하는 것으로 충분하다는 것입니다. 이를 위해 PEFT는 사전 훈련된 모델의 파라미터 대부분을 고정(freeze) 시키고, 아주 작은 일부의 파라미터만 학습 대상으로 삼습니다.2
이러한 접근법은 다음과 같은 명확한 장점을 제공합니다.
- 비용 절감: 학습 대상 파라미터가 전체의 1% 미만, 때로는 0.1% 미만으로 줄어들어 계산 비용과 메모리 요구량이 획기적으로 감소합니다.2
- 치명적 망각(Catastrophic Forgetting) 완화: 모델의 대부분이 원본 상태를 유지하므로, 새로운 작업을 학습하면서 기존에 학습했던 중요한 지식을 잊어버리는 문제를 크게 줄일 수 있습니다.10
- 효율적인 저장 및 배포: 각 작업에 대해 전체 모델을 복사할 필요 없이, 변화된 일부 파라미터(수십 MB 수준)만 저장하면 됩니다. 이는 저장 공간을 크게 절약하고, 여러 작업을 빠르게 전환하며 서비스하는 것을 가능하게 합니다.10
PEFT 방법론의 주요 갈래
PEFT는 하나의 특정 기술이 아니라, '적은 파라미터만 학습한다'는 공통된 목표를 가진 여러 기법들의 집합체입니다. 이들은 크게 세 가지 방식으로 분류할 수 있습니다.12
- 첨가 방식 (Additive Methods): 기존 모델의 구조에 새로운 학습 가능한 모듈이나 파라미터를 '추가'하는 방식입니다.
- 어댑터 (Adapters): 트랜스포머의 각 레이어 사이에 작은 신경망 모듈(어댑터)을 삽입하고, 이 어댑터만 학습시킵니다.13 이 방식은 효과적이지만, 추가된 레이어를 순차적으로 거쳐야 하므로 추론 시 약간의 지연(inference latency)을 유발할 수 있다는 단점이 있습니다.13
- 프롬프트 튜닝 (Prompt Tuning) / 접두사 튜닝 (Prefix-Tuning): 모델의 가중치는 전혀 건드리지 않고, 입력 시퀀스의 앞부분에 학습 가능한 가상의 토큰(soft prompt 또는 prefix)을 추가합니다. 모델은 이 가상 토큰을 해석하여 특정 작업에 맞는 출력을 생성하도록 유도됩니다.8 파라미터 효율성이 매우 높지만, 때로는 어댑터나 LoRA 방식보다 성능이 다소 낮을 수 있습니다.15
- 선택 방식 (Selective Methods): 기존 모델의 파라미터 중 일부(예: 특정 레이어 전체, 혹은 편향(bias) 항들만)를 선택하여 해당 부분만 미세조정하는 방식입니다.
- 재매개변수화 방식 (Reparameterization Methods): 이 방식이 LoRA의 핵심 아이디어가 됩니다. 기존 가중치 행렬의 '변화량' 자체를 직접 학습하는 대신, 그 변화량을 훨씬 적은 수의 파라미터로 표현(reparameterize)하여 학습합니다.12 즉, 문제 자체를 더 작은 차원에서 푸는 방식입니다.
LoRA는 바로 이 재매개변수화 방식의 가장 대표적이고 성공적인 예시입니다.
아래 표는 주요 PEFT 방법론들을 전체 미세조정과 비교하여 각 기술의 특징과 장단점을 명확히 보여줍니다.
기법 (Method) | 핵심 아이디어 (Core Idea) | 수정 대상 (What is Modified) | 학습 파라미터 수 (Trainable Params) | 추론 지연 (Inference Latency) | 주요 장점 (Key Advantage) | 주요 단점 (Key Disadvantage) |
Full Fine-Tuning | 모델의 모든 파라미터를 재학습 2 | 모든 가중치 (All weights) | 100% | 없음 (None) | 최고 성능 잠재력 | 막대한 계산/메모리 비용 8 |
Adapter-Tuning | 레이어 사이에 작은 모듈을 삽입하여 학습 13 | 추가된 어댑터 모듈 (Added adapter modules) | ~0.1% - 1% | 있음 (Yes) | 모듈성, 좋은 성능 | 추론 지연 발생 14 |
Prefix/Prompt-Tuning | 입력에 학습 가능한 가상 토큰을 추가 15 | 입력 임베딩 접두사 (Input embedding prefixes) | < 0.1% | 약간 있음 (Slight) | 극도의 파라미터 효율성 | 성능이 다소 불안정할 수 있음 15 |
LoRA | 가중치 '변화량'을 저순위 행렬로 근사 17 | 추가된 저순위 행렬 (Added low-rank matrices) | ~0.01% - 1% | 없음 (None) | 추론 지연 없음, 높은 효율성, 좋은 성능 | 모든 작업에서 최고 성능 보장 안됨 |
이 표를 통해 LoRA의 독보적인 위치를 확인할 수 있습니다. LoRA는 다른 PEFT 기법들과 유사한 수준의 높은 파라미터 효율성을 달성하면서도, 추론 지연이 전혀 없다는 결정적인 장점을 가집니다.13 이 특성 덕분에 LoRA는 연구실의 실험을 넘어 실제 산업 현장에서 가장 널리 채택되는 PEFT 기술 중 하나가 되었습니다. 다음 장에서는 이 LoRA의 마법 같은 원리를 본격적으로 파헤쳐 보겠습니다.
'AI Deep Learning' 카테고리의 다른 글
딥러닝의 새로운 지평: 초심자를 위한 Low-Rank Adaptation (LoRA) 완벽 가이드 4편 (0) | 2025.06.16 |
---|---|
딥러닝의 새로운 지평: 초심자를 위한 Low-Rank Adaptation (LoRA) 완벽 가이드 3편 (1) | 2025.06.16 |
딥러닝의 새로운 지평: 초심자를 위한 Low-Rank Adaptation (LoRA) 완벽 가이드 1편 (0) | 2025.06.16 |
파인튜닝의 새로운 패러다임, LoRA 완벽 가이드 (2) | 2025.06.15 |
2025년 딥러닝 개발자를 위한 Conda 가상 환경 설정 완전 정복 가이드 (1) | 2025.06.14 |
댓글