본문 바로가기
Professional Engineer/AI

파괴적 망각(Catastrophic Forgetting)

by 코드네임피터 2024. 9. 21.
반응형

정의

- Single Task(단일 과제)에 대해서는 뛰어난 성능을 보이지만, 다른 종류의 Task를 학습하면 이전에 학습했던 Task에 대한 성능이 현저하게 떨어지는 문제
- 기억의 유지(Stability)와 새로운 기억의 생성(Plasticity)의 비중을 적절히 조절하기가 어려워 Stability-Plasticity dilemma(안정성-가소성 딜레마) 라고 불리기도 함

 

키워드

- 성능 저하, 정규화, 증류, 동적 구조

 

메커니즘

 

기술요소

정규화(Regularization)
- EWC(Elastic Weight Consolidation)
- MAS [ECCV 2018] 등
- 이전 TASK에서 학습한 네트워크의 파라미터가 최대한 변하지 않으면서 새로운 TASK를 학습하도록 유도

증류(Distillation)
- LFL [arixv 2016]
- DER [CVPR 2021]
- DGM [CVPR 2019]
- WA [CVPR 2020] 등
- 이전 TASK에서 학습한 파라미터를 새로운 TASK를 위한 네트워크로 전달 (핵심 데이터만 압축 전달)
- Distillation 기법에 Memory, Bias correction, Dynamic structure, Generative model 기법을 혼합하기도 함

동적 구조(Dynamic structure)
- PackNet [CVPR 2018]
- CPG [NIPS 2019]
- PAE [ICMR 2019] 등
- Pruning / Masking 등을 사용하여 TASK별로 사용할 파라미터 또는 네트워크 등을 지정
- Network의 Node 또는 Layer의 개수를 추가하여 새로운 TASK를 학습할 파라미터를 확보

 

참고

- 파괴적 망각을 개선할 수 있는 다양한 이론 및 알고리즘이 지속적으로 연구되고 있음.
- 현 시점에서는 레이어의 개수가 파괴적 망각에 영향이 크다고 알려져 있어 Drop-Out 방식 효율적

반응형

댓글