본문 바로가기
Professional Engineer/AI

인공지능, 기계학습 적대적 공격

by 코드네임피터 2024. 9. 21.
반응형

정의

- 딥러닝의 심층신경망을 이용한 모델에 적대적 교란(Adversarial Perturbation)을 적용하여 오분류 발생시키는 공격기술

 

키워드

- Poisoning attack, Evasion attack, Inversion attack, Model extraction attack, Defense-GAN, 적대적 훈련(Adversarial training), 결과값 분석 차단, 쿼리 횟수 제한

 

메커니즘

 

기술요소

Poisoning attack(중독 공격, 오염 공격)
- 의도적으로 악의적인학습 데이터 주입해 머신러닝모델 손상시키는 공격
- 모델 자체를 공격
- 악의적 데이터를 최소한으로 주입해 모델 성능을저하시키는 것이 공격 평가 기준이 됨
- MS사의 인공지능 채팅봇 ‘테이’
- 스캐터랩 ‘이루다’
- 의료 기계 대상 연구 결과에서 대상 장비 오작동 발생

Evasion attack(회피 공격)
- 입력 데이터에 최소한의 변조 가해 머신러닝 속이는 기법
- 이미지 분류 머신러닝의 경우, 육안 식별 어려운방식으로 이미지 변조해 머신러닝 이미지 오분류발생시키는 수법
- 적대적 스티커(Adversarial patch)는 쉽게 인쇄해 사용 가능해 악의적 공격 여부 판단 어려움.
- 도로 교통 표지판에 이미지 스티커 부착해 자율주행 자동차의 표지판 인식 모듈 교란(자율주행차가 ‘정지’ 표시를‘속도제한’ 표시로 오인식)

Inversion attack(전도 공격, 학습데이터 추출 공격)
- 머신러닝 모델에 다량 쿼리 던진 후, 산출된 결과값 분석해 모델 학습에 사용된 데이터 추출하는공격
- 데이터 분류 위한 머신러닝은 주어진 입력에 대한 분류 결과와 신뢰도 함께 출력하는데, 이때 출력된 결과값 분석해 학습 과정에서 주입된 데이터 복원하는 방식
- 얼굴인식 머신러닝 모델 학습위해 사용한 얼굴 이미지 데이터 복원 가능
- 머신러닝 모델 훈련시키는 학습 데이터 안에 군사 기밀정보, 개인정보, 민감정보 등 포함된 경우라면, InversionAttack에 의해 유출 가능성 존재

Model extractionattack(모델 추출 공격)
- 머신러닝 모델 추출 공격
- 머신러닝 모델에 쿼리 계속 던지면서 결과값 분석하는 방식의 공격
- 유료 머신러닝 모델 서비스(MLaaS: MachineLearning as a Service) 탈취하거나, Inversion attack, Evasion attack과 같은 2차 공격에 활용 위해 사용될 수 있음.
- 70초 동안 650번 쿼리만으로도 아마존 머신러닝 모델과유사 모델 생성 가능하다는 연구결과 발표

 

참고

 

Defense-GAN
- 적대적 생성 신경망(GAN) 알고리즘 이용하여 적대적 공격 방어
- 적대적 예제(Adversary Example) 추가 학습 데이터로 활용하는 아이디어로 시작하여 변조된 이미지가 정상적 이미지로 판단되도록 하는 것이 최종 목표

적대적 훈련(Adversarial training)
- 가능한 모든 적대적 사례를 학습 데이터에 포함해 머신러닝 훈련
- 머신러닝 훈련 단계에서 예상 가능한 해킹된 데이터 충분히 입력해 머신러닝의 저항성 기르는 방식 

결과값 분석 차단
- 학습모델 결과값 분석 통해 모델 추론하는 공격 차단 위해, 학습모델 결과값이 노출되지 않도록 하거나, 결과값 분석할 수 없게 변환하는 방식으로 공격 차단

 적대적 공격 여부 탐지
- 원래 모델과 별도로 적대적 공격 여부 판단 위한 모델 추가한 후, 두 모델의 추론 결과 비교해 두 결과 간에 큰 차이 발생하는 경우 적대적 공격으로 탐지하는 방식

쿼리 횟수 제한
- 모델에 반복적 쿼리 시도하는 Inversion attack이나 Model extraction attack 방어 위해 모델에 대한 쿼리 횟수 제한하는 방식
- 학습 데이터에 포함된 기밀정보, 민감정보가 노출되지 않도록 암호화 등의 비식별 처리 방식도 연구

 

※ 인공지능에 모든 프로세스를 전적으로 의지하는 것보다는 인간의 검증 단계를 통해 데이터가 오염되지 않았는
지, 모델이 오작동하고 있는지 등 모니터링하고 점검하는 것이 필요.

반응형

'Professional Engineer > AI' 카테고리의 다른 글

인공지능 윤리 기준  (0) 2024.09.21
XAI(eXplainable Artificial Intelligence)  (0) 2024.09.21
파괴적 망각(Catastrophic Forgetting)  (0) 2024.09.21
초거대 AI  (0) 2024.09.20
프롬프트 엔지니어링(Prompt engineering)  (0) 2024.09.20

댓글