본문 바로가기

Professional Engineer/AI37

Random Forest 와 Adaboost 정의Random Forest : 의사결정 트리(Decision Tree)에 배깅(Bagging)의 개념을 적용시킨 앙상블 기법 Adaboost : 부스팅(Boosting) 기법에서 과소적합한 약 분류기(Weak Classifier)에 높은 가중치로 업데이트 하는 앙상블 기법 키워드- DB(Decision tree, Bagging), 약강가(약 분류기, 강 분류기, 가중치)- 앙상블, 의사결정트리+배깅, 보팅, Bootstrap, 약분류기, 강분류기, 가중치 메커니즘Random Forest의사결정 트리 (Decision Tree) - 배깅(Bagging)에 사용된 핵심 분류/회귀 모델 부트스트래핑 (Bootstrapping) - 전체 원본 데이터 세트에서 중복을 허용하여 복원 추출이 가능한 데이터 샘플링 .. 2024. 9. 20.
연합학습(Federated Learning) 정의- 저장 데이터를 직접 공유하지 않는 다수의 로컬 기기와 하나의 중앙 서버가 협력하여 AI 모델을 학습하는 분산형 머신 러닝(Machine Learning) 키워드- 분산, 프라이버시 보호, 지역모델, 전역모델, 취합, 갱신, FedSGD, FedAVG, 차등정보보호, 동형암호, 다자간계산 메커니즘 기술요소① 전역(Global) 모델 분배(Broadcast) - 서버는 사전에 정의한 최적 참여자를 선정한 후 각 단말로 수행해 야 할 작업 관련 정보를 전달  ② 지역 모델 갱신(Local Update) - 단말에 저장된 개인 데이터를 사용하여 로컬 AI 모델을 생성  ③ 지역 모델 취합(Aggregate) - 서버와 접속 등 특정 조건 만족 시, 단말은 생성한 로컬 AI 모델 결과값(파라미터)을 압축・.. 2024. 9. 20.
유사도(Similarity) 정의- 데이터 간의 유사도를 정의하여 그 유사도가 가까운 것부터 순선 대로 묶어 가는 방법- 유사도 측정을 통하여 군집을 형성함으로 물리적 거리가 가까운 항목들을 동일 집단으로 묶음으로 거리기반과 유사도 기반을 척도로 사용 - 거리 기반 척도 : 맨하튼 거리, 유클리드 거리, 마할라노 거리, 민코스프키거리, 해밍거리 등 - 유사도 기반 척도 : 자카드 계수, 코사인, 단순매칭계수, 피어슨상관관계계수 등 - 클러스터링 평가 지표로는 실루엣 계수(silhouette score)와 응집도(Inertia) 이용 키워드- 교집합/합집합, -1,0,1, 군집내, 군집외 메커니즘 기술요소자카드 유사도(Jaccard Similarity)코사인 유사도(Cosine Similarity)실루엣 계수(Silhouette Co.. 2024. 9. 20.
오토인코더(Autoencoder) 정의- 비지도방식으로 훈련하고, 해당 입력 데이터를 최대한 압축시킨 후, 데이터의 특징을 추출하여 다시 본래의 입력 형태로 복원시키는 신경망- 데이터 압축, 차원의 저주 예방, 특성 추출 키워드- Encoder, Decoder, Latent Variable, 차원의 저주 예방, 특성 추출 메커니즘 기술요소인코더 - 인지네트워크(recognition network) - 특성에 대한 학습을 수행  은닉층 - 모델의 뉴런 개수가 최소인 계층 (Latent Space) - 차원이 가장 낮은 입력 데이터의 압축 표현이 포함  디코더 - 생성 네트워크(generative network) - 은닉층에서 압축된 데이터를 원래대로 재구성(reconstruction)하는 역할 - 최대한 입력에 가까운 출력을 생성  잠재 .. 2024. 9. 20.
VAE(Variational Autoencoder) 정의- 평균(μ)과 표준편차(σ)를 학습하여 사후확률을 최대화 하여 입력 데이터와 유사한 새로운 데이터를 생성하는 AI 기술 키워드- 평균, 표준편차, 사후확률, 생성형 모델, Encoder, Decoder, Latent Space 메커니즘 기술요소Encoder - Input Layer - 학습할 x의 입력 데이터 - Encoder - 입력 데이터의 차원을 축소하여 학습, Auto Encoder 사용  Latent Space - 평균, 표준편차 벡터 - Input 값의 평균과 표준편차를 학습한 벡터 값 - Sample Latent - 평균, 표준편차를 통한 사후 확률 추론. - 변분추론을 통하여 근사적으로 학습  Decoder - Decoder - 사후 확률을 최대화하는 확률 분포를 학습하여 네트워크의 .. 2024. 9. 20.
데이터 라벨링, 어노테이션 라벨링 - 데이터를 효과적으로 분류하기 위해 데이터에 분류명, 이름을 지정 부여하는 작업 어노테이션 - 데이터를 쉽게 해석하기 위해 특징을 추출하고 메타데이터를 추가하는 작업 . 1. 이미지 분류 (Image Classification):    - 설명: 전체 이미지에 대한 레이블을 지정하는 작업    - 기법:      a. 단일 레이블 분류      b. 다중 레이블 분류      c. 계층적 분류      d. 태그 기반 어노테이션 2. 객체 탐지 (Object Detection):    - 설명: 이미지 내 특정 객체의 위치를 식별하고 분류하는 작업    - 기법:      a. 바운딩 박스 (Bounding Box):          - 객체를 직사각형 박스로 둘러싸는 방법         - 간.. 2024. 8. 2.
머신 러닝 성능 지표 회귀 1. MAE (Mean Absolute Error):    - 예측값과 실제값의 차이 절대값의 평균    - 이상치에 덜 민감 2. MSE (Mean Squared Error):    - 예측값과 실제값의 차이 제곱의 평균    - 큰 오차에 더 민감 3. RMSE (Root Mean Squared Error):    - MSE의 제곱근    - MAE보다 큰 오차에 더 민감, 원본 단위로 해석 가능 4. R-squared (결정 계수):    - 모델이 데이터의 분산을 얼마나 잘 설명하는지 나타냄    - 0~1 사이의 값, 1에 가까울수록 좋음 5. Adjusted R-squared:    - R-squared를 변수의 수를 고려하여 조정    - 과적합 방지에 도움 분류  1. Accuracy.. 2024. 8. 2.