일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- ARM
- pytorch
- Got
- C++
- PCA
- 파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습
- system hacking
- MDP
- DART
- fastapi를 사용한 파이썬 웹 개발
- Computer Architecture
- llm을 활용 단어장 앱 개발일지
- BAEKJOON
- BOF
- Image Processing
- 영상처리
- BFS
- Dreamhack
- rao
- FastAPI
- bloc
- Widget
- Stream
- study book
- MATLAB
- 백준
- ML
- Algorithm
- Flutter
- Kaggle
- Today
- Total
Bull
[ML] Pre-trained Model | study book 본문
[ML] Pre-trained Model | study book
Bull_ 2024. 8. 31. 13:17Pre-trained Model
사전 학습된 모델이란 대규모 데이터 세트로 사전에 학습된 모델을 의미한다. 사전 학습된 모델 자체를 현재 시스템에 적용하거나 사전 학습된 임베딩 벡터를 활용해 모델을 구성한다.
- 모델을 성능을 끌어낼 수 있다. -> 늑대와 사자를 구별할 때 개와 고양이로 학습된 모델을 활용해서 모델을 구축할 수 있음.
- 모델 개발 프로세스 가속화 가능
- 전이 학습, 백본 네트워크로 사용됨.
백본
백본은 입력 데이터에서 특징을 추출해 최종 분류기에 전달하는 딥러닝 모델이나 일부를 말함. VGG 같은 경우 고차원 특징 벡터로 변환해 이미지 분류 작업을 돕는 특징 추출기의 역할로 사용할 수 있다는 점에서 백본이라는 용어를 사용함.
백본 네트워크는 특징을 추출하므로 노이즈와 불필요한 특정 제거 효과를 얻을 수 있다. 모델 구성시 백본을 활용한다고 해서 모델의 성능이 급격하게 좋아지지는 않는다. 사전 학습된 백본은 미세 조정이나 전이 학습을 적용해 과대적합을 피해야 한다. 자연어 처리와 컴퓨터비전 작업에서 백본이 되는 모델을 BERT, GPT, VGG-16, RwsNet 등이 있다.
전이 학습
전이 학습은 어떤 작업을 수행하기 위해 사전 학습된 모델을 재사용해 새로운 작업이나 관련 도메인 성능을 향상시킬 수 있는 기술이다. 늑대 사자 검출 모델을 개 고양이 처럼 특징이 유사한 영역을 학습하여 소스 도메인에서 타깃 도에인 모델 성능을 향상시킨다.
전이학습을 통해 지식 전이가 일어날 때 소스 도메인의 영역을 업스트림, 타깃 도메인의 영역을 다운 스트림이라고 한다.
귀납적 전이 학습
귀납적 전이 학습은 기존에 학습한 모델의 지식을 활용해 새로운 작업을 수행하기 위한 방법중 하나다. 자기주도적 학습과 다중 작업 학습으로 나뉜다.
자기 주도적 학습
비지도 전이 학습의 유형 중 하나로 소스 도메인의 데이터셋에서 데이터 양은 많으나 레이블링 된 데이터 수가 매우 적거나 없을 때 사용한다. 레이블이 지정되지 않은 대규모 데이터셋에서 특징을 추출하는 오토 인코더와 같은 모델을 학습시킨 다음 저차원 공간에서 레이블링된 데이터로 미세 조정하는 방법을 의미한다. 레이블링된 데이터를 수집하는데 리소스규모가 클때 유용하다.
다중 작업 학습
레이블이 지정된 소스 도메인과 타깃 도메인 데이터 기반으로 모델에 여러 작업을 동시에 가르친다. 모델 구조는 공유 계층과 작업별 계층으로 나뉜다.
공유 계층:소스 도메인과 타깃 도메인의 데이터셋에서 모델을 사전 학습한 다음 단일 작업을 위해 작업별 계층마다 타깃 도메인 데이터 셋으로 미세 조정하는 방법이다.
- 과대적합 x
변환적 전이 학습
소스 도메인과 타깃 도메인이 유사하지만 완전히 동일하지 않은 경우다. 소스 도메인에 레이블링이 되어있지만 타깃 도메인에 레이블링이 안된 경우다.
도메인 적응:
소스 도메인과 타깃 도메인의 특징 분포로 전이 시키는 방법이다. 두 도메인의 특징 공간은 서로 다르지만 도메인 변화를 확인하기 위해 전이된다.
표본 선택 편향/공변량 이동:
소스와 타깃의 분산과 편향이 크게 다를 때 표본을 선택해 편향과 공변량을 이동 시키는 방법이다. 소스와 타깃이 완전 동일하지 않아서 학습 데이터에서 좋은 성능을 보이더라도 테스트에서 좋지 않을 수 있음.
비지도 전이 학습
소스, 타깃의 레이블이 모두 없는 경우다. 레이블 없이 특징을 학습하므로 미세 조정 시 더 효과적으로 타깃을 예측할 수 있다. 대표적으로 GAN, Clustering이 있다.
제로샷 전이 학습
이미지에서 독수리-새, 참새-새, 오리-새 와 같이 다른 데이터를 학습시키고 전혀다른 부엉이를 분류할 때 '새'로 예측할 수 있는 방법이다.
원 샷 전이 학습
제로샷과 유사하지만 서프트 셋과 쿼리 셋을 가정한다. 서포트 셋은 학습에 사용될 클래스의 대표 샘플이다. 쿼리 셋은 새로운 클래스를 분류하기 위한 입력 데이터이다.
서포트 셋에 있는 대표 샘플과 쿼리 셋 간의 거리를 측정하여 쿼리셋과 가장 가까운 서포트 셋의 대표 샘플의 클래스로 분류한다. 유클리드 거리, 코사인 유사도 등이 있다.
예를 들어 개, 고양이 분류 문제에서, 대표 샘플은 개, 고양이 중 하나로 선택되고 분류 대상인 대로운 사진을 쿼리 셋으로 생성, 서포트 셋에 대표 샘플과 쿼리 셋 간의 거리를 측정한다. 서포트셋이 대표샘플에 가까운 클래스로 분류한다.
특징 추출 및 미세조정
특징 추출:
타깃과 소스 도메인이 유사하고 타깃 도메인의 데이터셋이 적을 때 사용된다. 둘이 유사하면 타깃 도메인으로 모델을 학습해도 소스 도메인의 가중치나 편향도 유사하다. 그러므로 동결하여 학습하지 않고 기존의 모델의 가중치를 사용한다. 출력 노드 수는 다르므로 분류기만 재구성해 학습한다.
미세조정:
특징 추출 계층에서 일부만 동결하거나 동결하지 않고 타깃 도메인에 대한 학습을 한다.
- 개-고양이 모델을 활용해 식물 분류 모델을 구축하면 유사성이 매우 낮다. 하지만 특징 추출을 위한 모델의 구조는 동일하기 때문에 모든 계층을 동결하지 않고 전체 데이터 셋으로 학습을 진행한다.
- 식물 분류 모델에서 데이터 셋이 작다고 가정하자. 타깃 도메인에 대한 데이터 셋이 작다면 전체 계층을 학습할 수 없다. 그러므로 일부 계층만 동결해 학습을 진행한다. 유사성이 낮지만 하위 계층에서 저수준의 특징을 학습할 때 동일한 특징으로 학습될 가능성이 잇다.
- 소스와 타깃 도메인이 유사하지만 충분히 데이터를 확보하지 못했을 때다. 도메인간 유사성이 높으면 특징 추출 방법을 이용한다. 하지만 유사성만 높고 데이터 셋이 추웁ㄴ히 많지 않기 때문에 상위 계층에서 특징이 점점 달라진다. 그러므로 하위계층을 동결하고 일부 상위 계층을 학습하는 방법으로 모델을 구축한다.
https://product.kyobobook.co.kr/detail/S000209621433
파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습 | 윤대희 - 교보문고
파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습 | 트랜스포머는 딥러닝 분야에서 성능이 우수한 모델로 현대 인공지능 분야의 핵심 기술입니다. 트랜스포머와 비전 트랜스
product.kyobobook.co.kr
'Artificial Intelligence > Machine Learning' 카테고리의 다른 글
[ML] SVM (요약 및 디버깅) (1) | 2024.10.19 |
---|---|
[ML] K-NN (K-Nearest Neighbor) 알고리즘 (요약 및 디버깅) (0) | 2024.10.19 |
[ML] 데이터 증강 및 변환 | study book (4) | 2024.08.31 |
[ML] 과대적합과 과소적합 / 배치 정규화 | study book (0) | 2024.08.26 |
[ML] 가중치 초기화 / 정칙화 | study book (0) | 2024.08.26 |