일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- PCA
- 파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습
- MDP
- Algorithm
- Computer Architecture
- study book
- ARM
- rao
- MATLAB
- FastAPI
- DART
- 백준
- Kaggle
- pytorch
- BOF
- system hacking
- BFS
- Dreamhack
- 영상처리
- bloc
- Widget
- Got
- BAEKJOON
- ML
- Stream
- C++
- fastapi를 사용한 파이썬 웹 개발
- Image Processing
- Flutter
- llm을 활용 단어장 앱 개발일지
- Today
- Total
목록Artificial Intelligence/Deep Learning (17)
Bull

학교 캡스톤 디자인 중 OpenVoice를 쓰다가 아키텍처를 일반인도 보기 쉽게 바꿔보았다.. 논문은 자세히 안읽어서 알맞은 정보인지는 모른다. 아까워서 블로그에 저장
https://www.youtube.com/watch?v=zxQyTK8quyY StatQuest안녕하세요, 저는 조쉬 스타머(Josh Starmer)이고, 스탯퀘스트(StatQuest)에 오신 것을 환영합니다!오늘은 트랜스포머(Transformer) 신경망에 대해 이야기해 보겠습니다.이해하기 쉽게 설명할 거예요.트랜스포머는 클라우드에서 라이팅(Lightning)과 함께 직접 만들어보면 더 재밌습니다. 빰!요즘 사람들은 챗GPT(ChatGPT)에 엄청 열광하고 있습니다.예를 들어, 우리의 친구 스탯스쿼치(Statsquatch)가 챗GPT에다가 “스탯퀘스트 스타일로 멋진 노래를 써 줘” 같은 걸 입력해볼 수 있죠.“트랜슬레이션, 이건 트랜스포머로 한 거야!”아무튼 챗GPT가 어떻게 작동하는지 이야기할 게 ..
FID(Frechet Inception Distance)은 Generative Adversarial Networks(GAN) 같은 생성 모델에서 생성된 이미지의 품질과 다양성을 평가하는 지표.생성된 이미지와 실제 데이터 간의 분포 차이를 측정하여 얼마나 사실적인지를 평가1. FID의 핵심 개념FID는 두 개의 이미지 데이터 분포(실제 이미지와 생성된 이미지) 간의 Frechet Distance를 계산Inception 네트워크(사전 훈련된 Inception v3 모델)를 사용하여 이미지의 특징 벡터를 추출한 후, 특징 벡터의 평균과 공분산을 비교평균(mean): 각 특징 차원의 평균 값공분산(covariance): 각 특징 차원의 상관 관계를 나타내는 행렬2. 계산 과정$$FID = ||\mu_r - \m..

정규화는 예시로 설명하자면 0~255인 이미지 데이터를 0~1로 정규화하는 걸 말함. 활성화 함수에서 Internal Covariate Shift문제가 일어나지 않도록 기울기 안정성을 위해 진행. 쉽게 요약하자면,배치 정규화: 모든 샘플의 같은 채널끼리 (R끼리) 한 번에 정규화.모든 이미지의 채널만 모아서 기준을 만듬레이어 정규화: 각 샘플(이미지) 전체를 한 번에 정규화 (R, G, B 채널을 모두 포함).개별 이미지끼리 기준으로 만듬인스턴스 정규화: 각 샘플 내에서 채널별로 따로 정규화 (R, G, B 채널 각각 독립적으로).개별 이미지의 각 채널기준으로 각각 만듬그룹 정규화: 각 샘플의 채널을 그룹으로 나누어 그룹별로 정규화 (R과 G는 한 그룹, B는 다른 그룹 등).개별 이미지의 채널(R,G..



CNNCNN은 주로 Computer Vision 분야에서 데이터 분석하기 위해 사용되는 인공 신경망의 한 종류이다.합성곱 연산을 사용합성곱 연산 피쳐를 파악하는데 사용자연어 처리에서도 이전 시점 상태를 기억하기에 유리하지만 병렬처리의 어려움은 있음합성곱 계층입력 데이터와 필터를 합성곱해 출력 데이터를 생성하는 계층데이터 특징을 추출하므로 지역적 패턴 인식가능모델이 학습해야 할 매개변수 수가 감소해 과대적합 방지필터커널, 윈도라도 불림일정 간격을 이동하면서 입력 데이터와 합성곱 연산을 수행하여 피처맵을 만듬.필터에 들어간 값들을 가중치라고 함.필터와 이미지를 간격만큼 이동하면서 원소별 곱하여 합한 것을 해당 칸에 할당함.패딩커널 연산을 하기전에 이미지에 패딩을 추가하여 피쳐 맵이 작아지는 현상을 막아줌.보..

LSTM (Long Short-Term Memory)LSTM 특징1997년 셉 호흐라이터(Sepp Hochreiter)와 유르겐 슈미트후버(Juergen Schmidhuber)가 제안한 알고리즘RNN의 기울기 소실, 기억력 부족 문제를 해결기존 RNN은 학습 데이터의 크기가 클수록 학습한 정보가 충분히 전달되지 않음tanh, ReLU 등 기울기 소실 혹은 폭주 문제 발생.메모리 셀과 게이트 구조를 도입하여 이를 해결.LSTM 구조 셀 상태, 망각 게이트, 기억 게이트, 출력 게이트$$f_t = \sigma (W^{(f)}x x_t+W^{(f)}_h h{t-1} + b^{(f)})$$1. 망각 게이트 $f$현재 $x_t$에서 이전 은닉 상태 $h_{t-1}$ 을 받아서 이전 셀 상태를 기억할지 말지 결정한..

RNN (Recurrent Neural Network)RNN 특징연속적인 데이터를 처리하는데 적합한 구조각 시점의 데이터가 이전 데이터와 독립적이지 않다1~1000까지 (1,2,3) , ... , (998,999,1000)을 학습 시켜 11,12를 입력하면 13.0023 등이 나오도록 예측하는 것이다.긴 문장일수록 강한 상관관계가 존재시계열, 자연어, 음성 인식, 기타 시퀀스 데이터RNN 구조연속형 데이터를 순서대로 입력 받아 처리하며 각 시점마다 은닉 상태 형태로 저장수식은닉 상태$$ h_t = \sigma (h_{t-1},x_t) $$$$ h_t = \sigma (W_{hh}h_{t-1} + W_{xh}x_t+b_h) $$$\sigma_h$ : 은닉 상태를 계산하기 위한 활성화 함수이전 시점 $t-1..

import torchimport torch.nn as nnimport torch.nn.functional as Ffrom torchvision.models.utils import load_state_dict_from_url# Depthwise Separable Convolution 블록 정의class DepthwiseSeparableConv(nn.Module): def __init__(self, in_channels, out_channels, stride=1): super(DepthwiseSeparableConv, self).__init__() self.depthwise = nn.Conv2d(in_channels, in_channels, kernel_size=3, stri..