본문 바로가기
728x90
반응형

ML24

Multi-Head "Masked/Cross" Attention - Transformer Decoder 이 문서는Transformer의 Encoder에서의Multi-Head Self-Attention과Position-wise Feed Forward Network에 대한 아래 글에 이어서 Decoder의Masked Multi-Head Self-Attention과Multi-Head Cross-Attention에 대해 설명하는 글임.2026.04.07 - [ML] - Multi-Head Self Attention - Transformer Encoder Multi-Head Self Attention - Transformer EncoderMulti-Head Self-Attention입력 sequence의 각 token이 같은 sequence 내부의 다른 모든 token을 참고하여,문맥적으로 중요한 정보에 더 크게 .. 2026. 4. 18.
Ex: Linear Regression 연습 다음에 해당하는 Dataset을 생성하고,이를 Linear Regression 모델을 통해 학습 후 성능을 보이는 코드 작성해보기.1. Dataset Description다음 조건을 만족하는 synthetic linear regression dataset 을 생성할 것.numpy의 random 모듈을 활용해볼 것:2024.03.29 - [Python] - [DL] Tensor: Random Tensor 만들기 (NumPy, PyTorch) [DL] Tensor: Random Tensor 만들기 (NumPy, PyTorch)Tensor: Random Tensor 만들기 (NumPy, PyTorch)Random value를 얻는데 이용되는 Probability Distribution에 따라 크게 2가지로 나.. 2026. 4. 11.
튜토리얼: Gemini CLI + MCP + Context7 + VS Code Companion (작성중) Gemini CLI + MCP + Context7 + VS Code Companion 을 사용하여HF Custom Config를HF Hub에 올리고AutoConfig.from_pretrained()까지 수행하기0. 목표다음 네 가지 개념 과 도구 를 실제 작업 을 통해 익히는 게 핵심임.AI Agent : 스스로 사용할 도구를 선택하여 작업을 수행하는 AI 시스템Gemini CLI : 터미널에서 쓰는 AI AgentMCP (Model Context Protocol) : AI Agent가 외부 도구를 확장하는 방식Context7 : 최신 라이브러리 문서를 AI Agent 에게 공급하는 도구VS Code Companion (동반자) : 현재 편집 중인 code의 context를 AI Agent에게 전달하는 .. 2026. 4. 11.
torch.nn.Module의 상태(state)-Parameter and Buffer 시작하기이 문서에서는 nn.Module 안에학습 대상인 Parameter와학습 대상은 아니지만 모델 상태로 관리되는 Buffer를 어떻게 추가하는지를 설명함.이는 Module 객체의 메서드 parameters(), named_buffers(), state_dict() 들이 무엇을 기준으로 동작하는지 훨씬 명확하게 파악할 수 있게 해줌.권장사항이 글을 보고나서 다음 글의 3. Module의 메서드들 을 다시 한번 읽어볼 것:2024.04.12 - [Python] - [PyTorch] Custom Model 과 torch.nn.Module의 메서드들. [PyTorch] Custom Model 과 torch.nn.Module의 메서드들.Custom Model 만들기0. nn.Module torch.nn.Mod.. 2026. 4. 9.
pytorch-torchinfo 란 1. torchinfo 란?torchinfo는 PyTorch 모델의 구조를 표 형태로 요약해서 보여주는 도구 (formerly torch-summary). 주로 다음을 확인할 때 사용됨:각 layer의 출력 shapeparameter 수trainable 여부nested module 구조실제 forward()를 따라가며 형상이 어떻게 변하는지공식 URL은 다음임:https://github.com/tyleryep/torchinfo GitHub - TylerYep/torchinfo: View model summaries in PyTorch!View model summaries in PyTorch! Contribute to TylerYep/torchinfo development by creating an acc.. 2026. 4. 9.
Multi-Head Self Attention - Transformer Encoder Multi-Head Self-Attention입력 sequence의 각 token이 같은 sequence 내부의 다른 모든 token을 참고하여,문맥적으로 중요한 정보에 더 크게 반응하도록 만드는 Transformer의 핵심 mechanism임.위의 내용은 (Single-Head) Self-Attention에 해당하는 것이며,Multi-Head 에 대한 설명은 다음을 참고각 head는 Scaled Dot-Product Attention을 독립적으로 수행 하며,서로 다른 head들이 서로 다른 관계(position relation, semantic relation, syntactic relation 등)를 병렬적으로 보는 역할 을 담당함.또한 hidden_size ($d_\text{model}$)를 여러 .. 2026. 4. 7.
728x90
반응형