[논문 리뷰] Critic-V: VLM 비평가는 어떻게 멀티모달 추론 오류를 잡아내는가? 최근 시각-언어 모델(VLM)은 눈부신 발전을 이루었지만, 여전히 복잡한 추론 과정에서 시각적 환각(Hallucination)이나 논리적 오류를 범하곤 합니다. 오늘 소개할 Critic-V는 이러한 문제를 해결하기 위해 '추론자'와 '비평가'를 분리한 혁신적인 프레임워크입니다.📚 이 글의 목차 (클릭하세요)1. 배경: 기존 VLM 방식의 한계2. 핵심 아이디어: Reasoner-Critic의 분리3. 상세 프로세스: 어떻게 동작하는가?4. 비평가 모델 학습: VEST, RBR, DPO5. 실험 결과 및 결론1. 배경: 기존 VLM 방식의 한계VLM은 이미지 인식 능력은 뛰어나지만, 논리적 추론 단계에서 다음과 같은..
MGFA: 다중 세밀도 특징 융합과 어텐션을 활용한 표정 인식 연구 표정 인식(Facial Expression Recognition, FER)은 안면의 미세한 변화를 포착하여 인간의 감정을 수치화하는 컴퓨터 비전의 핵심 분야입니다. 본 포스팅에서는 2025년 Scientific Reports에 게재된 논문을 바탕으로, 전역 정보와 국부 정보를 유기적으로 결합한 MGFA(Multi-Granularity Feature with Attention) 모델의 구조와 핵심 방법론을 살펴보겠습니다. 목차 1. 개념의 틀: MGFA 프레임워크 개요 2. 전역 특징의 고도화: GMFEM 모듈 3. 국부 세밀도의 정밀..
기존의 LoRA(Low-Rank Adaptation)는 대규모 언어 모델(LLM)을 효율적으로 미세 조정하는 표준으로 자리 잡았습니다. 하지만 텍스트와 이미지가 혼합된 시각-언어 모델(VLM) 환경에서는 모든 토큰과 어텐션 헤드를 일률적으로 학습시키는 방식이 연산 효율성과 성능 보존 측면에서 한계를 보입니다. 본 논문은 VLM의 구조적 특성을 활용하여 최소한의 파라미터 업데이트만으로 표준 LoRA에 근접한 성능을 내는 Image-LoRA 방법론을 제안합니다.목차1. 배경: VLM 미세 조정의 한계와 연구 동기2. 핵심 방법론: 세 가지 차원의 '선택성(Selectivity)'3. 헤드 선택 알고리즘: 영향력과 다양성4. 실험 결과 및 성과5. 결론 및 시사점1. 배경: VLM 미세 조정의 한계와 연구 동..
유사도 행렬의 생성 매커니즘의 이해 멀티모달 학습에서 두 데이터 집합 사이의 관계를 파악하는 핵심 도구는 유사도 행렬(Similarity Matrix)입니다. 본 글은 개별 데이터 벡터가 어떻게 행렬로 확장되는지, 그리고 특징 차원이 어떻게 전체 점수판을 형성하는지 차원 분석을 통해 정리합니다. 1. 데이터의 정의 및 차원 학습에 사용되는 이미지와 텍스트 데이터의 차원을 다음과 같이 정의합니다. \( n \): 샘플의 개수 (Batch Size) \( d \): 특징 차원의 수 (Embedding Dimension) 개별 샘플 벡터 각 데이터는 \( d \)차원의 열 벡터로 표현됩니다. \[ x_i \in \mathbb..
고유벡터와 에너지 전달: 최적화 관점에서의 해석우리는 선형대수에서 왜 고유벡터를 그토록 중요하게 다룰까? 단순히 특성방정식 $\det(A-\lambda I)=0$을 풀기 위한 도구일까요?이번 글에서는 행렬 변환을 [에너지의 전달]이라는 최적화 관점에서 해석하여 고유벡터가 왜 존재해야만 하는지 그 정당성을 파헤쳐보겠습니다.1. 동기: 최적의 에너지 통로 찾기행렬 $A$를 하나의 시스템이라고 가정해 봅시다. 이 시스템에 어떤 입력($x$)을 넣었을 때 가장 강력한 출력($Ax$)이 나올까요?최적화 문제 정의$\max_{\|x\|=1} \|Ax\|$: 이 문제는 "이 시스템이 가진 가장 강력한 에너지 전달 방향은 어디인가?"라는 질문에 대한 답을 찾는 과정입니다. 입력 벡터 $x$의 길이를 1로 고정했을 때,..
나중에 보려고 https://blog.naver.com/qkrcks0108/220790981663 해당 블로그를 재작성하여 남긴다.예시 수학에서는 N, Z, Q, R, C와 같은 기호를 사용한다.예를 들어 이런 식으로 말이다.기호 설명 이들 기호는 수학에서는 특별한 의미를 갖는 특저 기호로써 다른 용도에 사용하면 안되는 예약된 기호(reserved notations)이다. 여기서 N은 자연수(natural number)의 집합, Z는 정수(interger number)의 집합, Q는 유리수(rational number)의 집합, R은 실수(real number)의 집합, C는 복소수(complex number)의 집합이다. N, R, C는 왜 이들 약자가 사용되었는지 짐작이 가능하다. 하지만 Z와 Q는..
예시로 볼 행렬 A이다. step 1. 고윳값 찾기특성 방정식 det(A-λE) = 0을 풉니다.(E는 단위행렬)3행을 기준으로 전개하면 계산이 매우 쉽습니다.고유값으로 λ1=1(중근, 대수적 중복도 2), λ2=2를 갖습니다. Step 2. 고유벡터(v) 찾기1) λ=1일 때 (중근인 경우)(A-1E)v = 0을 만족하는 v = [x y z]^T를 찾습니다.방정식은 x - 2z = 0 -> x = 2z 하나만 남습니다. y는 어떤 값이어도 상관없는 자유 변수입니다. 여기서 서로 독립적인 2개의 고유벡터로 뽑아낼 수 있습니다. - z = 1, y = 0 -> v1 = [2, 0, 1]^T- z = 0, y = 1 -> v2 = [0, 1, 0]^T중근 λ = 1에 대해서 독립적인 2개의 벡터가 나왔으므로..
1. 고유벡터, 고유값이란1. 고유벡터(Eigen Vector)어떤 행렬 A를 곱하여 선형변환을 시킨다는 것은 공간을 회전시키거나, 글리거나, 뒤트는 선형 변환을 의미합니다.여기서 공간의 모든 벡터가 이리저리 휘둘릴 때, 유독 방향이 전혀 변하지 않고 자기 자리를 지키는 벡터들이 있는데, 이들이 바로 행렬 A가 가진 고유한 축, 즉 고유벡터입니다. 2. 고유값(Eigen Value)행렬 A의 선형 변환에서 방향은 지켰지만, 그 벡터의 길이는 변할 수 있습니다.고유값은 고유벡터라는 기준축을 따라 원래보다 몇 배나 커졌는지(혹은 작아졌는지)를 나타내는 상수값입니다. 3. 예시예를 들어 3차원 공간에서 지구가 자전하는 물리적인 선형 변화(Rotation)를 하나의 행렬 A로 본다면, 지구의 자전축은 회전 중에..
- Total
- Today
- Yesterday
- GradientDescent
- 다중세밀도
- PCA
- Optimizer
- ScientificReports
- 경량화 모델
- separable
- Focal loss
- MobileNet
- 선형대수
- fisherconsistency
- code
- LossFunction
- 특징융합
- Example
- GradientScaling
- logitadjustment
- CriticV
- AdamOptimizer
- MGFA
- vlm
- 딥러닝
- tensorflow
- 논문리뷰
- classimbalance
- convolution
- eigenvector
- DeepLearning
- imbalanceddata
- depthwise
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |