작성자 : 김응엽 연구원
작성 일시 : 2023년 4월 7일
1. Paper reading
- 이나현 학생이 직접 Probabilistic Embedding for Cross-modal Retrieval 논문에 대한 코드리뷰를 진행함.
- MS-Soft contrastive loss to LogSumExp(SoftPlus)를 중심으로 재증명
- 이를 코드 상에서 1:1 매칭하는 작업을 같이 진행해보았다.
- 한계 : c={1,2}가 뭘 의미하는지 아무도 몰랐음. -> 이는 시험 끝나고 다시 읽음으로써 보완
- 작은 내용, 혹은 내가 현재 알고 있는 쉬운 내용부터 코드 혹은 논문에서 인지하고
- 이를 바탕으로 점진적으로 그 해석의 바운더리를 넓혀 나간다.
2. 향후 계획
- 확률론, Cross-Entropy를 기반으로 하여 Deterministic한 방법이 아니라, Probabilistic method로 TVR 문제를 접근
- ALBEF, X-VLM, 그리고 PCME를 위 키워드로 아울러서 이해하려는 시도를 한다.
- 이후 수학적인 해석력을 기르고 향후 다른 모델들에도 적용할 수 있는 적응력을 기른다.
- 이 논문을 다시 읽고 난 뒤 ALBEF, X-VLM까지 다시 읽어서 완벽한 숙지를 목적으로 한다.
3. 향후 일정
- 오늘 4/7일 부로 중간고사 일정관련하여 4월 27일까지 멀티모덜 세미나는 잠정 중단한다.
- 이후 4월 말 ~ 5월 초에 재정비를 한다.
- 논문 리딩
- 논문 리딩 및 코드와 연결
- PCME
- UATVR
- ALBEF
- X-VLM
'연구록 > 회의록' 카테고리의 다른 글
5월 둘째주 회의록 (0) | 2023.05.16 |
---|---|
[NLP+Xai]4월 둘째주 연구록 (0) | 2023.04.11 |