실수로 밈 검색 엔진을 만들어버렸다

2024-04-12 · 1105 단어 · 6 분 ·

Originally in: English

Also available in: 日本語 🇯🇵 , Español 🇪🇸 , 中文 🇨🇳 , Indonesia 🇮🇩

혹은: CLIP·SigLIP과 이미지 벡터 인코딩을 배우는 법

tl;dr: SigLIP/CLIP으로 이미지 벡터를 활용해 밈 검색 엔진을 만들었다. 정말 재미있었고 배운 것도 많았다.

나는 한동안 실용적인 AI 도구를 이것저것 만들어 왔다. 그중에서도 가장 마법처럼 느껴졌던 구성 요소가 벡터 임베딩이었다. Word2Vec을 처음 봤을 때 머리가 멍해질 정도였다. 정말 마술 같았다.

해커뉴스에서 본 간단한 앱이 매우 인상적이었다. 누군가 텀블러 이미지를 긁어 온 뒤 SigLIP으로 임베딩을 만들어 “이미지를 클릭하면 비슷한 이미지를 보여주는” 앱을 뚝딱 만든 것이다. 진짜 마술 같았다. 방법은 몰랐지만, 왠지 나도 해볼 수 있을 것만 같았다.

그래서 이 갑작스러운 동기를 “도대체 이게 어떻게 돌아가는지” 직접 배울 기회로 삼았다.

wut

벡터 임베딩, CLIP·SigLIP, 벡터 데이터베이스 같은 개념이 낯설다면 걱정 마시라.

해커뉴스 글을 보기 전까지 나도 벡터 임베딩이나 멀티모달 임베딩, 벡터 데이터베이스에 대해 깊이 고민해 본 적이 없었다. 예전에 FAISS(페이스북의 간단한 벡터 스토어)와 Pinecone(유료)을 써서 간단히 테스트해 본 정도였다. “돌아가네? 테스트 통과!” 하고 말았던 수준이다.

사실 아직도 벡터가 뭔지 제대로 안다기보다는 어렴풋이 알고 있는 정도다, lol. 이번에 직접 만들어 보기 전까지는 RAG나 다른 LLM 프로세스 외에 어디에 쓸 수 있을지 감이 없었다.

나는 만들어 보면서 배우는 타입이다. 결과가 흥미롭고, 약간 마법 같으면 더 열심히 하게 된다.

WTF 용어집

원고를 미리 읽어 준 친구들 중 몇 명이 “X가 뭐냐?”고 묻길래, 나도 처음엔 생소했던 단어를 짧게 정리했다.

Vector Embedding(벡터 임베딩) – 텍스트나 이미지를 수치 벡터로 변환해 비슷한 항목을 효율적으로 찾을 수 있게 해 준다.
Vector Database(벡터 데이터베이스) – 이렇게 인코딩된 벡터를 저장·검색해 유사 항목을 빠르게 찾아 주는 데이터베이스.
Word2Vec – 단어를 벡터로 변환해 유사어를 찾고 의미 관계를 탐색할 수 있게 만든 혁신적 기법.
CLIP – OpenAI가 만든 모델로 이미지와 텍스트를 동일한 벡터 공간에 인코딩한다.
OpenCLIP – OpenAI의 CLIP을 오픈소스로 구현한 버전으로, 누구나 자유롭게 사용하고 확장할 수 있다.
FAISS – 대규모 벡터 컬렉션을 빠르게 관리·검색할 수 있게 해 주는 라이브러리.
ChromaDB – 이미지·텍스트 벡터를 저장하고 즉시 비슷한 결과를 반환해 주는 벡터 데이터베이스.

Keep it simple, Harper.

이건 꽤 단순한 해킹 프로젝트다. 그냥 이것저것 만지작거리는 수준이라 확장성에는 크게 신경 쓰지 않았다. 대신 누구나 적은 노력으로 그대로 실행할 수 있게 만드는 데 관심이 있었다.

또 다른 목표는 모든 과정을 노트북에서 로컬로 돌리는 것이었다. 새 Mac의 GPU를 제대로 달궈 보자는 마음이었다.

첫 단계는 이미지 폴더를 훑는 간단한 크롤러를 만드는 것이었다. Apple Photos를 쓰고 있어서 폴더가 따로 없었지만, 비밀 밈 단톡방에 쌓아 둔 방대한 밈 이미지가 있었다. 채팅을 내보내 폴더에 모으니 테스트 이미지 세트가 완성됐다.

크롤러

아마 세상에서 가장 조악한 크롤러일 거다. 정확히 말하면, Claude가 내 지시에 따라 만들어 준 작품이다.

조금 복잡해 보이지만 흐름은 이렇다.

대상 디렉터리의 파일 목록을 가져온다.
목록을 msgpack 파일에 저장한다.
msgpack을 읽어 이미지마다 SQLite 데이터베이스에 기록하면서 다음 메타데이터를 저장한다.
- 해시
- 파일 크기
- 경로
SQLite 레코드를 하나씩 읽어 CLIP으로 벡터 임베딩을 추출한다.
그 벡터를 다시 SQLite에 저장한다.
SQLite를 다시 순회하며 벡터와 이미지 경로를 ChromaDB에 삽입한다.
끝.

사실 이건 불필요하게 단계가 많다. 이미지를 읽으면서 바로 임베딩을 만들어 ChromaDB에 넣어도 된다(ChromaDB는 간단하고 무료이며 별도 인프라가 필요 없다).

그럼에도 이렇게 짠 이유는 다음과 같다.

밈 이후로 14만 장이 넘는 이미지를 처리해야 했는데, 중간에 크래시가 나면 바로 이어서 실행할 수 있어야 했다.
정전이나 오류가 나더라도 쉽게 재개할 수 있어야 했다.
나는 반복 루프를 좋아한다.

복잡해 보여도 완벽하게 작동했다. 지금까지 20만 장 이상을 크롤링했는데 한 번도 문제없었다.

임베딩 시스템

이미지 인코딩 과정이 특히 재미있었다.

먼저 SigLIP으로 간단한 웹 서비스를 만들어 이미지를 업로드하면 벡터를 반환하도록 했다. 스튜디오의 GPU 서버에서 돌렸는데, 로컬에서 OpenCLIP을 돌릴 때보다 훨씬 빨랐다.

그래도 로컬에서 돌리고 싶었다. ml-explore 레포를 떠올렸는데, 마침 CLIP 구현이 있었다. 큰 모델을 돌려도 RTX 4090보다 빠르다니, 정말 놀라웠다.

MLX_CLIP

Claude와 함께 Apple 예제 스크립트를 변형해 로컬에서 바로 쓸 수 있는 파이썬 클래스로 만들었다.

https://github.com/harperreed/mlx_clip

생각보다 잘 나왔다. 역시 Apple Silicon은 무척 빠르다.

사용법도 의외로 간단했다.

import mlx_clip

# 모델 초기화
clip = mlx_clip.mlx_clip("openai/clip-vit-base-patch32")

# 이미지 임베딩
image_embeddings = clip.image_encoder("assets/cat.jpeg")
print(image_embeddings)

# 텍스트 임베딩
text_embeddings = clip.text_encoder("a photo of a cat")
print(text_embeddings)

SigLIP도 이렇게 돌리고 싶지만, 이번 프로젝트는 개념 증명(POC)에 가깝다. SigLIP을 MLX에서 돌리는 방법을 아시는 분은 연락 주시면(hmu, 연락 주세요) 감사하겠다 👉 harper@modest.com. OpenCLIP을 새로 만들고 싶지는 않다—Apple Silicon에서도 잘 돌아갈 테니 말이다.