[개발기] Kuberian
-
Intel MKL 과 함께 HF candle 빠르게 만들기[개발기] Kuberian 2023. 8. 15. 18:41
배경설명 이전 프로젝트 이후 바이너리 사이즈는 총 150 MB 내외로 흡족하게 줄였다 콜드부트 타임이 기존 30초 에서 2초로 확 줄었다. 하지만 연산속도는 의외로 느린것으로 판별되었다. BERT, 150 토큰으로 고정시 libtorch /dev/null && \ echo "deb [signed-by=/usr/share/keyrings/oneapi-archive-keyring.gpg] https://apt.repos.intel.com/oneapi all main" | \ sudo tee /etc/apt/sources.list.d/oneAPI.list RUN apt update # for builder RUN apt install -y intel-oneapi-mkl-devel # for runtime en..
-
HuggingFace Candle 로 Inference Service 바이너리 크기 줄이기[개발기] Kuberian 2023. 8. 15. 18:41
배경설명 Kuberian 의 Backend API 는 Cloud Run 환경에서 구동된다 Kuberian 의 컨테이너 크기는 약 800MB 정도이다. rust-bert 프로젝트를 사용하고 있는데, libtorch 에 대한 의존성이 있으며 x86 환경에서 이 .so 파일의 크기가 700MB 정도 한다. 하는거라고는 all-minilm-l6-v2 모델 한번 forward 하는것 밖에 없는데 700MB 는 과하다. Registry 저장소 공간 먹어서 돈 많이나가고, cold start 타임이 30초 정도 걸리는건 둘째치고, 빌드타임도 오래걸린다. 그리고 이 프로젝트는 별도의 DB 가 없는게 미덕이다. 앞으로 1GB 정도는 DB 공간으로 활용하게 될텐데 잘 사용하지도 않을 lib 따위에 700MB 씩이나 쓰는것..