김형모 Hyung Mo Kim
HPC & ML | 
Senior ML Software Engineer / Engineering Manager
|
ㅡ Experiences | 
GDPR 준수 자동화 시스템 / ML Platform Team, Managing2024년 ~ 현재, Hyperconnect inc.- 사내 클라우드~온프레미스를 포괄하는 전체 학습 인프라에서 문제 발생 가능 지점을 선별하고, 선제 대응
- 각 부분 별 자동화를 위한 문제 구체화 및 소프트웨어 설계 협업
거대 언어 모델 온프레미스 서빙 / ML Platform Team, Managing2024년, Hyperconnect inc.- 70B LLM을 비용효율적으로 실시간 서빙하기위한 자료 조사 및 벤치마크 수행
- 이미 구입한 온프레미스를 이용하여 추가 비용없이 서비스 제공하는 시스템 제안
- 월 수억원 수준의 비용 절감 효과
모바일 서빙 플랫폼 / ML Platform Team2023년 ~ 현재, Hyperconnect inc.- 모바일 추론 기능을 쉽게 통합하기 위한 플랫폼 설계 및 제안
- 타사 PoC 제공을 위한 iOS 애플리케이션 개발 및 Android 애플리케이션 최적화
- TFLite / TorchScript / ONNX / CoreML 등 다양한 포맷간 변환, 암호화 및 전처리 삽입을 위한 통합 Python 스크립트 개발
- 모바일 환경에서의 테스트를 위한 일반화된 벤치마크 애플리케이션 개발
비정형 학습 데이터 파이프라인 구축 / ML Platform Team2022년 - 2023년, Hyperconnect inc.- 도메인/스키마/비즈니스 규칙 변경에 취약하고 백필/카탈로그 등의 기능이 부재한 기존 데이터 파이프라인을, 관련 레거시 프로덕트 이전 일정에 맞춰 대체
- 기존에 데이터/라벨에 관한 도메인 용어나 시스템이 전무하여, 이를 새로 도입
- 이미지/오디오/텍스트/비디오 등 다양한 미디어 처리 자동화
모바일 실시간 오디오 분류 모델 추론 / ML Platform Team2021년, Hyperconnect inc.- 기존 키워드 검출 모델의 한계를 개선한 문맥 기반 모델을 Android/iOS 기기에서 실행하는 TFLite 기반 실행기 개발
- TFLite 모델 변환, 메타데이터 작업 등을 위한 파이썬 도구 고도화
- 소프트웨어 품질을 위해 추론 엔진 코드 베이스를 새로 구현
거대 언어 모델 추론 서버 최적화 / ML Platform Team2021년, Hyperconnect inc.- NVIDIA FasterTransformer의 CUDA 커널 추가 구현, 버그 수정, 메모리 최적화, 다양한 휴리스틱 구현(13B까지 동작 확인)
- NVIDIA Triton 추론 서버의 백엔드로 실제 서비스 운영(4B 규모)
- 기존 기술의 RPS 대비 최대 50배 향상
연구용 온프레미스 GPU 클러스터 구축 및 운영 / ML Platform Team2020년 - 2024년, Hyperconnect inc.- 장비 업체 및 데이터센터 견적 검토 및 지원
- NVIDIA SuperPod 아키텍처에 기반한 50 PF급 GPU 클러스터 시스템 설계 및 기술 사양 검토
- AWS 클라우드 대비 2배 이상의 비용 효율 달성
- 400TB급 분산 스토리지 구성 및 GitOps 기반 관리 시스템 설계
- Ansible, systemd를 이용하여 slurm 스케줄러를 통해 대규모 분산 학습이 가능한 딥러닝 연구 환경 구성
모바일 실시간 이미지 분류 모델 추론 / ML Platform Team2020년, Hyperconnect inc.- 기존 이미지 분류 모델보다 추론 시간이 빠른 신규 경량 모델을 Android/iOS 기기에서 실행하는 TFLite 기반 실행기 개발
- TensorFlow 2 Keras quantization 관련 기술 PoC 진행
- 하드웨어 가속을 위한 TFLite GPU/XNNPack delegate 기술 적용
- WebRTC 환경에서의 테스트를 위한 Android/iOS 데모앱 개발
국산 슈퍼컴퓨터 천둥(Chundoong) 운영 / System Administrator2017년 - 2020년, 서울대학교 매니코어 프로그래밍 연구단- AMD+NVIDIA 이종 GPU 200개 규모의 수냉/유냉 클러스터 시스템 관리
- 교육/연구 목적 사용자 300명 이상을 대상으로 서비스
초고성능 프로그래밍 환경 및 계산시스템 개발 / Researcher2017년 - 2019년, 과학기술정보통신부- NVIDIA Tesla V100 32개 규모의 물리적 테스트베드 시스템 구축 및 관리
- OpenCL 및CUDA 버전의 GPU 벤치마크(SNUNPB 2019) 개발
삼성 NPU (SNPU) 시스템을 위한 딥러닝 프레임워크 개발 / Researcher2019년, 삼성전자- Samsung Neural Processing Unit 성능 분석을 위한 CNN 벤치마크 개발
- CNN 4종(VGG, ResNet, DenseNet, Inception)의 분산 학습 벤치마크를 cuDNN+MPI로 구현
반도체 오류 분석 연산 속도 개선을 위한 병렬 연산처리기술개발 / Researcher2017년 - 2019년, SK하이닉스- 테스트벤치 시스템을 구축하고, OpenMP, CUDA, MPI를 이용하여 반도체 오류 분석 프로그램을 100배 이상 가속
- 딥러닝 기술을 이용한 군집 유형 불량 분류 알고리즘 개발을 관리 감독
강의 / Teaching Assistant2017년 - 2018년, 서울대학교 매니코어 프로그래밍 연구단- SNU 4190.414A Multicore Computing (2018년 2학기)
- SNU 4190.103A Programming Practice (2018년 1학기)
- SNU 4190.103A Programming Practice (2017년 1학기)
- 가속기 프로그래밍 겨울학교 (2017년, 2018년)
- 가속기 프로그래밍 여름학교 (2017년, 2018년)
|
ㅡ Education | 
Master’s degree in CSE / Seoul Nat’l Univ.2017년 3월 - 2020년 2월Bachelor’s degree in CSE / Seoul Nat’l Univ.2013년 3월 - 2017년 2월 |
ㅡ Awards | 
2017 국가슈퍼컴퓨팅 경진대회 최우수상 / 울산과학기술원 총장상 |
ㅡ Publications | 
International Papers / Computer Science and Engineering- SNU-NPB 2019: Parallelizing and Optimizing NPB in OpenCL and CUDA for Modern GPUs
Youngdong Do, Hyungmo Kim, Pyeongseok Oh, Daeyoung Pack, Jaejin Lee IISWC '19: Proceedings of the 2019 IEEE International Symposium on Workload Characterization, Orlando, FL, USA, November 2019, DOI: https://doi.org/10.1109/IISWC47752.2019.9041954 |
ㅡ Skills | 
HPC- OpenMP, MPI
- CUDA, OpenCL
- ARM Neon
- cuDNN, cuBLAS, nccl
- Slurm
ML/DS- Tensorflow, Pytorch, vLLM
- Numpy, Pandas, Transformers
- TFLite, ONNX, CoreML
- Triton Inference Server
DevOps (as a user)- Kubernetes
- Grafana, Prometheus
- GitHub Actions
- Ansible
Programming languages- Writable: C, C++, Python, Kotlin, Swift
- Readable: Go, Rust, C#, JavaScript, OCamL, Haskell
Tools- Bazel
- XCode, Android Studio, VSCode at the same time
|