김형모

Hyung Mo Kim

HPC & ML

Senior ML Software Engineer / Engineering Manager

address	경기도 남양주시 다산동
phone	(+82) 010-4194-6815
mail	kalaluthien@gmail.com

ㅡ

Experiences

GDPR 준수 자동화 시스템 / ML Platform Team, Managing

2024년 ~ 현재, Hyperconnect inc.

사내 클라우드~온프레미스를 포괄하는 전체 학습 인프라에서 문제 발생 가능 지점을 선별하고, 선제 대응
각 부분 별 자동화를 위한 문제 구체화 및 소프트웨어 설계 협업

거대 언어 모델 온프레미스 서빙 / ML Platform Team, Managing

2024년, Hyperconnect inc.

70B LLM을 비용효율적으로 실시간 서빙하기위한 자료 조사 및 벤치마크 수행
이미 구입한 온프레미스를 이용하여 추가 비용없이 서비스 제공하는 시스템 제안
월 수억원 수준의 비용 절감 효과

모바일 서빙 플랫폼 / ML Platform Team

2023년 ~ 현재, Hyperconnect inc.

모바일 추론 기능을 쉽게 통합하기 위한 플랫폼 설계 및 제안
타사 PoC 제공을 위한 iOS 애플리케이션 개발 및 Android 애플리케이션 최적화
TFLite / TorchScript / ONNX / CoreML 등 다양한 포맷간 변환, 암호화 및 전처리 삽입을 위한 통합 Python 스크립트 개발
모바일 환경에서의 테스트를 위한 일반화된 벤치마크 애플리케이션 개발

비정형 학습 데이터 파이프라인 구축 / ML Platform Team

2022년 - 2023년, Hyperconnect inc.

도메인/스키마/비즈니스 규칙 변경에 취약하고 백필/카탈로그 등의 기능이 부재한 기존 데이터 파이프라인을, 관련 레거시 프로덕트 이전 일정에 맞춰 대체
기존에 데이터/라벨에 관한 도메인 용어나 시스템이 전무하여, 이를 새로 도입
이미지/오디오/텍스트/비디오 등 다양한 미디어 처리 자동화

모바일 실시간 오디오 분류 모델 추론 / ML Platform Team

2021년, Hyperconnect inc.

기존 키워드 검출 모델의 한계를 개선한 문맥 기반 모델을 Android/iOS 기기에서 실행하는 TFLite 기반 실행기 개발
TFLite 모델 변환, 메타데이터 작업 등을 위한 파이썬 도구 고도화
소프트웨어 품질을 위해 추론 엔진 코드 베이스를 새로 구현

거대 언어 모델 추론 서버 최적화 / ML Platform Team

2021년, Hyperconnect inc.

NVIDIA FasterTransformer의 CUDA 커널 추가 구현, 버그 수정, 메모리 최적화, 다양한 휴리스틱 구현(13B까지 동작 확인)
NVIDIA Triton 추론 서버의 백엔드로 실제 서비스 운영(4B 규모)
기존 기술의 RPS 대비 최대 50배 향상

연구용 온프레미스 GPU 클러스터 구축 및 운영 / ML Platform Team

2020년 - 2024년, Hyperconnect inc.

장비 업체 및 데이터센터 견적 검토 및 지원
NVIDIA SuperPod 아키텍처에 기반한 50 PF급 GPU 클러스터 시스템 설계 및 기술 사양 검토
AWS 클라우드 대비 2배 이상의 비용 효율 달성
400TB급 분산 스토리지 구성 및 GitOps 기반 관리 시스템 설계
Ansible, systemd를 이용하여 slurm 스케줄러를 통해 대규모 분산 학습이 가능한 딥러닝 연구 환경 구성

모바일 실시간 이미지 분류 모델 추론 / ML Platform Team

2020년, Hyperconnect inc.

기존 이미지 분류 모델보다 추론 시간이 빠른 신규 경량 모델을 Android/iOS 기기에서 실행하는 TFLite 기반 실행기 개발
TensorFlow 2 Keras quantization 관련 기술 PoC 진행
하드웨어 가속을 위한 TFLite GPU/XNNPack delegate 기술 적용
WebRTC 환경에서의 테스트를 위한 Android/iOS 데모앱 개발

국산 슈퍼컴퓨터 천둥(Chundoong) 운영 / System Administrator

2017년 - 2020년, 서울대학교 매니코어 프로그래밍 연구단

AMD+NVIDIA 이종 GPU 200개 규모의 수냉/유냉 클러스터 시스템 관리
교육/연구 목적 사용자 300명 이상을 대상으로 서비스

초고성능 프로그래밍 환경 및 계산시스템 개발 / Researcher

2017년 - 2019년, 과학기술정보통신부

NVIDIA Tesla V100 32개 규모의 물리적 테스트베드 시스템 구축 및 관리
OpenCL 및CUDA 버전의 GPU 벤치마크(SNUNPB 2019) 개발

삼성 NPU (SNPU) 시스템을 위한 딥러닝 프레임워크 개발 / Researcher

2019년, 삼성전자

Samsung Neural Processing Unit 성능 분석을 위한 CNN 벤치마크 개발
CNN 4종(VGG, ResNet, DenseNet, Inception)의 분산 학습 벤치마크를 cuDNN+MPI로 구현

반도체 오류 분석 연산 속도 개선을 위한 병렬 연산처리기술개발 / Researcher

2017년 - 2019년, SK하이닉스

테스트벤치 시스템을 구축하고, OpenMP, CUDA, MPI를 이용하여 반도체 오류 분석 프로그램을 100배 이상 가속
딥러닝 기술을 이용한 군집 유형 불량 분류 알고리즘 개발을 관리 감독

강의 / Teaching Assistant

2017년 - 2018년, 서울대학교 매니코어 프로그래밍 연구단

SNU 4190.414A Multicore Computing (2018년 2학기)
SNU 4190.103A Programming Practice (2018년 1학기)
SNU 4190.103A Programming Practice (2017년 1학기)
가속기 프로그래밍 겨울학교 (2017년, 2018년)
가속기 프로그래밍 여름학교 (2017년, 2018년)

ㅡ

Education

Master’s degree in CSE / Seoul Nat’l Univ.

2017년 3월 - 2020년 2월

SNU Thunder research group (http://aces.snu.ac.kr/)

Bachelor’s degree in CSE / Seoul Nat’l Univ.

2013년 3월 - 2017년 2월

ㅡ

Awards

2017 국가슈퍼컴퓨팅 경진대회 최우수상 / 울산과학기술원 총장상

2nd prize, learn more: https://cse.snu.ac.kr/node/28159

ㅡ

Publications

International Papers / Computer Science and Engineering

SNU-NPB 2019: Parallelizing and Optimizing NPB in OpenCL and CUDA for Modern GPUs

Youngdong Do, Hyungmo Kim, Pyeongseok Oh, Daeyoung Pack, Jaejin Lee

IISWC '19: Proceedings of the 2019 IEEE International Symposium on Workload Characterization, Orlando, FL, USA, November 2019, DOI: https://doi.org/10.1109/IISWC47752.2019.9041954

ㅡ

Skills

HPC

OpenMP, MPI
CUDA, OpenCL
ARM Neon
cuDNN, cuBLAS, nccl
Slurm

ML/DS

Tensorflow, Pytorch, vLLM
Numpy, Pandas, Transformers
TFLite, ONNX, CoreML
Triton Inference Server

DevOps (as a user)

Kubernetes
Grafana, Prometheus
GitHub Actions
Ansible

Programming languages

Writable: C, C++, Python, Kotlin, Swift
Readable: Go, Rust, C#, JavaScript, OCamL, Haskell

Tools

Bazel
XCode, Android Studio, VSCode at the same time