김형모

Hyung Mo Kim

HPC & ML

Senior ML Software Engineer / Engineering Manager

address

경기도 남양주시 다산동

phone

(+82) 010-4194-6815

mail

kalaluthien@gmail.com

Experiences

GDPR 준수 자동화 시스템 / ML Platform Team, Managing

2024년 ~ 현재, Hyperconnect inc.

  • 사내 클라우드~온프레미스를 포괄하는 전체 학습 인프라에서 문제 발생 가능 지점을 선별하고, 선제 대응
  • 각 부분 별 자동화를 위한 문제 구체화 및 소프트웨어 설계 협업

거대 언어 모델 온프레미스 서빙 / ML Platform Team, Managing

2024년, Hyperconnect inc.

  • 70B LLM을 비용효율적으로 실시간 서빙하기위한 자료 조사 및 벤치마크 수행
  • 이미 구입한 온프레미스를 이용하여 추가 비용없이 서비스 제공하는 시스템 제안
  • 월 수억원 수준의 비용 절감 효과

모바일 서빙 플랫폼 / ML Platform Team

2023년 ~ 현재, Hyperconnect inc.

  • 모바일 추론 기능을 쉽게 통합하기 위한 플랫폼 설계 및 제안
  • 타사 PoC 제공을 위한 iOS 애플리케이션 개발 및 Android 애플리케이션 최적화
  • TFLite / TorchScript / ONNX / CoreML 등 다양한 포맷간 변환, 암호화 및 전처리 삽입을 위한 통합 Python 스크립트 개발
  • 모바일 환경에서의 테스트를 위한 일반화된 벤치마크 애플리케이션 개발

비정형 학습 데이터 파이프라인 구축 / ML Platform Team

2022년 - 2023년, Hyperconnect inc.

  • 도메인/스키마/비즈니스 규칙 변경에 취약하고 백필/카탈로그 등의 기능이 부재한 기존 데이터 파이프라인을, 관련 레거시 프로덕트 이전 일정에 맞춰 대체
  • 기존에 데이터/라벨에 관한 도메인 용어나 시스템이 전무하여, 이를 새로 도입
  • 이미지/오디오/텍스트/비디오 등 다양한 미디어 처리 자동화

모바일 실시간 오디오 분류 모델 추론 / ML Platform Team

2021년, Hyperconnect inc.

  • 기존 키워드 검출 모델의 한계를 개선한 문맥 기반 모델을 Android/iOS 기기에서 실행하는 TFLite 기반 실행기 개발
  • TFLite 모델 변환, 메타데이터 작업 등을 위한 파이썬 도구 고도화
  • 소프트웨어 품질을 위해 추론 엔진 코드 베이스를 새로 구현

거대 언어 모델 추론 서버 최적화 / ML Platform Team

2021년, Hyperconnect inc.

  • NVIDIA FasterTransformer의 CUDA 커널 추가 구현, 버그 수정, 메모리 최적화, 다양한 휴리스틱 구현(13B까지 동작 확인)
  • NVIDIA Triton 추론 서버의 백엔드로 실제 서비스 운영(4B 규모)
  • 기존 기술의 RPS 대비 최대 50배 향상

연구용 온프레미스 GPU 클러스터 구축 및 운영 / ML Platform Team

2020년 - 2024년, Hyperconnect inc.

  • 장비 업체 및 데이터센터 견적 검토 및 지원
  • NVIDIA SuperPod 아키텍처에 기반한 50 PF급 GPU 클러스터 시스템 설계 및 기술 사양 검토
  • AWS 클라우드 대비 2배 이상의 비용 효율 달성
  • 400TB급 분산 스토리지 구성 및 GitOps 기반 관리 시스템 설계
  • Ansible, systemd를 이용하여 slurm 스케줄러를 통해 대규모 분산 학습이 가능한 딥러닝 연구 환경 구성

모바일 실시간 이미지 분류 모델 추론 / ML Platform Team

2020년, Hyperconnect inc.

  • 기존 이미지 분류 모델보다 추론 시간이 빠른 신규 경량 모델을 Android/iOS 기기에서 실행하는 TFLite 기반 실행기 개발
  • TensorFlow 2 Keras quantization 관련 기술 PoC 진행
  • 하드웨어 가속을 위한 TFLite GPU/XNNPack delegate 기술 적용
  • WebRTC 환경에서의 테스트를 위한 Android/iOS 데모앱 개발

국산 슈퍼컴퓨터 천둥(Chundoong) 운영 / System Administrator

2017년 - 2020년, 서울대학교 매니코어 프로그래밍 연구단

  • AMD+NVIDIA 이종 GPU 200개 규모의 수냉/유냉 클러스터 시스템 관리
  • 교육/연구 목적 사용자 300명 이상을 대상으로 서비스

초고성능 프로그래밍 환경 및 계산시스템 개발 / Researcher

2017년 - 2019년, 과학기술정보통신부

  • NVIDIA Tesla V100 32개 규모의 물리적 테스트베드 시스템 구축 및 관리
  • OpenCL 및CUDA 버전의 GPU 벤치마크(SNUNPB 2019) 개발

삼성 NPU (SNPU) 시스템을 위한 딥러닝 프레임워크 개발 / Researcher

2019년, 삼성전자

  • Samsung Neural Processing Unit 성능 분석을 위한 CNN 벤치마크 개발
  • CNN 4종(VGG, ResNet, DenseNet, Inception)의 분산 학습 벤치마크를 cuDNN+MPI로 구현

반도체 오류 분석 연산 속도 개선을 위한 병렬 연산처리기술개발 / Researcher

2017년 - 2019년, SK하이닉스

  • 테스트벤치 시스템을 구축하고, OpenMP, CUDA, MPI를 이용하여 반도체 오류 분석 프로그램을 100배 이상 가속
  • 딥러닝 기술을 이용한 군집 유형 불량 분류 알고리즘 개발을 관리 감독

강의 / Teaching Assistant

2017년 - 2018년, 서울대학교 매니코어 프로그래밍 연구단

  • SNU 4190.414A Multicore Computing (2018년 2학기)
  • SNU 4190.103A Programming Practice (2018년 1학기)
  • SNU 4190.103A Programming Practice (2017년 1학기)
  • 가속기 프로그래밍 겨울학교 (2017년, 2018년)
  • 가속기 프로그래밍 여름학교 (2017년, 2018년)

Education

Master’s degree in CSE / Seoul Nat’l Univ.

2017년 3월 - 2020년 2월

Bachelor’s degree in CSE / Seoul Nat’l Univ.

2013년 3월 - 2017년 2월

Awards

2017 국가슈퍼컴퓨팅 경진대회 최우수상 / 울산과학기술원 총장상

2nd prize, learn more: https://cse.snu.ac.kr/node/28159

Publications

International Papers / Computer Science and Engineering

  1. SNU-NPB 2019: Parallelizing and Optimizing NPB in OpenCL and CUDA for Modern GPUs

Youngdong Do, Hyungmo Kim, Pyeongseok Oh, Daeyoung Pack, Jaejin Lee

IISWC '19: Proceedings of the 2019 IEEE International Symposium on Workload Characterization, Orlando, FL, USA, November 2019, DOI: https://doi.org/10.1109/IISWC47752.2019.9041954

Skills

HPC

  • OpenMP, MPI
  • CUDA, OpenCL
  • ARM Neon
  • cuDNN, cuBLAS, nccl
  • Slurm

ML/DS

  • Tensorflow, Pytorch, vLLM
  • Numpy, Pandas, Transformers
  • TFLite, ONNX, CoreML
  • Triton Inference Server

DevOps (as a user)

  • Kubernetes
  • Grafana, Prometheus
  • GitHub Actions
  • Ansible

Programming languages

  • Writable: C, C++, Python, Kotlin, Swift
  • Readable: Go, Rust, C#, JavaScript, OCamL, Haskell

Tools

  • Bazel
  • XCode, Android Studio, VSCode at the same time