DAY 1 13:30-14:00 Main Room A
JaEnKo
스트리밍 있음

원리부터 이해하는 심층 모델 추론 서버의 스레드 수 조정

기계 학습 모델로 실시간 예측을 제공하기 위해서는 추론 서버가 필수적입니다. CPU에서 추론을 실행할 때, 스레드 수 설정은 시스템 성능에 큰 영향을 미칩니다. 적절한 설정을 통해 처리량이 몇 배 향상되는 것도 드문 일이 아닙니다.

이번 세션에서는 추론 서버의 스레드 수 조정 방법에 대해 원리부터 설명합니다. Triton Inference Server를 예로 들어, 추론 서버가 CPU 스레드를 어떻게 할당하는지, 그리고 그 결과로 레이턴시와 처리량 간의 트레이드오프가 발생하는지를 설명합니다. 이러한 메커니즘을 이해함으로써 참가자들이 스레드 수 조정을 전망을 가지고 수행할 수 있도록 하는 것이 이번 강연의 목표입니다.

Speaker

Zhan Yiyang

Zhan Yiyang / LY Corporation

Data Group

  • X
  • Facebook
  • GitHub

2017년에 Yahoo Japan Corporation에 입사. Python과 성능 엔지니어링을 좋아합니다.

Back to Sessions