기계 학습 모델로 실시간 예측을 제공하기 위해서는 추론 서버가 필수적입니다. CPU에서 추론을 실행할 때, 스레드 수 설정은 시스템 성능에 큰 영향을 미칩니다. 적절한 설정을 통해 처리량이 몇 배 향상되는 것도 드문 일이 아닙니다.
이번 세션에서는 추론 서버의 스레드 수 조정 방법에 대해 원리부터 설명합니다. Triton Inference Server를 예로 들어, 추론 서버가 CPU 스레드를 어떻게 할당하는지, 그리고 그 결과로 레이턴시와 처리량 간의 트레이드오프가 발생하는지를 설명합니다. 이러한 메커니즘을 이해함으로써 참가자들이 스레드 수 조정을 전망을 가지고 수행할 수 있도록 하는 것이 이번 강연의 목표입니다.