機械学習モデルによる予測をリアルタイムに提供するためには推論サーバーが不可欠です。CPUで推論を実行するときには、スレッド数の設定がシステムパフォーマンスに大きく影響します。適切な設定を行うことでスループットが数倍向上することも珍しくありません。
本セッションでは推論サーバーのスレッド数チューニングの方法について、その原理から解説します。Triton Inference Serverを例に推論サーバーがどのようにCPUスレッドを割り当てているか、またその結果としてレイテンシーとスループットのトレードオフが発生することを説明します。これらのメカニズムを理解することで、参加者の皆さんが見通しをもってスレッド数チューニングを行えるようになることが今回の講演の目標です。