DAY 1 13:30-14:00 Main Room A
JaEnKo
配信あり

原理から理解する深層モデルの推論サーバーのスレッド数チューニング

機械学習モデルによる予測をリアルタイムに提供するためには推論サーバーが不可欠です。CPUで推論を実行するときには、スレッド数の設定がシステムパフォーマンスに大きく影響します。適切な設定を行うことでスループットが数倍向上することも珍しくありません。

本セッションでは推論サーバーのスレッド数チューニングの方法について、その原理から解説します。Triton Inference Serverを例に推論サーバーがどのようにCPUスレッドを割り当てているか、またその結果としてレイテンシーとスループットのトレードオフが発生することを説明します。これらのメカニズムを理解することで、参加者の皆さんが見通しをもってスレッド数チューニングを行えるようになることが今回の講演の目標です。

Speaker

湛溢洋

湛溢洋 / LINEヤフー

Data Group

  • X
  • Facebook
  • GitHub

2017年ヤフーに入社。Pythonとパフォーマンスエンジニアリングが好き。

Back to Sessions