原理から理解する深層モデルの推論サーバーのスレッド数チューニング

Sessions
AI

DAY 1 13:30-14:00 Main Room A

配信あり

原理から理解する深層モデルの推論サーバーのスレッド数チューニング

機械学習モデルによる予測をリアルタイムに提供するためには推論サーバーが不可欠です。CPUで推論を実行するときには、スレッド数の設定がシステムパフォーマンスに大きく影響します。適切な設定を行うことでスループットが数倍向上することも珍しくありません。

本セッションでは推論サーバーのスレッド数チューニングの方法について、その原理から解説します。Triton Inference Serverを例に推論サーバーがどのようにCPUスレッドを割り当てているか、またその結果としてレイテンシーとスループットのトレードオフが発生することを説明します。これらのメカニズムを理解することで、参加者の皆さんが見通しをもってスレッド数チューニングを行えるようになることが今回の講演の目標です。

Video Presentation Materials

Speaker

湛溢洋 / LINEヤフー

Data Group

2017年ヤフーに入社。Pythonとパフォーマンスエンジニアリングが好き。

Back to Sessions