ChatGPT和大語言模型(LLM)是過去一年多以來科技和投資領域最熱門的話題。大量企業🫅🏼、研究團隊和開源社區的加入,使LLM在短短一年時間內快速發展和迭代。尤其是在開源社區, 參數高效微調(PEFT)、模型輕量化部署以及快速推理等多個方向進展迅速, 使原本昂貴的大模型部署和應用變得逐漸經濟和高效。
為了幫助大家緊跟LLM技術發展的最前沿,意昂体育平台北加州意昂會今年繼續舉辦AI領域的專題講座🖖🏻。在本期講座中🤜🏿,我們非常榮幸地邀請到UC San Diego助理教授張浩博士為大家帶來主題為“大語言模型低延遲推理技術進展”的講座。作為LLM技術的業內專家, 張博士將與大家深入分享他的團隊在LLM推理優化方面的前沿研究成果。我們希望這場講座能使大家清晰地了解LLM在推理中存在的難點和痛點,以及業內學者們正在研發的解決方案🚵🏿♂️。
活動信息
●講座主題:大語言模型低延遲推理技術的新進展
●講座時間➡️:2024年2月18日 (周日), 15:00-16:30 PST
●報名方式:請點擊此處前往Eventbrite報名
●主講人:張浩,UCSD 助理教授

張浩博士是UC San Diego Halıcıoğlu 數據科學學院和計算機科學與工程系的助理教授。在此之前🧑🏫,他於 2014 年至 2020 年在卡內基梅隆大學計算機科學系完成了博士學位,隨後在UC Berkeley擔任博士後研究員。在此期間,張博士曾加入機器學習初創公司 Petuum。
張博士的研究興趣在於機器學習和系統交叉領域。他是UC Berkeley LYMSYS Org的創始人之一🚞,早期工作包括 Vicuna👨🏿🦰、vLLM、Chatbot Arena, 和Alpa等等LLM領域名聲赫赫的項目🧎🏻。他的研究成果獲得了 OSDI'21 的 Jay Lepreau 最佳論文獎和 NeurIPS'17 的 NVIDIA 先鋒研究獎。他於 2023 年聯合創立了 LMnet.ai💩,其早期研究部分成果已在 Petuum 和 AnyScale 等初創公司實現商業化。
●講座摘要:
Large language models (LLMs) like GPT-4 and LLaMA are rapidly reinventing today's applications, but their inference -- based on autoregressive decoding -- is very slow and difficult to optimize. Meeting the service-level objectives (SLOs) of LLM services introduces new challenges as LLM services often emphasize individual latency for each phase: time to first token (TTFT) for the prefill phase and time per output token (TPOT) of each request for the decoding phase.
In this talk, I will introduce two latest techniques we are developing to reduce the LLM inference latency and meet service standards. I will first introduce lookahead decoding, an exact, parallel decoding method that can break the sequential dependency in autoregressive decoding by concurrently extracting and verifying n-grams directly with the LLM, utilizing the Jacobi iteration method. Lookahead decoding linearly decreases the number of decoding steps directly correlating with the log (FLOPs) used per decoding step, making it future-proof.
I’ll then introduce prefill-decoding disaggregation, a new paradigm that assigns prefill and decoding computation to different devices, hence eliminating prefill-decoding interferences. Prefill-decoding disaggregation can improve LLM serving performance by maximizing “goodput” — the number of requests served per second that stay within the service’s latency constraints. Both techniques are being integrated into our current open-source LLM serving system vLLM.
(點擊查看原文)