ChatGPT和大语言模型(LLM)是过去一年多以来科技和投资领域最热门的话题。大量公司、研究团队和开源社区的加入,使LLM在短短一年时间内快速发展和迭代。尤其是在开源社区, 参数高效微调(PEFT)、模型轻量化部署以及快速推理等多个方向进展迅速, 使原本昂贵的大模型部署和应用变得逐渐经济和高效。
为了帮助大家紧跟尝尝惭技术发展的最前沿,国产一区二区三区视频精品北加州校友会今年继续举办础滨领域的专题讲座。在本期讲座中,我们非常荣幸地邀请到UC San Diego助理教授张浩博士为大家带来主题为“大语言模型低延迟推理技术进展”的讲座。作为LLM技术的业内专家, 张博士将与大家深入分享他的团队在LLM推理优化方面的前沿研究成果。我们希望这场讲座能使大家清晰地了解LLM在推理中存在的难点和痛点,以及业内学者们正在研发的解决方案。
活动信息
●讲座主题:大语言模型低延迟推理技术的新进展
●讲座时间:2024年2月18日 (周日), 15:00-16:30 PST
●报名方式:请点击前往贰惫别苍迟产谤颈迟别报名
●主讲人:,UCSD 助理教授
张浩博士是UC San Diego Hal?c?o?lu 数据科学学院和计算机科学与工程系的助理教授。在此之前,他于 2014 年至 2020 年在卡内基梅隆大学计算机科学系完成了博士学位,随后在UC Berkeley担任博士后研究员。在此期间,张博士曾加入机器学习初创公司 Petuum。
张博士的研究兴趣在于机器学习和系统交叉领域。他是UC Berkeley LYMSYS Org的创始人之一,早期工作包括 Vicuna、vLLM、Chatbot Arena, 和Alpa等等LLM领域名声赫赫的项目。他的研究成果获得了 OSDI'21 的 Jay Lepreau 最佳论文奖和 NeurIPS'17 的 NVIDIA 先锋研究奖。他于 2023 年联合创立了 LMnet.ai,其早期研究部分成果已在 Petuum 和 AnyScale 等初创公司实现商业化。
●讲座摘要:
Large language models (LLMs) like GPT-4 and LLaMA are rapidly reinventing today's applications, but their inference -- based on autoregressive decoding -- is very slow and difficult to optimize. Meeting the service-level objectives (SLOs) of LLM services introduces new challenges as LLM services often emphasize individual latency for each phase: time to first token (TTFT) for the prefill phase and time per output token (TPOT) of each request for the decoding phase.
In this talk, I will introduce two latest techniques we are developing to reduce the LLM inference latency and meet service standards. I will first introduce lookahead decoding, an exact, parallel decoding method that can break the sequential dependency in autoregressive decoding by concurrently extracting and verifying n-grams directly with the LLM, utilizing the Jacobi iteration method. Lookahead decoding linearly decreases the number of decoding steps directly correlating with the log (FLOPs) used per decoding step, making it future-proof.
I’ll then introduce prefill-decoding disaggregation, a new paradigm that assigns prefill and decoding computation to different devices, hence eliminating prefill-decoding interferences. Prefill-decoding disaggregation can improve LLM serving performance by maximizing “goodput” — the number of requests served per second that stay within the service’s latency constraints. Both techniques are being integrated into our current open-source LLM serving system vLLM.