 <?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-CN">
		<id>http://wiki.sseuu.com/index.php?action=history&amp;feed=atom&amp;title=SGLang</id>
		<title>SGLang - 版本历史</title>
		<link rel="self" type="application/atom+xml" href="http://wiki.sseuu.com/index.php?action=history&amp;feed=atom&amp;title=SGLang"/>
		<link rel="alternate" type="text/html" href="http://wiki.sseuu.com/index.php?title=SGLang&amp;action=history"/>
		<updated>2026-04-29T23:23:20Z</updated>
		<subtitle>本wiki的该页面的版本历史</subtitle>
		<generator>MediaWiki 1.30.0</generator>

	<entry>
		<id>http://wiki.sseuu.com/index.php?title=SGLang&amp;diff=122985&amp;oldid=prev</id>
		<title>江南仁：创建页面，内容为“{{4}} SGLang是一种专为大型语言模型（LLM）程序设计的结构化语言模型程序的高效执行系统。它旨在解决在编程和执行复杂…”</title>
		<link rel="alternate" type="text/html" href="http://wiki.sseuu.com/index.php?title=SGLang&amp;diff=122985&amp;oldid=prev"/>
				<updated>2025-02-05T13:06:02Z</updated>
		
		<summary type="html">&lt;p&gt;创建页面，内容为“{{4}} SGLang是一种专为大型语言模型（&lt;a href=&quot;/index.php?title=LLM&quot; title=&quot;LLM&quot;&gt;LLM&lt;/a&gt;）程序设计的结构化语言模型程序的高效执行系统。它旨在解决在编程和执行复杂…”&lt;/p&gt;
&lt;p&gt;&lt;b&gt;新页面&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{4}}&lt;br /&gt;
SGLang是一种专为大型语言模型（[[LLM]]）程序设计的结构化语言模型程序的高效执行系统。它旨在解决在编程和执行复杂[[LLM]]应用程序时遇到的效率低下问题。以下是关于SGLang的详细解释：&lt;br /&gt;
&lt;br /&gt;
'''一、系统构成'''&lt;br /&gt;
&lt;br /&gt;
SGLang包含前端语言和后端运行时两个部分：&lt;br /&gt;
&lt;br /&gt;
'''前端语言：'''SGLang前端是一种嵌入在Python中的领域特定语言（DSL），它提供了一组专门设计用于简化[[LLM]]编程的原语。这些原语使得开发者可以对提示和生成进行操作（如extend、gen、select），并控制并行性（如fork、join）。SGLang与Python的控制流和库兼容，允许开发者使用原生Python语法轻松开发高级提示工作流。&lt;br /&gt;
&lt;br /&gt;
后端运行时：SGLang后端运行时提出了几项新颖的优化技术来加速[[LLM]]程序的执行，包括RadixAttention和压缩有限状态机等。&lt;br /&gt;
&lt;br /&gt;
'''二、核心技术'''&lt;br /&gt;
&lt;br /&gt;
'''RadixAttention：'''此技术可在多个生成调用之间自动重用KV缓存。在现有的推理引擎中，请求的KV缓存在处理后会被丢弃，从而无法在多个调用之间重用，并会降低执行速度。而SGLang在基数树中维护KV缓存的LRU缓存，将KV缓存作为传统缓存进行管理，并使用基数树进行高效的匹配、插入和逐出。这允许运行时高效处理各种重用模式。&lt;br /&gt;
&lt;br /&gt;
压缩有限状态机：此技术可实现结构化输出的更快约束解码。现有系统仅遵循下一个标记的约束，因此每次只能解码一个标记。相反，SGLang会分析这些约束并构建一个压缩有限状态机来表示它们，尽可能将多标记路径压缩为单步路径，从而可以一次解码多个标记，提高速度。&lt;br /&gt;
&lt;br /&gt;
'''三、应用场景'''&lt;br /&gt;
&lt;br /&gt;
SGLang可用于各种[[LLM]]应用程序，包括代理控制、逻辑推理、小样本学习基准、JSON解码、检索增强生成管道、多轮聊天和多模态处理等。通过使用SGLang，开发者可以简化[[LLM]]程序的编写，提高执行效率，并增强对[[LLM]]生成过程的控制能力。&lt;br /&gt;
&lt;br /&gt;
'''四、性能优势'''&lt;br /&gt;
&lt;br /&gt;
实验表明，与各种大型语言和多模态模型上的最先进推理系统相比，SGLang实现了高达6.4倍的吞吐量。这主要得益于其高效的执行引擎和针对[[LLM]]编程的专门优化。&lt;br /&gt;
&lt;br /&gt;
综上所述，SGLang是一种专为大型语言模型程序设计的高效执行系统，它通过提供前端语言和后端运行时优化技术，简化了[[LLM]]程序的编写并提高了执行效率。&lt;/div&gt;</summary>
		<author><name>江南仁</name></author>	</entry>

	</feed>