摘要:TritonLLM v0.1.0版本已经发布,已经可以pip install安装。gpt-oss-20b的decode速度从官方发布的90tokens/s来到了136tokens/s。本文记录下影响性能的优化以及我的一些错误优化的过程。
TritonLLM v0.1.0: 大模型的Triton之路
本文来自博客园,作者:暴力都不会的蒟蒻,转载请注明原文链接:https://www.cnblogs.com/BobHuang/p/19071029
摘要:TritonLLM v0.1.0版本已经发布,已经可以pip install安装。gpt-oss-20b的decode速度从官方发布的90tokens/s来到了136tokens/s。本文记录下影响性能的优化以及我的一些错误优化的过程。
本文来自博客园,作者:暴力都不会的蒟蒻,转载请注明原文链接:https://www.cnblogs.com/BobHuang/p/19071029