lpu-AI学用

Groq 碾压了 Nvidia 还是超越了 OpenAI?

近日，Groq 火爆出圈，groq平台上采用 Mixtral 8x7B-32k 模型可以实现每秒生成 500 个 tokens，GPT-4 （基于 GPU）一般情况下是每秒40 tokens，groq 更是比 GPT-3.5 快 18 倍，自研 LPU（Language Processing Units）推理速度是英伟达GPU的10倍。事实上，groq 并没有研发新模型，它只是一个模型启动器，运行的是开源模型 Mixtral 8x7B-32k 和 Llama 270B-4k。所以，结论一是 groq 超越 ChatGPT 是个伪命题。为什么这么快？出圈的响应速度，来自驱动模型的硬件——Groq并未使用英伟达的GPU，而是自研了新型AI芯片——LPU（Language Processing Units）。 Groq 是一家创建专为运行 AI 语言模型而设计的定制硬件的公司，其使命是提供更快的 AI——准确地说，比普通人打字的速度快 75 倍。Groq（不要与埃隆·马斯克创立的Grok混淆）专门为AI和高性能计算应用程序开发高性能处理器和软件解决方案。 GroqCard™ Accelerator 售价 19,948 美元，可供消费者随时使用，是这项创新的核心。从技术上讲，它拥有高达 750 TOP （INT8）和 188 TFLOPs （FP16 @900 MHz）的性能，以及每个芯片 230 MB 的 SRAM 和高达 80 TB/s 的片上内存带宽，优于传统的 CPU 和 GPU 设置，特别是在 LLM 任务中。这种性能飞跃归因于 LPU 能够显著减少每个字的计算时间并缓解外部内存瓶颈，从而实现更快的文本序列生成。将 Groq LPU 卡与 NVIDIA 的旗舰 A100 GPU 成本相似，Groq 卡在处理大量简单数据（INT8）的速度和效率至关重要的任务中表现出色，即使 A100 使用先进技术来提高其性能。但是，在处理需要更高精度的更复杂的数据处理任务（FP16）时，Groq LPU 无法达到 A100 的性能水平。从本质上讲，这两个组件在 AI 和 ML 计算的不同方面都表现出色，Groq LPU 卡在快速运行 LLMS 方面具有极强的竞争力，而 A100 则在其他地方处于领先地位。Groq 将 LPU 定位为运行 LLM 的工具，而不是原始计算或微调模型。所以，结论二是 groq 和 nvidia 各有千秋。如何使用？不仅快、而且便宜 Groq API 已向开发者提供，并且完全兼容OpenAI API。点击「这里」可以访问groq了解...

赞(0)

publisher2024-02-21工具阅读(913)去评论

标签：lpu

Groq 碾压了 Nvidia 还是超越了 OpenAI?

热门文章

更好地应用AI

共同记录与分享优秀的合规AI平台、AI应用实践、工具以及AI领域最新动态，无论是熊孩子的教育还是一些工作、生活中的任务，都可以让AI这一强大的“副驾驶”帮助我们更接近一个个小目标

切换注册登录

切换登录注册