AI初创公司Groq–自研LPU速度碾压英伟达GPU

人工智能能为人类做什么、可能做什么以及未来几年会做什么，我们还只是窥其皮毛，Groq 希望成为这场革命的中心。

语言处理单元（LPU）是Groq的赚钱利器，它是一种新型芯片，不是用于训练人工智能模型，而是用于快速运行这些模型；在 Groq 上运行大模型的推理速度，较英伟达 GPU 提高 10 倍，而成本只有其十分之一。

GroqChip 目前是一款 14 纳米制程的处理器，其性能得益于规模优势，可在云中作为结构良好的单元集群高效解析数据。

Groq 的 LPU 不需要像 Nvidia GPU 那样快速的数据传输。与利用高带宽内存（HBM）的 GPU 不同，Groq 的 LPU 利用 SRAM 进行数据处理，其速度比 GPU 所用的存储器快约20倍。
获得延迟极低的人工智能推理能力有助于消除人工智能解决方案交付过程中的一些瓶颈。例如，文本到语音和反向语音可以实时进行，从而实现与人工智能助手的自然对话，包括允许您打断它。

许多试图在人工智能领域与 Nvidia 竞争的公司都在追逐训练市场，但 Groq 决定专注于运行模型。

“我们一直专注于提供无与伦比的推理速度和低延迟，”Groq 首席布道师马克-希普（Mark Heap）在与 Tom’s Guide 对话时解释道。”在生成式人工智能应用变得无处不在的今天，这一点至关重要。”

这些芯片由 Groq 创始人兼首席执行官乔纳森-罗斯（Jonathan Ross）设计，他还领导了谷歌用于训练和运行Gemini的张量处理单元（TPU）的开发。

Heaps解释说，它的工作原理更像是一个规划好的网格化城市，交通参与者知道该往哪里走，可以很容易地按照布局行驶，而其他芯片就像是在德里开车，道路布局复杂，交通繁忙。

“我们的架构允许我们在不牺牲速度或效率的情况下横向扩展… 对于处理密集型人工智能任务而言，这将改变游戏规则。
公司的建立基于一系列核心支柱，包括解决延迟问题，同时确保整个项目的可扩展性。这主要是通过公司自己的云基础设施实现的，更多的全球数据中心将在今年或明年上线。

虽然无人驾驶汽车等边缘设备可能会在第二版将芯片缩小到 4 纳米后变得可行，但目前的重点纯粹是云。

这包括通过 API 为第三方开发者提供高速、可靠地访问 Mistral 或 Meta 等开源模型的途径。此外，还有一个直接面向消费者的聊天机器人界面，名为 GroqChat。

正是这个公开且易于访问的界面的推出，似乎将这家成立六年的公司推向了舆论的风口浪尖。他们一直在后台工作，包括在 Covid 大流行期间为实验室提供快速数据处理，但这是一个关键时刻。
Heaps和乔纳森-罗斯讨论的结果是 “我们为什么不直接把它放上去，让大家都能试试”。在此之前，GroqChips 曾在公司内部试验过在 GroqChips 上运行 Llama 2 和 Mixtral 等开源模型。

罗斯告诉团队把它作为主页。从表面上看，这是人们访问 Groq 网站时首先看到的内容。”这有点吓人，”Heaps 承认。”他的目标是我希望网站上没有营销页面。我只希望是聊天。” 于是，他们就这样实施了。

利用低延迟ai可以做什么?

低延迟人工智能可实现真正的实时生成。目前的重点是大型语言模型，包括代码和文本。我们看到每秒可生成多达 500 个词组，这比人类的阅读速度快几十倍，即使是复杂的查询也是如此。

很快就会有新的模型加入，但随后他们将致力于提供同样快速的图像、音频甚至视频生成。这才是真正的优势所在，包括在高分辨率下也能实时生成图像。

另一个显著优势是能够从一个大的上下文窗口中找到一条信息，不过这是在未来的版本中，你甚至可以对模型进行实时微调，从人机交互中学习并调整。

这样就可以实现真正的开放世界游戏，类似于欧内斯特-克莱恩（Ernest Cline）的开创性小说《玩家一号》（Ready Player One）中的 “绿洲”。实时的人工智能渲染和再训练可以实现所需的适应性，以反映来自多个玩家的大量互动和变化。
Groq公司自2016年成立以来，前几年的大部分时间都在完善技术。这包括与实验室和公司合作，加快复杂机器学习任务（如药物发现或流动动力学）的运行时间。

运行 LLM 的转折点与 ChatGPT 的兴起以及 Meta 的 Llama 大型语言模型的泄露不谋而合。

我们可以预见的一点是，这个技术已经在颠覆整个ai技术领域。我们看到人工智能个人电脑和本地硬件的兴起，但随着互联网连接的改善和延迟问题的解决，它们还需要吗？

发布者：ai发烧友，转转请注明出处：http://www.ouzou.cn/ai-jishu/4363.html