GGML

什么是"GGML"？

ggml是一款用于机器学习的张量库，旨在实现大型模型和在普通硬件上实现高性能。它被llama.cpp和whisper.cpp所使用。ggml采用C语言编写，支持16位浮点数、整数量化支持（例如4位、5位、8位）、自动微分、内置优化算法（例如ADAM、L-BFGS），并针对Apple Silicon进行了优化。在x86架构上利用AVX/AVX2指令集，通过WebAssembly和WASM支持Web，具有SIMD、零内存分配等特点。

"GGML"有哪些功能？

支持短语音指令检测
同时在单个M1 Pro上运行4个实例的13B LLaMA + Whisper Small
在M2 Max上以40 tok/s的速度运行7B LLaMA
支持Whisper Small编码器、M1 Pro、7个CPU线程：每次运行600毫秒
支持Whisper Small编码器、M1 Pro、通过Core ML的ANE：每次运行200毫秒
支持7B LLaMA、4位量化、3.5GB、M1 Pro、8个CPU线程：每个标记43毫秒
支持13B LLaMA、4位量化、6.8GB、M1 Pro、8个CPU线程：每个标记73毫秒
支持7B LLaMA、4位量化、3.5GB、M2 Max GPU：每个标记25毫秒
支持13B LLaMA、4位量化、6.8GB、M2 Max GPU：每个标记42毫秒

产品特点：

简洁易用，代码库尽可能小而简单
采用MIT许可证，开放核心，欢迎所有人加入开发过程
鼓励尝试创新想法，构建疯狂演示，推动可能性的边缘

应用场景：

ggml可应用于以下场景：

高性能语音识别：通过whisper.cpp实现高质量的语音转文本解决方案，可在多种平台上运行，包括Mac、Windows、Linux、iOS、Android、Raspberry Pi和Web。
大型语言模型推理：通过llama.cpp在Apple Silicon硬件上实现高效推理，探索各种优化技术和LLM的应用。

"GGML"如何使用？

如果您对ggml感兴趣，可以通过以下方式使用：