什么是"GGML"?
ggml是一款用于机器学习的张量库,旨在实现大型模型和在普通硬件上实现高性能。它被llama.cpp和whisper.cpp所使用。ggml采用C语言编写,支持16位浮点数、整数量化支持(例如4位、5位、8位)、自动微分、内置优化算法(例如ADAM、L-BFGS),并针对Apple Silicon进行了优化。在x86架构上利用AVX/AVX2指令集,通过WebAssembly和WASM支持Web,具有SIMD、零内存分配等特点。
"GGML"有哪些功能?
- 支持短语音指令检测
- 同时在单个M1 Pro上运行4个实例的13B LLaMA + Whisper Small
- 在M2 Max上以40 tok/s的速度运行7B LLaMA
- 支持Whisper Small编码器、M1 Pro、7个CPU线程:每次运行600毫秒
- 支持Whisper Small编码器、M1 Pro、通过Core ML的ANE:每次运行200毫秒
- 支持7B LLaMA、4位量化、3.5GB、M1 Pro、8个CPU线程:每个标记43毫秒
- 支持13B LLaMA、4位量化、6.8GB、M1 Pro、8个CPU线程:每个标记73毫秒
- 支持7B LLaMA、4位量化、3.5GB、M2 Max GPU:每个标记25毫秒
- 支持13B LLaMA、4位量化、6.8GB、M2 Max GPU:每个标记42毫秒
产品特点:
- 简洁易用,代码库尽可能小而简单
- 采用MIT许可证,开放核心,欢迎所有人加入开发过程
- 鼓励尝试创新想法,构建疯狂演示,推动可能性的边缘
应用场景:
ggml可应用于以下场景:
- 高性能语音识别:通过whisper.cpp实现高质量的语音转文本解决方案,可在多种平台上运行,包括Mac、Windows、Linux、iOS、Android、Raspberry Pi和Web。
- 大型语言模型推理:通过llama.cpp在Apple Silicon硬件上实现高效推理,探索各种优化技术和LLM的应用。
"GGML"如何使用?
如果您对ggml感兴趣,可以通过以下方式使用:
- 贡献代码:最好的支持方式是通过贡献代码来支持项目。
- 财政支持:如果您希望在财务上支持项目,请考虑成为已经参与其中的贡献者的赞助商。
- 商业咨询:如有任何与商业相关的问题,包括支持或企业部署,请通过sales@ggml.ai与我们联系。
数据统计
相关导航
暂无评论...