Constme-Whisper是OpenAI的Whisper自动语音识别ASR模型的衍生项目。Constme-Whisper可以在Windows上使用,支持高性能GPGPU处理,可以利用GPU加速处理。
本体是个启动器,需要结合一个语言识别模型文件(ggml-tiny、ggml-small、ggml-base、ggml-medium、ggml-large)使用,模型越大,效果越好,但相对的速度也更慢。
软件特点:
1. 基于DirectCompute的与供应商无关的GPGPU:使用DirectCompute技术进行高性能通用计算,也称为“Direct3D 11中的计算着色器”。
2. 纯C++实现:除了基本的操作系统组件外,没有运行时依赖关系,使得软件更加轻量级。
3. 高速:比OpenAI的实现速度更快,使用GPU加速可以进一步提高性能。
4. 混合F16/F32精度:支持不同精度的计算,Windows需要自D3D版本10.0起支持缓冲区R16_FLOAT。
5. 内置性能探查器:可以测量单个计算着色器的执行时间,有助于优化性能。
6. 低内存使用率:在处理音频时内存占用较低。
7. 支持多种音频和视频格式:支持大多数音频和视频格式,但不支持Ogg Vorbis。
8. 支持音频捕获设备:支持大多数在Windows上运行的音频捕获设备,但一些专业设备可能只实现ASIO API,不支持。
9. 支持语音活动检测:用于音频捕获的语音活动检测。
10. 易于使用的API:提供易于使用的COM样式API,并提供了C#包装器。
11. 提供预构建的二进制文件:可以直接使用预构建的二进制文件,无需编译。
更新日志:
版本1.2更新了模型的源URL,增强了稳定性,使得麦克风捕获更不容易转换为“Stalled”状态并丢弃音频。
注意事项:
1. 由于使用了OpenAI的Whisper ASR模型,使用时需遵循OpenAI的相关许可和使用规定。
2. 需要结合一个语音识别模型文件使用,模型文件越大,效果越好但速度也会相对较慢,根据实际需求选择合适的模型文件。
3. 使用GPU加速处理可能会占用较多的显存和系统资源,确保计算机性能足够强大以获得最佳的处理性能。
4. 在使用COM样式API时,注意遵循API的使用规范,以确保程序稳定性和安全性。