离线语音识别技术选型:从云端到本地的完整对比
分析 Whiser、FunASR、Qwen3-ASR、SenseVoice 等主流离线 ASR 方案的优劣,记录在实际项目中的测试数据与选型决策过程。
记录 FunASR、Qwen3-ASR、本地 LLM 推理等 AI 技术的学习笔记、踩坑经验与工程实践。所有内容基于个人项目实战,持续更新。
分析 Whiser、FunASR、Qwen3-ASR、SenseVoice 等主流离线 ASR 方案的优劣,记录在实际项目中的测试数据与选型决策过程。
记录在边录边转场景下,通过调整 max_end_silence_time、speech_noise_thres 等 VAD 参数,将碎片化句子从 9 行降至 4 行的完整过程。
使用 llama-cpp 加载 Qwen2.5-7B 量化模型,在消费级显卡上实现会议纪要生成。涵盖 GGUF 适配、乱码修复、三层回退机制等工程细节。
记录从获取 Certum OV 代码签名证书到配置 SimplySign 云签名、集成 signtool 签名命令的完整链路,解决 SmartScreen 误报问题。
面对含 PyTorch + CUDA 的大型 Python 项目,设计 COS + ModelScope 三源分发方案。涵盖体积优化、增量更新、512MB 内存限制下的安装器设计。