视频背景音自动转为文字描述:多媒体框架 FFmpeg 8.0 引入 OpenAI Whisper 音频 AI 模型
2025-08-18 12:07:40 知识百科 55观看
摘要 8 月 16 日消息,多媒体框架 FFmpeg 开发团队发文,预热 FFmpeg 8.0 版本新增一项名为 Whisper 的音频过滤器,该功能整合了 OpenAI 的 Whisper 语音识别模型,通过内建过滤器机制,可以自动将视频背景音频内容识别转换

8 月 16 日消息,多媒体框架 FFmpeg 开发团队发文,预热 FFmpeg 8.0 版本新增一项名为 Whisper 的音频过滤器,该功能整合了 OpenAI 的 Whisper 语音识别模型,通过内建过滤器机制,可以自动将视频背景音频内容识别转换为文字描述,并输出为字幕或结构化数据。nb228资讯网——每日最新资讯28at.com

据介绍,Whisper 过滤器的实现依赖 whisper.cpp 库,用户需要先在系统中安装并启用对应支持库,并在编译时通过“--enable-whisper”选项激活功能。相应过滤器支持纯文本 TXT、SRT、JSON 等输出模式,同时可以通过 HTTP 等协议直接将输出内容传输到其他系统。如果未指定输出位置,转录结果将作为元数据附加在音频帧上,供后续处理或分析使用。nb228资讯网——每日最新资讯28at.com

官方强调,该过滤器提供了队列参数,用户可以设置累积多少音频数据再进行识别,默认值约为 3 秒,如果将时间设置更长,识别准确率则更高 / 处理频率更低,适合批处理工作场景;如果将时间设置更短,则可降低过滤器处理延迟,适合对重要音频内容进行具体分析和微调。nb228资讯网——每日最新资讯28at.com

此外,Whisper 过滤器也支持 GPU 加速,结合 FFmpeg 本身的多线程处理,在高性能环境下能显著提升转录速度。同时它还支持“Silero 语音活动检测(VAD)”功能,能在长音频流中自动切片语音片段,从而进一步提升识别效率和段落准确度。nb228资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-119-177650-0.html视频背景音自动转为文字描述:多媒体框架 FFmpeg 8.0 引入 OpenAI Whisper 音频 AI 模型

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:Win11 10 微软商店更新:用户已无法彻底关闭应用自动更新,仅允许暂停最长五周

下一篇:Win11 Dev Beta 预览版 26xxx.5751 发布:文件资源管理器右键菜单 UI 调整、系统托盘新悬停动画

最新热点