音频文稿提取

音频预览

选择音频文件

等待开始提取文稿

系统将识别音频中的语音内容

Vidxt 在浏览器里把音频里的人声转成可读可搜的文字。采访录音、课堂笔记、播客、语音备忘录上传后，几分钟之内就能拿到一份可复制、可编辑、可导出的逐字稿。

识别引擎覆盖中文、英语、日语、韩语等多种语言，会自动还原标点和大小写，输出更接近自然书写，而不是一长串没有断句的字符，省去大量后期人工整理的时间。

Vidxt 支持日常常见的音频格式：MP3、WAV、M4A、AAC、FLAC 和 OGG。如果手头是视频文件，可以直接用视频转文字工具，它会自动从视频里抽出音轨再做语音识别，不用先手动提取。

解码和预处理通过 FFmpeg WebAssembly 在浏览器本地完成，音频只在识别那几秒钟传给语音引擎，之后不会在服务器上留存任何副本，敏感访谈、内部录音也能放心处理。

清晰、单人讲话的录音通常可以达到 90% 以上的准确率。背景噪音重、口音明显、多人抢话、码率过低时会有所下降，建议导出后简单校对一遍再使用。

覆盖中文（简繁）、英语、日语、韩语、西班牙语、法语、德语、葡萄牙语等十多种语言。混合语种也能识别，但一种语言为主时效果最稳定。

限制主要在文件体积：桌面端 2GB、移动端 500MB，常规码率下足够覆盖几个小时的录音。文件很长时建议先按章节切分，处理更快也方便后期校对。

日常使用免费，短片段无需注册即可转写。如果经常处理长音频或对每月额度有要求，可以升级到付费方案获取更高的处理时长和优先级。