等待开始提取文稿
系统将识别音频中的语音内容
Vidxt 在浏览器里把音频里的人声转成可读可搜的文字。采访录音、课堂笔记、播客、语音备忘录上传后,几分钟之内就能拿到一份可复制、可编辑、可导出的逐字稿。
识别引擎覆盖中文、英语、日语、韩语等多种语言,会自动还原标点和大小写,输出更接近自然书写,而不是一长串没有断句的字符,省去大量后期人工整理的时间。
Vidxt 支持日常常见的音频格式:MP3、WAV、M4A、AAC、FLAC 和 OGG。如果手头是视频文件,可以直接用视频转文字工具,它会自动从视频里抽出音轨再做语音识别,不用先手动提取。
解码和预处理通过 FFmpeg WebAssembly 在浏览器本地完成,音频只在识别那几秒钟传给语音引擎,之后不会在服务器上留存任何副本,敏感访谈、内部录音也能放心处理。
清晰、单人讲话的录音通常可以达到 90% 以上的准确率。背景噪音重、口音明显、多人抢话、码率过低时会有所下降,建议导出后简单校对一遍再使用。
覆盖中文(简繁)、英语、日语、韩语、西班牙语、法语、德语、葡萄牙语等十多种语言。混合语种也能识别,但一种语言为主时效果最稳定。
限制主要在文件体积:桌面端 2GB、移动端 500MB,常规码率下足够覆盖几个小时的录音。文件很长时建议先按章节切分,处理更快也方便后期校对。
日常使用免费,短片段无需注册即可转写。如果经常处理长音频或对每月额度有要求,可以升级到付费方案获取更高的处理时长和优先级。