音频文稿提取

音频预览

选择音频文件

提取文稿

等待开始提取文稿

系统将识别音频中的语音内容

关于音频转文字

Vidxt 在浏览器里把音频里的人声转成可读可搜的文字。采访录音、课堂笔记、播客、语音备忘录上传后,几分钟之内就能拿到一份可复制、可编辑、可导出的逐字稿。

识别引擎覆盖中文、英语、日语、韩语等多种语言,会自动还原标点和大小写,输出更接近自然书写,而不是一长串没有断句的字符,省去大量后期人工整理的时间。

适合谁用

  • 记者和研究者:需要准确引用采访内容,又不想反复拖动音频条找原话,文字版可以直接全文搜索。
  • 学生和科研人员:把课程录音、研讨会、答辩转成文字笔记或引用素材,不必再手动逐句敲字。
  • 播客作者和内容创作者:基于已有节目生成 shownotes、博客文章或短视频字幕,方便二次分发和 SEO。
  • 团队协作场景:客户访谈、用户调研、内部例会的录音转成文字后可以分享、批注,再喂给其他工具。

如何转写一段音频

  1. 1把 MP3、WAV、M4A、AAC、FLAC 或 OGG 文件拖入上传区,或点击选择本地文件。桌面端单文件上限 2GB,移动端上限 500MB。
  2. 2选择音频里的主要语种,引擎会加载对应的声学模型。清晰录音用自动识别也可以,带口音或较短片段建议手动指定。
  3. 3开始转写,等待几分钟左右。完成后在页面里检查文本、修正人名和专有名词,然后复制走或导出成纯文本、SRT 字幕等格式。

支持的音频格式

Vidxt 支持日常常见的音频格式:MP3、WAV、M4A、AAC、FLAC 和 OGG。如果手头是视频文件,可以直接用视频转文字工具,它会自动从视频里抽出音轨再做语音识别,不用先手动提取。

文件留在你的设备上

解码和预处理通过 FFmpeg WebAssembly 在浏览器本地完成,音频只在识别那几秒钟传给语音引擎,之后不会在服务器上留存任何副本,敏感访谈、内部录音也能放心处理。

常见问题

识别准确率怎么样?

清晰、单人讲话的录音通常可以达到 90% 以上的准确率。背景噪音重、口音明显、多人抢话、码率过低时会有所下降,建议导出后简单校对一遍再使用。

支持哪些语言?

覆盖中文(简繁)、英语、日语、韩语、西班牙语、法语、德语、葡萄牙语等十多种语言。混合语种也能识别,但一种语言为主时效果最稳定。

对文件时长有限制吗?

限制主要在文件体积:桌面端 2GB、移动端 500MB,常规码率下足够覆盖几个小时的录音。文件很长时建议先按章节切分,处理更快也方便后期校对。

可以免费使用吗?

日常使用免费,短片段无需注册即可转写。如果经常处理长音频或对每月额度有要求,可以升级到付费方案获取更高的处理时长和优先级。