文字起こしを開始する準備ができました
音声ファイル内の発話を認識します。
Vidxt はブラウザ上で音声を読みやすく検索可能なテキストに変換します。インタビュー、講義、ポッドキャスト、ボイスメモをアップロードすれば、数分でコピー・編集・書き出しできるきれいな文字起こしが手に入ります。
音声認識は高精度エンジンによってファイルを処理し、英語・中国語・日本語・韓国語をはじめとする複数の言語に対応します。句読点と大文字小文字は自動的に復元されるため、ただの単語の羅列ではなく自然な文章に近い形で出力されます。
Vidxt は手元にある一般的な音声フォーマットに対応します:MP3、WAV、M4A、AAC、FLAC、OGG。ファイルが動画の場合は動画文字起こしツールをご利用ください。音声トラックを自動抽出してから音声認識を行います。
デコードと前処理は WebAssembly にコンパイルされた FFmpeg によりローカルで実行されます。音声はテキスト生成に必要な数秒間だけ音声エンジンへ送信され、その後サーバーには一切保存されないため、機微な録音がクラウドに残ることはありません。
クリアな一人話者の音声であれば、単語精度 90% 以上が期待できます。背景ノイズ、強い訛り、複数話者の重なり、低ビットレート録音では精度が下がるため、軽く校正することをおすすめします。
英語、簡体字・繁体字中国語、日本語、韓国語、スペイン語、フランス語、ドイツ語、ポルトガル語など多数に対応します。複数言語が混在する録音でも動作しますが、一つの言語が明確に優勢な場合に最も安定します。
ファイルサイズはデスクトップで 2 GB、モバイルで 500 MB が上限で、通常ビットレートなら数時間の録音もカバーできます。非常に長いファイルは処理時間が長くなるため、章ごとに分割するほうが速く扱いやすい結果になります。
はい。日常的な文字起こしは無料で、短いクリップなら登録も不要です。長尺ファイルを頻繁に処理するヘビーユーザーは、月間上限や優先処理が利用できる有料プランに移行できます。