音声の文字起こし

音声プレビュー

音声ファイルを選択

文字起こしを開始する準備ができました

音声ファイル内の発話を認識します。

Vidxt はブラウザ上で音声を読みやすく検索可能なテキストに変換します。インタビュー、講義、ポッドキャスト、ボイスメモをアップロードすれば、数分でコピー・編集・書き出しできるきれいな文字起こしが手に入ります。

音声認識は高精度エンジンによってファイルを処理し、英語・中国語・日本語・韓国語をはじめとする複数の言語に対応します。句読点と大文字小文字は自動的に復元されるため、ただの単語の羅列ではなく自然な文章に近い形で出力されます。

1MP3、WAV、M4A、AAC、FLAC、OGG ファイルをアップロード欄にドロップするか、クリックして端末から選択します。デスクトップでは最大 2 GB、モバイルでは最大 500 MB に対応します。
2音響モデルを正しく適用できるよう、話されている言語を選択します。クリアな録音であれば自動検出でも動作しますが、訛りや短いクリップでは言語を指定するほうが精度が上がります。
3文字起こしを開始し、結果を待ちます。完了したら画面上でテキストを確認し、固有名詞や用語を修正したうえで、プレーンテキストまたは SRT 字幕としてコピー・エクスポートします。

Vidxt は手元にある一般的な音声フォーマットに対応します：MP3、WAV、M4A、AAC、FLAC、OGG。ファイルが動画の場合は動画文字起こしツールをご利用ください。音声トラックを自動抽出してから音声認識を行います。

デコードと前処理は WebAssembly にコンパイルされた FFmpeg によりローカルで実行されます。音声はテキスト生成に必要な数秒間だけ音声エンジンへ送信され、その後サーバーには一切保存されないため、機微な録音がクラウドに残ることはありません。

クリアな一人話者の音声であれば、単語精度 90% 以上が期待できます。背景ノイズ、強い訛り、複数話者の重なり、低ビットレート録音では精度が下がるため、軽く校正することをおすすめします。

英語、簡体字・繁体字中国語、日本語、韓国語、スペイン語、フランス語、ドイツ語、ポルトガル語など多数に対応します。複数言語が混在する録音でも動作しますが、一つの言語が明確に優勢な場合に最も安定します。

ファイルサイズはデスクトップで 2 GB、モバイルで 500 MB が上限で、通常ビットレートなら数時間の録音もカバーできます。非常に長いファイルは処理時間が長くなるため、章ごとに分割するほうが速く扱いやすい結果になります。

はい。日常的な文字起こしは無料で、短いクリップなら登録も不要です。長尺ファイルを頻繁に処理するヘビーユーザーは、月間上限や優先処理が利用できる有料プランに移行できます。