音声の文字起こし

音声プレビュー

音声ファイルを選択

文字起こし

文字起こしを開始する準備ができました

音声ファイル内の発話を認識します。

音声文字起こしについて

Vidxt はブラウザ上で音声を読みやすく検索可能なテキストに変換します。インタビュー、講義、ポッドキャスト、ボイスメモをアップロードすれば、数分でコピー・編集・書き出しできるきれいな文字起こしが手に入ります。

音声認識は高精度エンジンによってファイルを処理し、英語・中国語・日本語・韓国語をはじめとする複数の言語に対応します。句読点と大文字小文字は自動的に復元されるため、ただの単語の羅列ではなく自然な文章に近い形で出力されます。

こんな方におすすめ

  • インタビューを正確に引用する必要があり、目的の発言を探して音声をスクラブするのではなくテキストで検索したいジャーナリストや研究者の方。
  • 録音した講義やセミナーをノート、学習資料、引用文献にまとめたい学生や研究者の方で、手作業での書き起こしを避けたい場合。
  • 既存のエピソードからショーノート、ブログ記事、ソーシャル用クリップを作成し、発見性と再利用性を高めたいポッドキャスターやクリエイターの方。
  • 顧客対応の通話、ユーザーインタビュー、社内ミーティングを文字記録として共有・コメント・他ツール連携したいチーム。

音声ファイルの文字起こし手順

  1. 1MP3、WAV、M4A、AAC、FLAC、OGG ファイルをアップロード欄にドロップするか、クリックして端末から選択します。デスクトップでは最大 2 GB、モバイルでは最大 500 MB に対応します。
  2. 2音響モデルを正しく適用できるよう、話されている言語を選択します。クリアな録音であれば自動検出でも動作しますが、訛りや短いクリップでは言語を指定するほうが精度が上がります。
  3. 3文字起こしを開始し、結果を待ちます。完了したら画面上でテキストを確認し、固有名詞や用語を修正したうえで、プレーンテキストまたは SRT 字幕としてコピー・エクスポートします。

対応する音声フォーマット

Vidxt は手元にある一般的な音声フォーマットに対応します:MP3、WAV、M4A、AAC、FLAC、OGG。ファイルが動画の場合は動画文字起こしツールをご利用ください。音声トラックを自動抽出してから音声認識を行います。

ファイルは端末内に保持されます

デコードと前処理は WebAssembly にコンパイルされた FFmpeg によりローカルで実行されます。音声はテキスト生成に必要な数秒間だけ音声エンジンへ送信され、その後サーバーには一切保存されないため、機微な録音がクラウドに残ることはありません。

よくある質問

文字起こしの精度はどの程度ですか?

クリアな一人話者の音声であれば、単語精度 90% 以上が期待できます。背景ノイズ、強い訛り、複数話者の重なり、低ビットレート録音では精度が下がるため、軽く校正することをおすすめします。

対応している言語は何ですか?

英語、簡体字・繁体字中国語、日本語、韓国語、スペイン語、フランス語、ドイツ語、ポルトガル語など多数に対応します。複数言語が混在する録音でも動作しますが、一つの言語が明確に優勢な場合に最も安定します。

長さの制限はありますか?

ファイルサイズはデスクトップで 2 GB、モバイルで 500 MB が上限で、通常ビットレートなら数時間の録音もカバーできます。非常に長いファイルは処理時間が長くなるため、章ごとに分割するほうが速く扱いやすい結果になります。

無料で利用できますか?

はい。日常的な文字起こしは無料で、短いクリップなら登録も不要です。長尺ファイルを頻繁に処理するヘビーユーザーは、月間上限や優先処理が利用できる有料プランに移行できます。