오디오 자막 추출

오디오 미리보기

오디오 파일 선택

자막

자막 추출 준비 완료

오디오 파일의 음성을 인식합니다.

오디오 전사 소개

Vidxt는 브라우저에서 바로 음성 오디오를 읽기 쉽고 검색 가능한 텍스트로 변환합니다. 인터뷰, 강의, 팟캐스트, 음성 메모를 업로드하면 몇 분 만에 복사·편집·내보내기가 가능한 깔끔한 전사본을 얻을 수 있습니다.

음성 인식은 영어, 중국어, 일본어, 한국어를 비롯한 여러 언어를 처리하는 고정확도 엔진으로 파일을 분석합니다. 구두점과 대소문자가 자동으로 복원되어 단어의 나열이 아닌 자연스러운 문장에 가까운 결과를 얻을 수 있습니다.

이런 분께 추천합니다

  • 인터뷰를 정확하게 인용해야 하고, 원하는 발언을 찾기 위해 오디오를 스크럽하는 대신 텍스트로 검색하고 싶은 기자와 연구자.
  • 녹음한 강의나 세미나를 노트, 학습 자료, 인용문으로 정리하면서 일일이 손으로 다시 옮겨 적기는 피하고 싶은 학생과 학자.
  • 기존 에피소드로부터 쇼노트, 블로그 글, 소셜 클립을 제작해 발견성과 재활용성을 높이려는 팟캐스터와 콘텐츠 크리에이터.
  • 고객 통화, 사용자 인터뷰, 사내 회의를 검토하면서 공유·코멘트·다른 도구 연동이 가능한 텍스트 기록을 원하는 팀.

오디오 파일 전사 방법

  1. 1MP3, WAV, M4A, AAC, FLAC, OGG 파일을 업로드 영역에 드롭하거나 클릭해서 기기에서 선택하세요. 데스크톱은 최대 2GB, 모바일은 최대 500MB까지 지원합니다.
  2. 2엔진이 올바른 음향 모델을 적용할 수 있도록 발화 언어를 선택합니다. 깨끗한 녹음이라면 자동 감지도 잘 동작하지만, 억양이 있거나 짧은 클립에서는 언어를 지정하는 편이 정확도에 도움이 됩니다.
  3. 3전사를 시작하고 결과를 기다리세요. 완료되면 화면에서 텍스트를 검토해 이름이나 용어를 수정한 뒤, 일반 텍스트 또는 SRT 자막으로 복사하거나 내보냅니다.

지원하는 오디오 포맷

Vidxt는 실제로 디스크에 있는 일반적인 오디오 포맷을 지원합니다: MP3, WAV, M4A, AAC, FLAC, OGG. 파일이 영상이라면 영상 전사 도구를 이용하세요. 음성 인식을 수행하기 전에 오디오 트랙을 자동으로 추출합니다.

파일은 기기에 남습니다

디코딩과 전처리는 WebAssembly로 컴파일된 FFmpeg을 통해 로컬에서 이루어집니다. 오디오는 텍스트 생성에 필요한 단 몇 초 동안만 음성 엔진으로 전송되며 이후 서버에는 어떤 데이터도 저장되지 않으므로, 민감한 녹음이 클라우드 버킷에 남을 일이 없습니다.

자주 묻는 질문

전사 정확도는 얼마나 됩니까?

한 명의 화자가 또렷하게 말하는 오디오라면 단어 정확도 90% 이상을 기대할 수 있습니다. 배경 소음, 강한 억양, 화자 겹침, 낮은 비트레이트 녹음에서는 정확도가 떨어지므로 가볍게 교정해 보시기를 권장합니다.

어떤 언어를 지원합니까?

영어, 간체·번체 중국어, 일본어, 한국어, 스페인어, 프랑스어, 독일어, 포르투갈어 등 여러 언어를 지원합니다. 다국어가 혼합된 녹음도 처리되지만, 한 언어가 분명히 우세할 때 가장 안정적입니다.

길이 제한이 있습니까?

파일 크기는 데스크톱 2GB, 모바일 500MB가 상한이며, 일반 비트레이트에서는 여러 시간 분량의 녹음을 충분히 처리할 수 있습니다. 매우 긴 파일은 처리 시간이 늘어나므로 챕터 단위로 나누면 더 빠르고 다루기 쉬운 결과를 얻을 수 있습니다.

무료로 사용할 수 있습니까?

네. 일상적인 전사는 무료이며, 짧은 클립은 가입 없이도 이용할 수 있습니다. 장시간 파일을 자주 처리하는 헤비 유저는 월간 한도를 늘리고 우선 처리 권한을 받기 위해 유료 플랜으로 전환할 수 있습니다.