자막 추출 준비 완료
오디오 파일의 음성을 인식합니다.
Vidxt는 브라우저에서 바로 음성 오디오를 읽기 쉽고 검색 가능한 텍스트로 변환합니다. 인터뷰, 강의, 팟캐스트, 음성 메모를 업로드하면 몇 분 만에 복사·편집·내보내기가 가능한 깔끔한 전사본을 얻을 수 있습니다.
음성 인식은 영어, 중국어, 일본어, 한국어를 비롯한 여러 언어를 처리하는 고정확도 엔진으로 파일을 분석합니다. 구두점과 대소문자가 자동으로 복원되어 단어의 나열이 아닌 자연스러운 문장에 가까운 결과를 얻을 수 있습니다.
Vidxt는 실제로 디스크에 있는 일반적인 오디오 포맷을 지원합니다: MP3, WAV, M4A, AAC, FLAC, OGG. 파일이 영상이라면 영상 전사 도구를 이용하세요. 음성 인식을 수행하기 전에 오디오 트랙을 자동으로 추출합니다.
디코딩과 전처리는 WebAssembly로 컴파일된 FFmpeg을 통해 로컬에서 이루어집니다. 오디오는 텍스트 생성에 필요한 단 몇 초 동안만 음성 엔진으로 전송되며 이후 서버에는 어떤 데이터도 저장되지 않으므로, 민감한 녹음이 클라우드 버킷에 남을 일이 없습니다.
한 명의 화자가 또렷하게 말하는 오디오라면 단어 정확도 90% 이상을 기대할 수 있습니다. 배경 소음, 강한 억양, 화자 겹침, 낮은 비트레이트 녹음에서는 정확도가 떨어지므로 가볍게 교정해 보시기를 권장합니다.
영어, 간체·번체 중국어, 일본어, 한국어, 스페인어, 프랑스어, 독일어, 포르투갈어 등 여러 언어를 지원합니다. 다국어가 혼합된 녹음도 처리되지만, 한 언어가 분명히 우세할 때 가장 안정적입니다.
파일 크기는 데스크톱 2GB, 모바일 500MB가 상한이며, 일반 비트레이트에서는 여러 시간 분량의 녹음을 충분히 처리할 수 있습니다. 매우 긴 파일은 처리 시간이 늘어나므로 챕터 단위로 나누면 더 빠르고 다루기 쉬운 결과를 얻을 수 있습니다.
네. 일상적인 전사는 무료이며, 짧은 클립은 가입 없이도 이용할 수 있습니다. 장시간 파일을 자주 처리하는 헤비 유저는 월간 한도를 늘리고 우선 처리 권한을 받기 위해 유료 플랜으로 전환할 수 있습니다.