Trích xuất bản chép âm thanh

Xem trước âm thanh

Chọn tệp âm thanh

Bản chép

Sẵn sàng trích xuất bản chép

Chúng tôi sẽ nhận dạng lời nói trong tệp âm thanh của bạn.

Giới thiệu về phiên âm âm thanh

Vidxt biến âm thanh nói thành văn bản dễ đọc, có thể tìm kiếm ngay trong trình duyệt. Tải lên một buổi phỏng vấn, bài giảng, podcast hay ghi âm giọng nói, và bạn sẽ có bản phiên âm gọn gàng để sao chép, chỉnh sửa hoặc xuất ra chỉ trong vài phút.

Hệ thống nhận dạng giọng nói xử lý tệp của bạn bằng một engine có độ chính xác cao, hỗ trợ tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Hàn và nhiều ngôn ngữ khác. Dấu câu và chữ hoa chữ thường được khôi phục tự động, nên kết quả đọc lên gần với văn viết tự nhiên thay vì một chuỗi từ ngữ rời rạc.

Phù hợp với ai

Nhà báo và nhà nghiên cứu cần trích dẫn phỏng vấn chính xác và muốn có bản văn bản để tìm kiếm thay vì phải tua âm thanh để tìm câu cần dùng.
Sinh viên và giới học thuật muốn biến bài giảng hay hội thảo đã ghi âm thành ghi chú, tài liệu ôn tập hoặc trích dẫn mà không phải gõ lại bằng tay.
Podcaster và nhà sáng tạo nội dung sản xuất show notes, bài blog hay clip mạng xã hội từ các tập đã phát, để tăng khả năng được tìm thấy và tái sử dụng.
Các nhóm xem lại cuộc gọi khách hàng, phỏng vấn người dùng hay họp nội bộ, cần bản ghi văn bản có thể chia sẻ, ghi chú hoặc đưa vào các công cụ khác.

Cách phiên âm một tệp âm thanh

1Kéo thả tệp MP3, WAV, M4A, AAC, FLAC hoặc OGG vào vùng tải lên, hoặc nhấp để chọn từ thiết bị. Hỗ trợ tệp lên tới 2 GB trên máy tính và 500 MB trên di động.
2Chọn ngôn ngữ được nói để engine áp dụng đúng mô hình âm học. Tự động phát hiện hoạt động tốt với hầu hết bản ghi rõ ràng, nhưng việc chọn ngôn ngữ giúp ích cho giọng vùng miền và các đoạn ngắn.
3Khởi chạy phiên âm và chờ kết quả. Khi hoàn tất, hãy xem lại văn bản ngay tại chỗ, chỉnh sửa tên riêng hoặc thuật ngữ, rồi sao chép hoặc xuất ra dạng văn bản thuần hay phụ đề SRT.

Các định dạng âm thanh được hỗ trợ

Vidxt chấp nhận các định dạng âm thanh phổ biến mà bạn thực sự có trên ổ đĩa: MP3, WAV, M4A, AAC, FLAC và OGG. Nếu tệp của bạn là video, hãy dùng công cụ phiên âm video, công cụ này sẽ tự động trích xuất phần âm thanh trước khi nhận dạng giọng nói.

Tệp của bạn ở lại trên thiết bị

Việc giải mã và tiền xử lý diễn ra cục bộ thông qua FFmpeg được biên dịch sang WebAssembly. Âm thanh chỉ được gửi tới engine nhận dạng trong vài giây cần thiết để sinh ra văn bản, và sau đó không có gì được lưu trên máy chủ của chúng tôi, nên các bản ghi nhạy cảm không nằm lại trong bất kỳ kho lưu trữ đám mây nào.

Câu hỏi thường gặp

Độ chính xác của phiên âm là bao nhiêu?

Với âm thanh rõ ràng, chỉ có một người nói, bạn có thể đạt độ chính xác trên 90% theo từ. Tạp âm nền, giọng vùng miền nặng, người nói chồng tiếng hoặc bản ghi bitrate thấp sẽ làm giảm độ chính xác, vì vậy việc rà soát nhanh vẫn rất đáng làm.

Những ngôn ngữ nào được hỗ trợ?

Tiếng Anh, tiếng Trung phồn thể và giản thể, tiếng Nhật, tiếng Hàn, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức, tiếng Bồ Đào Nha và nhiều ngôn ngữ khác. Bản ghi đa ngôn ngữ vẫn dùng được nhưng đáng tin cậy nhất khi có một ngôn ngữ chiếm ưu thế rõ rệt.

Có giới hạn về độ dài không?

Kích thước tệp tối đa là 2 GB trên máy tính và 500 MB trên di động, đủ cho các bản ghi nhiều giờ ở bitrate thông thường. Tệp rất dài sẽ mất nhiều thời gian xử lý hơn; chia thành từng chương thường cho kết quả nhanh và dễ kiểm soát hơn.

Tôi có thể dùng miễn phí không?

Có. Nhu cầu phiên âm hằng ngày là miễn phí, không cần đăng ký với các đoạn ngắn. Người dùng nặng thường xuyên xử lý tệp dài có thể chuyển sang gói trả phí để có hạn mức hằng tháng cao hơn và ưu tiên xử lý.