
영상(mp4) → 텍스트 자동 변환 시스템 만들기
ffmpeg + Whisper로 완전 자동 전사 구축하기
영상 파일을 텍스트로 변환하는 가장 확실한 방식은
오디오를 먼저 분리하고 → 음성 인식 모델로 텍스트를 만드는 방식이다.
강의·교육자료·세미나·인터뷰·유튜브 강의 정리까지
대부분의 AI 서비스가 실제로 사용하는 방식도 바로 이 구조다.
여기서는 ffmpeg + Whisper 조합으로
영상을 자동으로 텍스트로 변환하는 전체 작업을 정리한다.

ffmpeg란 무엇인가?
ffmpeg는 영상과 음성을 자유롭게 변환·편집·추출할 수 있는
대표적인 오픈소스 멀티미디어 툴이다.
주요 특징은 이렇다.
- 거의 모든 영상·음성 포맷 지원
- mp4 → wav(음성) 변환 가능
- 영상 자르기, 포맷 변경, 자막 삽입 등 다양한 기능
- AI 음성 인식 모델들이 표준처럼 사용하는 전처리 도구
영상에서 음성을 안정적으로 뽑아내야 Whisper가 정확하게 전사하기 때문에
전 세계에서 가장 널리 쓰이는 도구가 ffmpeg다.
다운로드 링크(Windows)
ffmpeg 공식 Windows 빌드 페이지:
https://www.gyan.dev/ffmpeg/builds/
여기서 release-full.zip 또는 ffmpeg-git-full.7z 파일을 다운로드하면 된다.
압축을 풀면 bin 폴더 안에 ffmpeg.exe가 포함되어 있다.
Whisper란 무엇인가?
Whisper는 오픈소스로 공개된 음성 인식(STT) 모델로,
음성을 텍스트로 변환하는 데 최적화되어 있다.
특징은 다음과 같다.
- 무료, 오픈소스
- 인터넷 연결 없이 오프라인에서 작동
- 긴 강의·세미나 전사에 강함
- 한국어 포함 90개 이상 언어 지원
- 높은 정확도
특히 whisper.cpp 버전은 별도 설치 없이
실행 파일만으로 바로 사용할 수 있어 가장 많이 쓰인다.
Whisper 다운로드
Whisper.cpp 실행 파일 릴리즈:
https://github.com/ggml-org/whisper.cpp/releases
Whisper 모델(large·medium·small 등):
https://huggingface.co/ggerganov/whisper.cpp/tree/main
Whisper 모델 선택 기준
Whisper는 크기가 클수록 정확도가 높고 속도는 느려진다.
- large-v3
최고 정확도 / 가장 무거움 / 속도 느림 - medium (추천)
속도·정확도 균형 / 강의 전사에 최적 - small
빠르지만 medium보다 정확도 낮음
강의·세미나·교육 영상 전사 목적이라면
medium.bin이 가장 적절하다.
자동 변환 시스템 구성
영상을 INPUT 폴더에 넣기만 하면
ffmpeg가 음성을 추출하고, Whisper가 자동으로 텍스트로 변환해준다.
작업 순서는 다음과 같다.
- mp4 → wav (ffmpeg)
- wav → txt (Whisper)
- 결과 파일 자동 저장
파일명은 상관없다.
mp4 파일만 넣어두면 스크립트가 전부 자동으로 처리한다.
자동 변환 스크립트(.bat 파일)

아래 내용을 메모장에 붙여 넣고
auto_transcribe.bat으로 저장하면 된다.
@echo off
chcp 65001 > nul
REM ==== 사용자 설정 ====
set FFMPEG_PATH=ffmpeg경로/ffmpeg.exe
set WHISPER_PATH=whisper경로/whisper-cli.exe
set MODEL_MEDIUM=whisper경로/models/ggml-medium.bin
set WORKSPACE=whisper경로/workspace
REM ==== mp4 입력 폴더 ====
set INPUT=원하는경로/INPUT
echo ==============================================
echo MP4 → WAV → TXT 자동 변환 시작
echo ==============================================
echo.
for %%F in ("%INPUT%\*.mp4") do (
echo 처리 중: %%~nF.mp4
echo [1] WAV 추출...
"%FFMPEG_PATH%" -i "%%F" "%WORKSPACE%\%%~nF.wav"
echo [2] Whisper 전사 중...
cd /d "%WORKSPACE%"
"%WHISPER_PATH%" -m "%MODEL_MEDIUM%" -f "%%~nF.wav" -t 20 --language ko
echo 완료됨: %%~nF.wav.txt
echo -----------------------------
)
echo.
echo ==============================================
echo 모든 파일 자동 처리 완료!
echo ==============================================
pause
사용 방법
- Whisper 폴더 안에 workspace 폴더 생성
- INPUT 폴더에 mp4 파일 여러 개 넣기
- auto_transcribe.bat 실행
- workspace 폴더 안에 자동으로
- 파일명.wav
- 파일명.wav.txt
두 가지가 생성된다.
수십 개의 mp4 파일도 순서대로 전부 자동 처리된다.
활용 예시
- 자격증 강의 정리
- 직무 교육 영상 전사
- 인터뷰·세미나 기록
- 유튜브 학습 영상 스크립트화
- 회의 녹음 텍스트 변환
영상 기반 정보를 텍스트로 정리하는 데 가장 강력하고 실용적인 방식이다.
단어장
음성(音聲) 소리음, 소리성 / audio / audire(듣다)
전환(轉換) 구를전, 바꿀환 / convert / con(함께) + vertere(돌리다)
추출(抽出) 뽑을추, 날출 / extract / ex(밖으로) + trahere(끌어내다)
전사(轉寫) 구를전, 베낄사 / transcription / trans(넘어) + scribere(쓰다)
자동화(自動化) 스스로자, 움직일동, 될화 / automation / auto(자기) + motus(움직임)
모델(模型) 모형모, 법식형 / model / modulus(척도·규칙)