30분이면 자막을 입힌다고?? Whisper AI를 사용해보자

728x90

안녕하세요. Acorn입니다!

오늘은 Whisper AI를 사용하여 쉽고 빠르고 정확하게 자막을 만드는 방법을 알아보겠습니다.

Whisper AI란?

OpenAI에서 개발한 자동 음성 인식(Automatic Speech Recognition, ASR) 모델입니다. 2022년 9월에 오픈 소스로 공개했으며, 2024년 1월 현재는 더욱 개선된 large-v3 모델까지 출시 되었습니다.

여담으로 한국어는 단어 오류율(WER) 통계를 기준으로 27위에 해당한다고 합니다. 순위 통계만 27위일 뿐, 성능은 왠만한 음성 인식 기능보다 뛰어나니 크게 신경쓸 문제는 아닙니다.

1. Google Colab를 사용하여 Whisper AI 설치하기

내 컴퓨터에 설치하는 방식이 아닌, Google Colab 서비스를 이용해 클라우드에 설치합니다. 내 컴퓨터에 설치하는 방법도 가능하긴 하지만 이보다는 Colab을 이용하는게 쉽고 간단한 편입니다.

먼저 아래 링크에 접속합니다.

- 링크: https://colab.research.google.com/drive/1qeTSvi7Bt_5RMm88ipW4fkcsMOKlDDss?usp=sharing#scrollTo=IuL5nGTIWYTY

클릭하면 아래와 같은 페이지로 이동합니다. 여기서 "Drive로 복사"를 클릭합니다.

Drive로 복사를 클릭하세요

아래와 같이 사본이 생성됩니다. Check GPU, Installation, Run 이렇게 순서대로 3가지 단계를 거치면 사용을 할 수 있습니다. 먼저 Check GPU 아래 실행 버튼을 클릭합니다.

Check GPU를 실행합니다.

아래와 같이 초록색 체크 표시(V)가 뜨면 Installation의 실행 버튼을 클릭하시면 됩니다.

만약 "선택한 GPU 유형은 사용할 수 없습니다"와 같은 메시지가 뜨면, 런타임>런타임 유형 변경으로 들어갑니다.

런타임 유형 변경 메뉴 1

런타임 유형 변경에서 아래와 같이 설정이 되어있는지 확인하시면 됩니다. 동일한 설정이어도 경고 메시지가 뜬다면, 무시하고 다음 Installation 실행으로 진행합니다.

런타임 유형 변경 메뉴 2

Installation을 실행하고 초록색 체크 표시(V)가 뜨면 마지막 단계 Run의 실행 버튼을 클릭합니다.

Installation 완료

클라우드에 Whisper AI 설치가 완료되었으므로, 이제 실행(Run)하는 단계입니다. Run의 실행 버튼을 클릭한 뒤 조금 기다리시면 아래와 같이 진행되며, 여기서 "Running on public URL:"에 적힌 주소를 클릭합니다.

public URL을 클릭합니다

URL을 클릭하면 아래와 같은 페이지로 이동합니다. 이제 Whisper AI를 사용할 수 있습니다.(아래 페이지로 이동 후 Whisper를 설치하던 Colab페이지는 닫지 말고 그대로 두시면 됩니다)

Whisper AI 첫 화면

2. 음성/영상 파일을 업로드해서 자막파일을 생성합니다.

아래 빨간 박스를 클릭하여 업로드하거나 파일을 끌어와서 음성이나 영상 파일을 업로드한 뒤, "GENERATE SUBTITLE FILE"을 클릭하여 자막 파일을 생성합니다.

Whisper 파일 업로드

생성이 완료되면, 생성된 자막파일(.srt)을 다운로드하기 위해 설치를 하던 Colab으로 돌아가 폴더 모양 아이콘을 클릭합니다. 아이콘 클릭 후 "outputs"폴더에 있는 srt 파일을 다운로드 받습니다.

파일을 업로드 했으면 model을 선택합니다. model은 포스팅 시간 기준 tiny 부터 large-v3까지 존재하는데요, 모델이 가벼울수록(tiny) 정확도는 낮지만 빨리 생성되고, 모델이 무거울수록(large) 정확도는 높지만, 생성하는데 오래 걸리는 차이점이 있습니다. colab을 통해 실행할경우 large-v2모델이 5분 정도의 영상의 자막을 만드는데 한 4~5분 남짓 걸렸던거 같아요.

영상 업로드와 모델 선택을 끝마치고 제출하기를 누르면 모델링이 시작됩니다.

만들어진 자막은 원하는 파일로 다운받을 수 있습니다.

생성된 srt 파일 다운로드

마무리

요즘은 AI의 등장으로 업무 효율이 비약적으로 향상되고 있습니다. 유튜브 편집자의 경우 과거에는 자막 작업에 몇 시간을 투자해야 했지만, 이제는 Whisper AI와 같은 기술을 활용해 몇 번의 클릭과 약간의 수정으로 간단한 영상 편집을 마무리할 수 있습니다. 이처럼, 누구나 손쉽게 고품질의 콘텐츠를 생성할 수 있는 어마무시한 시대가 왔습니다.

이러한 변화 속에서 'AI을 어떻게 효과적으로 활용할 것인가'에 대한 심도 깊은 고민은 개인과 조직의 경쟁력을 결정짓는 중요한 요소라 생각됩니다.

728x90

'AI > Contents' 카테고리의 다른 글

GPT 스토어에서 가장 인기있는 챗봇은? (3)	2024.01.15
Apple 의 M 시리즈를 활용한 딥러닝 freamework 인 MLX 에 대해 알아보자 - (1) 설치 (1)	2024.01.08
오픈리더보드의 평가지표에 대해 (3)	2024.01.04
WIZnet Chatbot 개발 일지 - 제품 이름 환각현상 해결하기 (1)	2023.12.29
[Langchain] 평점기반의 맛집 RAG LLM 구축하기 (0)	2023.12.15

WIZnet 테크 블로그

30분이면 자막을 입힌다고?? Whisper AI를 사용해보자

Whisper AI란?

1. Google Colab를 사용하여 Whisper AI 설치하기

2. 음성/영상 파일을 업로드해서 자막파일을 생성합니다.

마무리

'AI > Contents' 카테고리의 다른 글

티스토리툴바

30분이면 자막을 입힌다고?? Whisper AI를 사용해보자

Whisper AI란?

1. Google Colab를 사용하여 Whisper AI 설치하기

2. 음성/영상 파일을 업로드해서 자막파일을 생성합니다.

마무리

'AI > Contents' 카테고리의 다른 글

관련글

티스토리툴바