내가 좋아하는 가수로 음원 변환하기 TTS 기술 review

728x90

안녕하세요. Simon 입니다.

일교차가 많이 쌀쌀해지고 있습니다. 다들 환절기에 감기 조심하시고 집에서 따끈한~ GPU와 함께 딥러닝 한잔은 어떠실까요?

첫 포스팅을 쓰게 되는데 앞으로 재밌는 기술 , 저희 회사에서 하는 Contents 제작 관련된 글들을 포스팅 해보려고 합니다.

저는 AI 엔지니어이기 때문에 다른 논문리뷰, 오픈소스 관련 세미나 글도 써볼 예정입니다.

오늘은 AI 기술을 활용하여 음악의 보컬을 합성하고 음악을 제작하는 방법에 대해 소개하려고 합니다. 최근에는 AI 기술이 음악 분야에서도 큰 주목을 받고 있습니다. 그 중에서도 TTS(Tex-to-Speech) 기술은 특히 눈에 띄는 발전을 보이고 있습니다.

1. 시작하기 전에 필요한 것들

원본 MP3 파일
CUDA GPU 또는 Colab Pro
사전 훈련된 가수의 목소리 모델
ChatGPT, Bandlab, GaudiStudio
RVC v2 Colab 설명서 참조

Reference RVC v2 Colab descriptions

RVC v2 AI Cover Guide (by kalomaze)

Making AI Song Covers with RVC Google Colab or Local Install These are the two main options for making AI song covers. You can run RVC on your computer if you have a PC with a decent NVIDIA graphics card (GPU), or you can run it for free through the Google

docs.google.com

- RVC v2 를 Gradio 로 만들어둔 좋은 샘플 코드입니다.

** 주의 : 절대 불법 다운로드는 하지말아주세요 Artist 에게 모든 저작권이 있습니다. AI 학습 용도로만 사용하였습니다. 문제 위반시 삭제

처리하겠습니다.**

2. 음악 파일 준비하기

먼저, 원하는 음악의 MP3 파일을 다운로드 받아 GAUDIO STUDIO에서 악기와 보컬을 분리합니다. Gaudio Studio는 현재 무료 베타 서비스 진행중이라서 저렇게 아마 분리를 해주니 다른 Tool 을 사용하셔도 무방합니다.

3. 가수의 목소리 모델 찾기

Hugging Face와 같은 AI 모델 커뮤니티에서 원하는 가수의 훈련된 모델을 찾아 다운로드 받습니다. RVC v2 문서의 Colab 코드를 실행하여 모델을 로드할 수 있습니다. 저는 여러커뮤니티를 찾던중에 원래 오덕들만 약간 TTS를 하는 디스코드를 찾았는데 현재는 파괴되어서 위 디스코드 채널에서 모델에 관련된 정보를 가져올 수 있었습니다.

4. Gradio를 활용한 음성 합성

Gradio UI 창을 사용하여 원하는 목표 데이터로 모델을 변환합니다. 여기서는 기본 설정 값을 사용하지만, 성능 향상을 위해 파라미터를 변경할 수도 있습니다.

- 파라미터에서 값들을 수정이 가능하나 왠만하면 설정된 기본값을 유지하는게 여러 커뮤니티의 사람들의 종합의견이었습니다.

- 여자-> 남자 , 남자 -> 여자 키를 변경할때 옥타브를 변경하는 설정 값도 있습니다. -> 그러나 사실 기계적인 소리가 많이들어가게 되어서 애초애 어울릴만한 노래에 가수를 선정하는 것이 좋아 보입니다.

5. 합성된 음성 파일 다운로드

합성이 완료되면 파일을 다운로드 받아 사용할 수 있습니다.

6. 음악 프로그램을 통한 합성

이전에 추출한 음원과 TTS 결과로부터 합성된 다양한 악기 요소들을 다시 조합해야 합니다. Ableton, Cue Bass, Logic 등 다양한 프로그램이 있지만, BandLab을 통해 웹에서도 조합할 수 있습니다.

저는 BandLab 이 무료라서 위 프로그램을 활용해서 제작을 하였습니다.

Result

자세한 방법

https://maker.wiznet.io/simons/projects/aiot%2Dproject%2Dusing%2Dai%2Dspeech%2Dsynthesis/?serob=rd&serterm=month

[AIOT] project using AI speech synthesis

Discover the forefront of AIOT with AI speech synthesis. Merging WIZnet IoT speaker tech with AI TTS, experience real-time audio delivery.

maker.wiznet.io

728x90

'AI > Contents' 카테고리의 다른 글

OpenAI의 Embedding을 이용한 ChatGPT Custom Chatbot 시스템 구축해보기 (1)	2023.11.15
Prompt designer(AIPD)자격증 시험 - IOPE와 CORE (0)	2023.11.13
Vector DataBase? (0)	2023.11.09
효과적인 AI 프롬프팅 전략을 위한 가이드 (0)	2023.11.08
WIZnet AI Chatbot의 동작 원리 (0)	2023.11.02

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

WIZnet 테크 블로그

내가 좋아하는 가수로 음원 변환하기 TTS 기술 review

'AI > Contents' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

내가 좋아하는 가수로 음원 변환하기 TTS 기술 review

'AI > Contents' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역