본문 바로가기
AI/Contents

내가 좋아하는 가수로 음원 변환하기 TTS 기술 review

by AI미남홀란드 2023. 11. 2.
728x90

안녕하세요. Simon 입니다.

 

일교차가 많이 쌀쌀해지고 있습니다. 다들 환절기에 감기 조심하시고 집에서 따끈한~ GPU와 함께 딥러닝 한잔은 어떠실까요?

 

첫 포스팅을 쓰게 되는데 앞으로 재밌는 기술 , 저희 회사에서 하는 Contents 제작 관련된 글들을 포스팅 해보려고 합니다.

 

저는 AI 엔지니어이기 때문에 다른 논문리뷰, 오픈소스 관련 세미나 글도 써볼 예정입니다.

 

 

github

https://github.com/jh941213


 

오늘은 AI 기술을 활용하여 음악의 보컬을 합성하고 음악을 제작하는 방법에 대해 소개하려고 합니다. 최근에는 AI 기술이 음악 분야에서도 주목을 받고 있습니다. 중에서도 TTS(Tex-to-Speech) 기술은 특히 눈에 띄는 발전을 보이고 있습니다.

 

1. 시작하기 전에 필요한 것들

  • 원본 MP3 파일
  • CUDA GPU 또는 Colab Pro
  • 사전 훈련된 가수의 목소리 모델
  • ChatGPT, Bandlab, GaudiStudio
  • RVC v2 Colab 설명서 참조

 

Reference RVC v2 Colab descriptions

 

RVC v2 AI Cover Guide (by kalomaze)

Making AI Song Covers with RVC Google Colab or Local Install These are the two main options for making AI song covers. You can run RVC on your computer if you have a PC with a decent NVIDIA graphics card (GPU), or you can run it for free through the Google

docs.google.com

- RVC v2 를 Gradio 로 만들어둔 좋은 샘플 코드입니다.

 

 

** 주의 : 절대 불법 다운로드는 하지말아주세요 Artist 에게 모든 저작권이 있습니다. AI 학습 용도로만 사용하였습니다. 문제 위반시 삭제

처리하겠습니다.**

 

2. 음악 파일 준비하기

먼저, 원하는 음악의 MP3 파일을 다운로드 받아 GAUDIO STUDIO에서 악기와 보컬을 분리합니다. Gaudio Studio는 현재 무료 베타 서비스 진행중이라서 저렇게 아마 분리를 해주니 다른 Tool 을 사용하셔도 무방합니다.

GaudiStudio

 

 

3. 가수의 목소리 모델 찾기

Hugging Face 같은 AI 모델 커뮤니티에서 원하는 가수의 훈련된 모델을 찾아 다운로드 받습니다. RVC v2 문서의 Colab 코드를 실행하여 모델을 로드할 있습니다. 저는 여러커뮤니티를 찾던중에 원래 오덕들만 약간 TTS를 하는 디스코드를 찾았는데 현재는 파괴되어서 위 디스코드 채널에서 모델에 관련된 정보를 가져올 수 있었습니다.

Hugging Face

4. Gradio를 활용한 음성 합성

Gradio UI 창을 사용하여 원하는 목표 데이터로 모델을 변환합니다. 여기서는 기본 설정 값을 사용하지만, 성능 향상을 위해 파라미터를 변경할 수도 있습니다.

- 파라미터에서 값들을 수정이 가능하나 왠만하면 설정된 기본값을 유지하는게 여러 커뮤니티의 사람들의 종합의견이었습니다.

- 여자-> 남자 , 남자 -> 여자 키를 변경할때 옥타브를 변경하는 설정 값도 있습니다. -> 그러나 사실 기계적인 소리가 많이들어가게 되어서 애초애 어울릴만한 노래에 가수를 선정하는 것이 좋아 보입니다.

 

5. 합성된 음성 파일 다운로드

합성이 완료되면 파일을 다운로드 받아 사용할 있습니다.

 

6. 음악 프로그램을 통한 합성

이전에 추출한 음원과 TTS 결과로부터 합성된 다양한 악기 요소들을 다시 조합해야 합니다. Ableton, Cue Bass, Logic 다양한 프로그램이 있지만, BandLab 통해 웹에서도 조합할 있습니다.

 

저는 BandLab 이 무료라서 위 프로그램을 활용해서 제작을 하였습니다.

 

Result 

결과물을 유투브에 업로드 해놓았습니다. 저작권은 원작자에게 돌아갑니다.

 

정말 한 10분만에 만들었는데 퀄리티가 매우 높아서 놀랐습니다. 사실 아직 AI 법이 신설되고 있고 그 과정에서 이런 가수들의 보이스가 학습된 데이터가 원천적으로 공개도 안되고 알 수가 없어서 애매한 부분이 있습니다. 하지만 모든 저작권은 그 원작자에 대해 있다고 다시 한번 말씀 드리고 이번 프로젝트를 마치겠습니다.

 

자세한 방법

 

https://maker.wiznet.io/simons/projects/aiot%2Dproject%2Dusing%2Dai%2Dspeech%2Dsynthesis/?serob=rd&serterm=month

 

[AIOT] project using AI speech synthesis

Discover the forefront of AIOT with AI speech synthesis. Merging WIZnet IoT speaker tech with AI TTS, experience real-time audio delivery.

maker.wiznet.io

 

728x90