안녕하세요! 오늘은 최근 가장 뜨거운 주제 중 하나인 AI 음악 생성에 대한 흥미로운 이야기를 전해드리려 합니다. AI 음악 엔지니어 YouTube 채널의 Phlo Young이 진행한 워크숍을 통해 얻은 인사이트를 바탕으로, 이 혁신적인 분야가 어떻게 작동하고 우리에게 어떤 기회를 제공하는지 자세히 알아보겠습니다.
Phlo Young은 평생 음악가이자 아티스트였지만, AI 음악 분야에 관심을 갖게 된 것은 불과 한 달 정도밖에 되지 않았다고 합니다. 그는 이 워크숍을 통해 참가자들이 AI 음악 생성에 대한 실질적인 경험을 얻고 유용한 지식을 얻어가기를 바랐습니다. 비록 그 자신이 클래식 음악 교육을 받지는 않았지만 작곡가로서의 경험과 자동화 및 실험에 대한 깊은 관심을 바탕으로 이 분야에 뛰어들었습니다. 특히 그는 다양한 장르로 실험하며 음악이 아티스트 이름, 커버 아트, 마케팅에 따라 어떻게 다르게 퍼포먼스하는지 분석하기 위해 가명(pin name)을 사용하기도 했는데, 이러한 실험 정신이 AI 음악에 대한 그의 애정을 설명하는 부분이기도 합니다.
AI 음악이란 무엇일까요?
Phlo Young은 AI 음악이라는 용어가 매우 광범위하게 사용되며, 연구 초기에는 정의가 불분명하여 혼란스러웠다고 말합니다. 그래서 그는 AI 음악을 다음과 같이 몇 가지 범주로 구분했습니다:
- 텍스트-투-뮤직(Text-to-Music): 텍스트 프롬프트를 사용하여 짧은 샘플 또는 전체 노래를 생성하는 방식입니다.
- 오디오-투-뮤직(Audio-to-Music): 기존 사운드를 가져와 음악으로 변환하는 방식입니다.
- 스타일 트랜스퍼(Style Transfer) / 보이스 컨버전(Voice Conversion): 기본적으로 목소리 변환을 의미합니다.
그는 많은 사람들이 ‘AI 음악’이라고 부르는 것이 사실상 이 보이스 컨버전인 경우가 많았다고 언급했습니다.
AI 음악 생성의 흥미로운 사례들
Phlo Young은 각 유형별로 인상 깊은 사례들을 공유했습니다:
- 보이스 컨버전 (Style Transfer)
- 칸예 웨스트(Kanye West) 사례: Roberto Nixon이라는 사람이 자신의 목소리를 칸예 웨스트 목소리로 변환하여 랩하는 영상은 Phlo Young이 이 분야에 관심을 갖게 된 계기 중 하나였습니다. 그는 이 영상을 보고 즉시 관련 Discord 서버와 Subreddit을 파고들었다고 합니다.
- 드레이크(Drake) & 위켄드(The Weeknd) 바이럴 송: Ghostwriter라는 사람이 제작한 이 곡은 Drake와 The Weeknd 목소리로 변환된 보컬만 AI를 사용했으며, 실제 작사/작곡 및 프로덕션은 사람이 했습니다. 이 곡은 엄청난 바이럴을 기록하며 24시간 만에 9백만 스트림을 달성했지만, RIAA의 저작권 침해 주장으로 삭제되었습니다.
- 랜디 트래비스(Randy Travis) 사례: 목소리를 잃었던 컨트리 가수 랜디 트래비스와 그의 팀이 AI 보이스 컨버전 기술을 사용하여 새로운 오리지널 곡을 발표한 사례입니다. 이 사례는 특히 긍정적인 대중 반응을 얻었으며, Phlo Young은 이것이 AI 보이스 컨버전이 올바른 방식으로 사용될 수 있는 좋은 예라고 생각했습니다. 그는 AI 음악에 대한 대중의 인식이 여전히 부정적인 경향이 있지만, 랜디 트래비스 사례처럼 원작자가 AI를 활용하는 경우는 다르게 받아들여질 수 있음을 시사했습니다.
- 지난 1년 동안 보이스 컨버전 도구는 매우 빠르게 발전하여 초기의 아티팩트가 많던 소리에서 자연스러운 사람 목소리에 거의 근접하게 발전했습니다.
- 텍스트-투-뮤직 (Text-to-Music)
- BBL Drizzy 밈 송: 코미디언 King Koul-Aid가 Udio라는 도구에 텍스트 프롬프트와 가사를 입력하여 생성한 곡입니다. 스튜디오 녹음이나 보이스 컨버전 없이 오직 텍스트 입력만으로 만들어진 이 곡이 바이럴된 것은 AI 음악 생성의 획기적인 순간으로 평가받았습니다.
- 11 Labs의 GPU 메타 송: AI 스타트업 11 Labs가 텍스트로만 생성한 곡으로, AI 모델이 GPU에 대해 노래하는 내용의 메타적인 곡입니다.
- 오디오-투-뮤직 (Audio-to-Music)
- Stable Audio 활용 사례: 기존 사운드를 입력하여 음악으로 변환하는 Stable Audio라는 도구를 사용한 사례입니다. Phlo Young은 이 기능이 음악 창작에 다양한 가능성을 열어준다고 보았습니다.
- Suno 활용 사례: Suno 팀이 데스크를 손가락으로 두드리는 소리만으로 기타와 다른 악기가 포함된 완전한 곡을 생성한 사례입니다.
핵심 도구: Udio와 Suno
현재 AI 음악 생성을 위한 주요 도구로는 Udio와 Suno가 있습니다. 두 서비스 모두 최근 RIAA로부터 저작권이 있는 음악 데이터셋으로 모델을 학습시켜 저작권을 침해했다는 소송을 당했습니다.
Phlo Young은 이 두 서비스를 다음과 같이 비교 설명했습니다:
- Udio: 작곡 파트너에 가깝다고 설명합니다. 기본적으로 30초 단위의 음악을 생성하며, 생성된 아이디어를 확장하거나 리믹스하거나 폐기할 수 있습니다. 인페인팅(inpainting) 기능을 통해 특정 부분을 수정할 수 있으며, 오디오-투-오디오(Audio-to-Audio) 기능을 통해 기존 음악이나 녹음(예: 보컬, 스포큰 워드)을 업로드하여 실험할 수 있습니다. Phlo Young은 자신의 기존 곡을 Udio에 넣어 보았을 때 자신보다 더 나은 결과물이 나올 때도 있었다고 하며, 아티스트들에게 기존 창작물을 활용해보라고 적극 권장했습니다.
- Suno: 인하우스 음악 프로듀서에 가깝다고 표현합니다. Suno는 시스템 프롬프트에 탑 40 음악이 내장된 것처럼 매우 세련되고 깔끔한 결과물을 내는 경향이 있다고 합니다. 초기에는 커스텀 모드에서 가사의 음절 수를 세지 않으면 비트와 보컬 타이밍이 심하게 어긋나는 문제가 있었지만, 최근 몇 주 동안 타이밍과 곡 구조 면에서 상당한 개선이 이루어졌다고 언급했습니다.
AI 음악 생성의 기본 과정
Udio와 Suno를 포함한 대부분의 AI 음악 생성 서비스의 기본 과정은 매우 간단하여 음악 생성의 장벽을 크게 낮춥니다.
- 서비스에 로그인합니다.
- 생성 버튼(Create)을 클릭합니다.
- 프롬프트를 입력합니다 (예: AI 엔지니어 월드 페어에 대한 노래). 원하는 장르나 스타일을 추가할 수 있습니다 (예: 올드 스쿨 힙합).
- 생성(Create) 버튼을 누릅니다.
- 옵션에 따라 자체적으로 가사를 작성하여 입력하거나, 악기 연주만 생성하도록 선택할 수도 있습니다.
Phlo Young은 단순히 생성하는 것은 쉽지만, 좋은 결과물을 얻기 위해서는 더 많은 지식이 필요하다고 덧붙였습니다.
프롬프트 활용 팁 및 고급 기술
워크숍 참가자들은 프롬프트 기술에 대해 특히 많은 관심을 보였습니다.
- GPT 활용: ChatGPT와 같은 언어 모델을 사용하여 가사를 먼저 작성하는 것이 유용합니다. Phlo Young은 특정 템플릿을 사용하여 GPT가 일관성 있는 가사를 생성하도록 한 다음, 이 가사를 AI 음악 생성 도구에 입력하면 더 나은 결과물을 얻을 수 있다고 설명했습니다.
- 음악 모델 프롬프트: 기본적인 프롬프트는 원하는 곡에 대한 일반적인 설명입니다. 아티스트 이름을 직접 넣는 것은 저작권 필터에 걸릴 수 있지만, 아티스트 이름의 철자를 조금 바꾸고 해당 아티스트와 관련된 음악 스타일을 함께 명시하면 필터를 우회할 수 있다는 팁이 있었습니다.
- RateYourMusic 활용: RateYourMusic 웹사이트에서 아티스트나 장르를 검색하고 해당 음악에 붙은 **레이블(labels)**을 확인하는 것이 유용합니다. 이 레이블들은 AI 모델이 훈련된 데이터와 관련이 있을 수 있으므로, 해당 레이블을 프롬프트에 사용하면 원하는 사운드에 매우 가깝게 생성할 수 있다고 합니다.
또한 생성된 음악을 더 정교하게 편집하고 싶다면 다음과 같은 기술을 사용할 수 있습니다:
- 스템(Stems) 추출: 생성된 노래의 각 악기 트랙(스템)을 분리하여 믹싱 및 마스터링에 활용할 수 있습니다.
- Wave Tool: Suno 또는 Udio에서 생성된 노래 링크 끝에
/daw
를 입력하면 Wave Tool이라는 온라인 도구에서 해당 노래를 디지털 오디오 워크스테이션(DAW) 형식으로 불러와 스템별로 볼륨을 조절하는 등 간단한 편집을 할 수 있습니다. Phlo Young은 이 도구가 스타트업이지만 매우 유용하다고 평했습니다. - uvr5: 오픈 소스 소프트웨어로, 로컬 컴퓨터에서 어떤 노래든 스템을 추출할 수 있는 도구입니다. Wave Tool보다 더 복잡하지만 로컬에서 영구적으로 사용할 수 있다는 장점이 있습니다.
- Wave Tool: Suno 또는 Udio에서 생성된 노래 링크 끝에
윤리적 고려사항과 미래
AI 음악의 윤리적이고 책임감 있는 사용에 대한 질문도 있었지만, Phlo Young은 자신이 법률 전문가가 아니기에 이 부분에 대해 깊이 논하기 어렵다고 언급했습니다. 하지만 랜디 트래비스 사례에서 볼 수 있듯이, AI 기술이 아티스트 자신의 창작 활동을 돕는 방향으로 사용될 때 긍정적인 반응을 얻을 수 있음을 시사했습니다.
AI 음악 생성 기술은 계속 발전하고 있으며, Udio와 Suno와 같은 도구들은 누구나 쉽게 음악을 만들 수 있도록 하고 있습니다. Phlo Young은 AI 음악이 일반 아티스트들이 자신의 음악으로 수익을 창출할 기회를 제공할 수 있다는 점에 대해 매우 열정적으로 생각했습니다.
이번 워크숍은 AI 음악 생성의 현재 상태와 가능성을 엿볼 수 있는 좋은 기회였습니다. 특히 텍스트-투-뮤직, 오디오-투-뮤직, 보이스 컨버전으로 구분하여 이해하고, Udio 및 Suno와 같은 도구의 특징을 아는 것은 이 분야에 입문하려는 사람들에게 매우 유용할 것입니다. AI 음악은 아직 논쟁적인 부분이 많지만, 앞으로 음악 창작 및 산업에 어떤 변화를 가져올지 계속 지켜보는 것이 흥미로울 것 같습니다.