챗gpt시대, 음악과 오디오 자동 생성 AI 탐구

이용호가 말하는 ‘생활 속의 인공지능’

[한국강사신문 이용호 칼럼니스트] 인공지능의 오픈소스 개발로 차별화를 가져가려는 메타가 라마2에 이어 2023년 8월 초에 “오디오크래프트(AudioCraft)”라는 오디오와 음악 특화 생성 AI의 오픈소스 공개하였다. 이 도구는 텍스트를 입력하는 것만으로 음악을 작사·작곡하거나 사운드 효과를 만들 수 있다. 오디오크래프트는 아래의 세 가지 모델로 구성되어 있다.

첫 번째, 뮤직젠(MusicGen)은 텍스트로 음악 장르, 스타일, 악기 등을 지정하면 해당하는 음악을 생성한다. 예를 들어, '힙합 비트에 피아노와 바이올린이 어울리는 곡’이라고 입력하면 그에 맞는 음악을 만들어 준다. 지난 6월에, 메타는 총 20,000시간의 다양한 종류의 음악에 대해 훈련된 프로그램인 뮤직젠을 소개한 바 있다. 이 음악의 대부분은 저작권이 있고, 일부는 이 사용을 위해 특별히 허가되었다. 메타는 또한 사람들이 그 프로그램의 작동 방법을 가르치기 위해 그들만의 음악을 사용하도록 허용하는 학습 코드를 공유했다.

두 번째, 오디오젠(AudioGen)은 텍스트로 사운드 효과나 배경음을 지정하면 해당하는 오디오를 생성한다. 예를 들어, '사이렌 소리가 가까워졌다가 멀어진다.라고 입력하면 그에 맞는 오디오를 만들어 준다. 오디오젠은 프롬프트에서 사람의 목소리를 생성할 수 있는 이미지 생성 AI와 유사한 '확산 기반' 모델이다. 그것이 사용하는 방법은 오디오든 이미지든 시작 데이터, 즉 전적으로 소음을 점진적으로 제거하는 것을 포함한다. 원하는 소리에 단계적으로 더 가까이 이동함으로써, 오디오젠은 주어진 지시에 기초하여 특정한 소리 또는 목소리를 생성할 수 있다.

세 번째, 엔코덱(EnCodec)은 오디오 파일을 압축하거나 복원한다. 압축률이 높으면서도 원본과 유사한 품질의 오디오를 만들 수 있다. 엔코덱은 신경망 기반의 오디오 압축 코덱으로, 모든 종류의 오디오를 압축하고 원래의 신호를 복원하도록 특별히 훈련된 것이다. 낮은 잡음으로 고품질의 음악을 제작하는 역할을 한다. 이 엔코덱을 사용하면 종종 사운드를 과도하게 조작할 때 발생하는 ‘아티팩트(Artifact)’가 적은 오디오를 만들 수 있다.

메타는 이번 발표에서 “오디오크래프트가 음악가와 사운드 디자이너에게 영감을 주고 새로운 방식으로 작곡을 할 수 있도록 돕는 도구이기 때문에 사람들이 오디오크래프트로 무엇을 만들지 기대된다"라고 말했다. 오디오크래프트의 모델과 코드는 깃허브를 통해 제공되므로 누구나 사용하거나 개선할 수 있다.

하지만 메타가 AI 기반 오디오 및 음악 생성기를 실험한 최초의 회사는 아니다. 이번 기회에 메타의 오디오크래프트 이전에 발표된 음악, 오디오 생성 AI에 대해서도 살펴보자.

첫 번째, 2020년 4월, 오픈AI(OpenAI)가 신경망을 사용해 원하는 장르 가수 스타일로 음악을 생성해주는 인공지능 ‘주크박스(Jukebox)를 블로그를 통해 먼저 공개한 바 있다. 주크박스는 발표 당시 더 빠른 속도와 잠재적으로 더 낮은 비용으로 새롭고 독창적인 음악을 만들 수 있게 함으로써 음악 산업에 영향을 미칠 수 있는 잠재력을 가지고 있어 영화, 비디오 게임 및 기타 미디어용 음악을 작곡하는 데 사용될 수 있다고 했다. 주크박스는 기존 노래의 패턴과 구조를 모델링하는 방법을 학습한 다음 해당 지식을 사용하여 새로운 음악을 작곡함으로써 음악을 생성하는 신경망이다. 주크박스는 다양한 유형의 음악에 대해 모델을 조정하여 다양한 스타일과 장르의 음악을 생성할 수 있다. 또한 해당 오디오와 함께 MIDI 파일, 악보 및 가사의 방대한 데이터 세트에서 훈련된 뮤즈넷(MuseNet)이라는 별도 모델의 도움으로 가사와 노래하는 목소리까지 생성할 수 있다.

두 번째, 2022년 12월 발표된 '리퓨전(Riffusion)'은 시각 초음파를 사용해 텍스트로 음악을 생성하는 인공지능(AI) 모델이 있다. 이는 사운드의 시각적 표현을 생성하고 이를 오디오로 변환해 텍스트 프롬프트에서 음악을 생성한다. 리퓨전은 이미지 생성 AI '스테이블 디퓨전(Stable Diffusion)' 1.5 모델을 미세 조정하여 음향을 2차원 이미지로 표현하는 소노그램을 생성한다. 소노그램은 시간에 따른 음원 신호의 주파수 성분을 분석하는 그래프로, X축은 시간, Y축은 주파수를 나타낸다.

리퓨전을 개발한 포스그렌과 마르티로스는 초음파가 사진 유형이므로 안정된 확산으로 처리할 수 있다는 사실을 이용했다. 그들은 다양한 노래의 소노그램을 만들고 “블루스 기타”, “재즈 피아노”, “아프로비트(afrobeat)”와 같이 태그하면 안정적으로 미세 조정된 결과를 도출했다. 이 미세 조정은 특정 콘텐츠로 사전 훈련된 모델을 전문적으로 생성하도록 추가 훈련하는 것이 가능하고 이러한 결과로 리퓨전은 "재즈", "록" 또는 키보드 입력과 같은 음악이나 소리의 유형을 설명하는 텍스트 프롬프트를 기반으로 새로운 음악을 즉석에서 생성할 수 있다.

세 번째, 2023년 1월에 구글이 논문으로 공개한 음악 생성 인공지능(AI) 모델 “뮤직LM”도 있다. 이는 텍스트로 음악의 장르, 악기, 분위기 등을 입력하면 30초 분량의 음원을 만들어준다. 예를 들어 "플루트, 기타와 함께 차분하고 진정되는 명상 음악"이라고 입력하면 그에 맞는 음악이 생성된다. 뮤직LM은 구글의 텍스트 생성 AI인 Bard와 비슷한 방식으로 작동한다.

즉, 대량의 음악 데이터를 학습하여 새로운 음악을 만들 수 있다. 하지만 저작권 문제 등을 이유로 아직 출시 계획은 미뤄지고 있다. 구글은 이와 별도로 이미 Chrome Music Lab이라는 웹사이트에서 음악을 만들고 공유할 수 있는 다양한 실험을 제공하고 있다. Chrome Music Lab은 음악과 과학, 수학, 미술 등의 연관성을 탐색하고 학습하는 데 도움을 받을 수 있다.

위와 같은 음악과 오디오를 생성하는 AI 모델들은 음악과 오디오 생성 분야의 연구와 실용화에 획기적으로 기여할 수 있을 것으로 기대된다. 예를 들어, 게임 개발자들은 사운드 이펙트를 매우 쉽게 만들 수 있고, 음악가들은 새로운 장르나 스타일을 간단히 탐색할 수 있게 되었다. AI 모델로 음악과 오디오를 생성하는 시장은 매우 신속하게 발전하며 그 미래 전망은 매우 밝다고 할 수 있다. 하지만 이와 더불어 AI 모델이 음악과 오디오를 생성하는 시대에 저작권 관련 문제는 아직 해결되지 않은 복잡하고 민감한 문제이다.

이와 같은 이유로 저작권 관련된 이슈가 아직 정립되지 않은 현재는 인간의 창의성이 완전 배재된 채 완전히 AI로만 창작활동을 하는 것은 좀 더 조심스럽게 다가 가야할 문제라고 판단된다. 요즘 저작권, 특히 오디오 관련 저작권에 있어서는 저작권자들이 매우 엄격하고 적극적으로 대응을 하고 있는 게 현실이다. 심지어 초기에 저작권 문제가 발견되더라도 해당 채널이 성장할 때 까지 기다렸다가 나중에 큰 금액으로 소송을 제기하는 경우도 있기 때문에 콘텐츠를 제작하면서 매우 신중하게 고려해야 할 사항이다.

칼럼니스트 프로필

이용호 칼럼니스트는 스마트 공장에서 주로 사용되는 ‘머신비전’ 전문회사인 ‘호연지재’를 경영하고 있으면서 다양한 분야에 관심이 많아 메타버스와 유튜브 인플루언서로 활동하고 있다. 특히 ‘머신비전’에서 인공지능 딥러닝에 의한 영상처리기술을 자주 적용하다보니 AI 분야에 대해서도 해박한 지식을 가지고 있다. 또한 SKT 메타버스 플랫폼인 이프랜드(ifland)에서 매주 월요일 오후 9시에 정기적으로 ‘힐링토크쇼 호몽캠프’를 진행하고 있으며 74회 이상 진행된 토크쇼에는 작가, 강사, 가수, 연주가, 아티스트, 사업가 등 여러 분야의 전문가들이 초대되었다.

주요 강의 분야는 “챗gpt 시대 생활 속의 인공지능 발견하기”, “시니어와 MZ세대 간의 원활한 커뮤니케이션”, “시니어 세대 인플루언서 활동으로 인생 이모작”, “워라밸 시대 워크닉으로 행복한 인생 만들기” 등이 있으며, 저서로는 『나는 시니어 인플루언서다』가 있다.

상단영역

본문영역

챗gpt시대, 음악과 오디오 자동 생성 AI 탐구

이용호가 말하는 ‘생활 속의 인공지능’

관련기사