신문은 선생님

[IT 따라잡기] 가수 김광석 목소리로 AI가 노래 불렀어요

입력 : 2021.02.09 03:30

음성과 인공지능

세상을 떠난 가수가 TV에 최근 여럿 등장해 화제가 되고 있습니다. 과거 이들이 노래 부르던 영상을 재방송한 게 아닙니다. 그들이 생전에 부르지 않았던 새로운 노래를 들려주고 있지요. 바로 인공지능(AI) 기술이 이미 세상을 떠난 가수들의 목소리를 되살려내 그들의 목소리로 새로운 곡을 들려준 겁니다. 숨진 가수들이 생전 부르던 노래를 반복해서 익힌 AI가 그들의 목소리를 흉내 낸 거지요. 노래의 강약과 호흡, 음률 등 미묘한 부분까지 모방해 마치 숨진 가수가 직접 노래를 뽑아내는 것처럼 생생하게 들립니다. 이뿐 아닙니다. 세상을 떠난 아내가 가상현실로 복원돼 생전 목소리로 가족과 대화하는 프로그램도 방영됐어요. 인공지능 기술은 어떻게 사람들의 목소리를 감쪽같이 흉내 낼 수 있는 걸까요?

AI가 목소리 익혀서 노래까지 불러요

컴퓨터를 이용해 목소리를 만들어내는 것은 '음성 합성'기술이라고 합니다. 인공지능 기술이 목소리를 익히고 컴퓨터는 소리를 내는 거지요. 이 기술은 다양한 형태의 목소리를 분석하고 그다음에 단어나 음절 소리를 기억해 소리를 합성해낸답니다.

 /그래픽=유재일
/그래픽=유재일
일본 회사 야마하가 2003년에 공개한 '보컬로이드'는 인공지능 기술로 목소리를 만들고 높낮이와 강약, 숨소리 그리고 음을 가늘게 떨어 아름답게 울리게 하는 비브라토까지 구현했습니다. 보컬로이드는 1989년 세상을 떠난 일본의 국민가수 미소라 히바리의 목소리를 그대로 복원해 홀로그램과 함께 무대에 올려 그의 모습과 목소리를 완벽하게 재현했습니다.

일본에서는 인공지능의 목소리를 이용해 노래를 만드는 '하쓰네 미쿠'라는 프로그램이 있는데요. 사람이 악보를 입력하면 AI가 노래로 바꿔 불러주는 거예요. 하쓰네 미쿠는 당당히 히트곡을 갖고 있는 가수가 됐어요.

처음 말 배울 땐 AI도 어색했어요

요즘 인공지능이 내는 소리나 말을 들어보면 사람과 헷갈릴 정도로 자연스럽습니다. 하지만 얼마 전까지만 해도 어색했어요. 놀이공원에서 로봇이 기계음이 섞인 소리로 말하는 것과 비슷했지요. 말의 속도나 억양이 사람과 다르다는 걸 대번에 눈치 챌 정도였죠. 그런데 이제는 기술이 발달하면서 목소리가 더 자연스러워졌답니다. 한 공상 영화에는 주인공인 스파이가 적에게 특정 대본을 읽힌 다음에 컴퓨터로 그 목소리를 분석하는 장면이 나옵니다. 상대방 목소리를 10시간 정도만 학습하면 인공지능 목소리인지 사람 목소리인지 분간하기 어려울 정도까지 인공지능 기술이 발달했어요.

이 기술은 다양한 용도로 활용되고 있어요. 네이버는 인공지능 스피커와 내비게이션 앱, 그리고 오디오 북 등에 배우 유인나씨의 목소리를 씁니다. 유인나씨가 길을 알려주고, 책을 읽어주는 거예요. 그런데 이 목소리는 유인나씨의 실제 목소리를 반복적으로 듣고 익힌 인공지능이 내는 목소리랍니다.

청각 장애인도 AI 덕에 말문을 텄어요

음성 합성 기술은 말을 하기 어려운 사람들의 목소리까지 창조해 내고 있어요. 지난해 KT가 언어 장애를 갖고 있는 사람의 목소리를 새로 만들어낸 거지요. 태어날 때부터 청각 장애를 갖고 있어 한 번도 말을 해본 적이 없는 사람의 목소리를 도대체 어떻게 만들 수 있었을까요? KT는 인공지능 기술로 가족들의 목소리를 학습한 다음에 언어 장애가 있는 사람의 구강 구조를 분석해 가상의 목소리를 만들었어요. 그런 다음 인공지능에 말하고 싶은 문구를 입력하면 청각 장애인의 목소리가 나오는 방식이었어요. 이렇게 만들어진 목소리로 가족들에게 속마음을 전할 수 있었어요. 이 이야기는 광고로도 만들어져 많은 사람에게 감동을 줬어요.

미국 IT 기업 구글도 비슷한 기술을 개발했답니다. 정확하게 발음하지 못하는 사람의 목소리를 학습한 뒤 그 사람의 목소리로 또박또박 책을 읽고 대화할 수 있도록 한 거지요. '프로젝트 포니아'라는 이름의 이 기술은 인공지능이 특정 사람의 목소리를 3시간 정도만 학습하면 된다고 합니다. 목소리뿐 아니라 눈의 움직임도 읽어내요. 그리고 언어 장애가 있어 말을 제대로 하지 못하고 '음음…' 하면서 내는 소리까지 정확한 말로 바꿔 전달할 수 있다고 해요.

음성 합성 기술이 발달하면서 내 목소리를 남이 몰래 가져다 쓰는 일까지 생기고 있어요. 영화감독 조던 필은 버락 오바마 전 미국 대통령이 연설하는 모습을 광고로 만들어 공개했는데, 영상 속 주인공은 실제 오바마 대통령이 아니었어요. 목소리는 복제된 것이었고, 얼굴도 합성 영상이었지요. 이 광고는 인공지능 기술이 나쁜 의도로 쓰일 수 있다는 걸 경고하기 위해 만들어졌어요. 음성 기술을 악용한 보이스피싱 사기단까지 등장하면 정말 대처하기 어렵겠지요? 이를 방지하는 기술도 곧 개발되리라 봅니다.


최호섭 IT 칼럼니스트 기획·구성=최원국 기자