신문은 선생님

[재미있는 과학] 정답·오답 오가며 스스로 번역 규칙 찾아내요

입력 : 2017.02.22 03:20

[딥 러닝과 자동 번역]

과거엔 번역 규칙 일일이 입력, 규칙 벗어나면 잘못된 번역 내놔
인공지능과 딥 러닝 적용하자 스스로 규칙 만들어 문맥까지 파악

음성인식 기술 등과 결합하면 외국어 동시통역도 가능해진대요

구글이 제공하는 자동 번역 기능을 사용해본 적 있나요? 영어 문장을 입력만 하면 저절로 번역되니 참 신기하지만, 종종 잘못된 번역을 내놓아 웃음거리가 되곤 했답니다. 가령 프란치스코 교황이 말한 "War never again"을 "전쟁은 절대 일어나지 말아야 한다"가 아닌 "결코 다시 전쟁"으로 번역하는 일이 있었죠.

이렇게 비웃음을 받은 자동 번역의 정확도가 최근에는 눈에 띄게 좋아졌다고 합니다. 지난해 11월 구글이 내놓은 새로운 자동 번역 기능과 국내 포털 사이트 업체가 내놓은 자동 번역 어플이 정확하고도 매끄러운 번역 문장을 제공한대요. 이세돌 9단을 꺾었던 인공지능 바둑기사 '알파고'에 적용된 딥 러닝(Deep Learning)을 자동 번역에 활용한 덕분이라고 합니다.

딥 러닝은 사람의 신경망을 본뜬 인공신경망을 통해 기계가 스스로 학습하도록 하는 기술이에요. 딥 러닝이 적용된 자동 번역이 더 발전하면 외국어를 배우지 않아도 외국인과 자유롭게 의사소통을 할 수 있게 될 거라는 전망도 나오고 있어요.

◇'아침'을 구분하지 못하는 컴퓨터를 위하여


컴퓨터를 이용한 자동 번역은 1950년부터 연구가 시작되었어요. 당시 한 언어학자는 "10년 안에 자동 번역이 가능해질 것"이라고 장담했지만, 예측은 완전히 빗나갔답니다. 예상보다 언어와 번역은 훨씬 더 복잡했기 때문이죠.

[재미있는 과학] 정답·오답 오가며 스스로 번역 규칙 찾아내요
/그래픽=안병현
가령 '아침'이라는 단어를 영어로 번역한다고 가정해볼까요? 아침이라고 하면 이른 시간대를 뜻하는 'morning'이 떠오르지만 "아침은 먹었니?"라고 했을 때 아침은 아침 식사를 뜻하는 'breakfast'입니다. 이렇게 평범한 단어도 어떤 맥락에서 어떤 단어와 어울려 사용되느냐에 따라 그 의미가 완전히 달라져요. 그래서 한 언어의 모든 단어와 문장을 분석해 컴퓨터에 입력하려면 데이터와 공식이 너무 방대하고 복잡하다는 문제가 있었죠.

기존 자동 번역은 이를 해결하기 위해 확률을 활용했어요. 아침이 '밝다' '좋다'라는 단어와 함께 있을 경우 'morning'이 될 확률이 높고, '맛있다' '먹었다'는 단어와 함께 있으면 'breakfast'가 될 확률이 높다는 식으로 컴퓨터에 규칙을 입력해준 거죠. 하지만 이 확률에서 벗어나는 문장이 나오면 문맥과 맞지 않는 뜻으로 번역해 사람들의 웃음거리가 되었답니다.

여러 언어의 문장구조나 문법이 다른 것도 큰 문제였어요. 사람은 기초적인 문장구조를 배우면 다른 문장에도 곧잘 응용하지요. 하지만 컴퓨터는 어떤 단어를 어떻게 배열해야 하는지 규칙을 일일이 입력해주어야 번역이 가능해집니다. 이렇다 보니 입력된 문장구조가 아닌 생소한 문장구조를 만나면 제대로 번역하지 못하는 문제가 나타났어요.

◇스스로 오답·정답을 찾아 규칙을 찾는다


반면 인공지능을 통해 딥 러닝을 하는 컴퓨터는 스스로 번역 규칙을 찾아내는 재주를 갖고 있습니다. 기존 자동 번역과 달리 사람이 어떤 규칙이나 확률을 컴퓨터에 직접 입력하지 않아요. 대신 기존에 개발된 여러 수학적 알고리즘(어떠한 주어진 문제를 풀기 위한 절차나 방법) 정도가 입력되어 있지요. 여기에 잘 쓰인 영어 문장과 이를 잘 번역한 한국어 문장을 짝을 지어 입력해주면 인공 지능이 스스로 번역 규칙을 찾아 나갑니다.

가령 잘 번역된 영어 문장과 한국어 문장 100쌍을 입력한다고 해볼까요? 그럼 인공지능은 100쌍 사이에 어떤 관계가 있는지 분석해 나름의 규칙을 만들어내죠. 그리고 이 규칙을 적용해 전혀 다른 영어 문장 300개를 스스로 번역해봅니다.

그리고 이 문장들을 사람이 입력해 준 올바른 번역 문장 300개와 다시 비교해요. 이를 통해 잘 번역된 부분과 제대로 번역되지 않은 부분을 확인합니다. 그리고 자신이 틀린 부분을 반영해 새로운 번역 규칙을 만들어내요.

인공지능은 수백만 개의 문장으로 이런 과정을 계속 반복하고 있어요. 스스로 규칙을 만들고, 스스로 시험해본 뒤 무엇이 맞고 무엇이 틀린지 확인해 더 나은 규칙을 만들어 내는 거죠. 입력된 데이터가 많을수록 더 정확한 규칙을 찾아내는 딥 러닝의 특성상 자동 번역의 수준은 시간이 갈수록 더 발전할 것으로 예상됩니다.

재미난 점은 이렇게 인공지능이 만든 규칙은 사람도 알 수 없다는 거예요. 인공지능이 문장 수백만 개를 분석해 만들어낸 규칙이기 때문이죠. 알파고를 만든 과학자나 프로 바둑기사들이 알파고가 바둑판에 어떤 수를 둘지 전혀 예상하지 못하는 것도 이런 이유입니다.

[동시통역도 가능할까?]

인공지능 스스로 정답과 오답을 비교하며 더 나은 규칙을 찾아가는 딥 러닝은 오늘날 다양한 분야에 활용되고 있습니다. 가장 대표적인 예가 사진 속 사람 얼굴을 인식하고, 누구의 얼굴인지도 알아보는 얼굴 인식 기능이죠. 인공지능이 방대한 양의 얼굴 사진으로 딥 러닝을 해 사람 얼굴을 구분하는 규칙을 찾아내면서 가능해진 일입니다.

페이스북이 개발한 얼굴 인식 프로그램 '딥페이스'는 인식 정확도가 약 97%로 사람의 눈과 거의 차이가 없는 수준이에요. 최근에는 사진 속 개를 보고 그 품종까지 구분할 정도로 인식 기술이 발전했습니다. 음성인식 로봇이 출시되고 있는 것도 인공지능과 딥 러닝을 통해 음성인식 기능이 빠르게 개선된 덕분이지요.

스마트폰이 동시통역을 해주는 날도 멀지 않았어요. 음성 합성 프로그램 '웨이브넷'은 딥 러닝을 통해 사람의 목소리를 언어와 억양에 따라 자유롭게 만들어낼 수 있다고 합니다. 그간에는 성우가 녹음한 음성을 사용했지만, 웨이브넷은 사용자의 목소리와 말투도 비슷하게 따라 할 수 있대요. 자동 번역 기능이 더 발전해 웨이브넷, 음성인식 기능과 결합되면 동시통역이 가능해지는 것이죠. 외국어를 전혀 몰라도 스마트폰만 있으면 어떤 외국인과도 자유롭게 대화를 나누게 되는 날이 머지않은 듯합니다.


송준섭 과학칼럼니스트 |