쳇 GPT는 무슨 뜻일까?

페이지 정보

작성자 군위넷 댓글 댓글 0건 조회조회 13,341회 입력 기사입력 : 23-02-27 14:12

본문

챗GPT를 이해하기 위한 첫 관문은 ‘GPT’라는 용어입니다. 챗(Chat)은 말 그대로 대화를 나눌 수 있는 인공지능(AI)이라는 의미로 붙은 말입니다. 챗GPT의 핵심은 ‘GPT’인 셈이죠.


GPT는 오픈AI가 개발한 언어 모델이라고 보시면 됩니다. 여기서 언어 모델은 또 뭔지 의문이 들텐데요. 언어 모델이라는 건 하나의 단어 다음에 어떤 단어가 오는 게 좋을지 적절한 단어를 통계적·확률적으로 예측하는 모델을 의미합니다. 예컨대 ‘광화문’이라는 단어를 주었을 때, 그 뒤에 어떤 단어가 오는 게 적절할 지 통계적·확률적으로 예측하는 거죠. 주어진 데이터에 따라 답변이 달라질 수 있는데, 더 많은, 더 정확한 데이터가 많을수록 답변도 더 그럴싸해지겠죠.




 

▲ 챗GPT 일간활성이용자(DAU) 수

빅데이터를 사용할수록 언어 모델의 정확도나 활용도가 높아지기 때문에 그냥 언어 모델이 아니라 ‘대규모’ 언어 모델을 쓰게 된 겁니다. 대규모 언어 모델의 영어 약자인 ‘LLM’은 단순히 대형언어모델(Large Language Model)의 약자입니다. 풀어놓고 보면 전혀 어렵지 않은 표현이죠.


여기서 대규모가 도대체 얼마나 대규모인지 궁금할 수 있습니다. 정해진 기준은 없다고 합니다. 구글이 이 대규모 언어 모델의 선구자 같은 회사인데요. 오픈AI가 내놓은 챗GPT가 큰 반향을 일으키면서 정작 선구자 취급을 받던 구글이 한 방 맞은 셈이 된 겁니다.


챗GPT는 오픈AI가 2020년에 내놓은 GPT-3의 업그레이드 버전입니다. 앞에 소개한 기사에서 챗GPT를 GPT-3.5라고 표현한 것도 이런 이유인데요. GPT-3의 경우 파라미터(매개변수)를 1750억개를 썼다고 합니다. 파라미터는 AI가 사용자의 의도를 이해하기 위해 필요한 데이터라고 생각하면 됩니다. LLM에서는 데이터가 많을수록 성능이 좋다고 했으니 이 파라미터의 숫자가 곧 성능을 의미하겠죠. GPT-2는 파라미터가 15억개였으니 GPT-3이 얼마나 성능이 개선됐는지 짐작이 가능합니다. 올해 안에 공개될 GPT-4는 파라미터가 100조개까지 늘어날 수 있다는 전망도 있습니다. 지금 수준에서도 세상을 깜짝 놀라게 한 GPT가 얼마나 발전할 지 짐작도 안 되는 겁니다.


그러면 GPT의 뜻은 무엇일까?


GPT를 그대로 풀면 ‘Generative Pre-trained Transformer(사전 훈련된 생성 변환기)’가 됩니다. ‘Generative(생성)’는 답변을 생성한다는 의미에서 붙은 겁니다. ‘Pre-trained(사전 훈련된)’는 조금 기술적인 표현인데, GPT의 핵심 언어 모델이 미리 학습을 끝낸 뒤에 필요한 작업에 맞춰서 약간의 수정을 가한 답변을 만든다는 의미에서 붙은 표현입니다. GPT 이전의 언어 모델은 작업별로 별도의 모델을 처음부터 학습했다고 합니다. GPT는 사전에 학습을 하면서 성능을 높인 거죠.


GPT에서 중요한 건 G도 아니고 P도 아니고 바로 T입니다. T는 트랜스포머(transformer)입니다. 대부분의 사람들은 평소에는 자동차로 지내다 악당이 나타나면 로봇으로 변신하는 그 트랜스포머를 떠올릴 겁니다. 하지만 이 T는 GPT가 세상에 등장할 수 있었던 핵심적인 신경망 모델을 의미합니다.


트랜스포머는 구글이 2017년에 처음 발표한 논문에 등장하는 신경망 모델입니다. 문장 속의 단어와 같은 순차적인 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망을 이야기합니다. ‘어텐션(attention)’이라고도 불리는 기술인데요. 구글이 발표한 논문 제목이 바로 ‘Attention Is All You Need(당신에게 필요한 모든 것은 어텐션이다)’ 였습니다.


사실 AI 분야의 전공자가 아닌 사람에게 트랜스포머나 어텐션의 구조, 원리를 이야기하는 건 어렵습니다. 다만 확실한 건 기존에 존재하던 딥러닝 알고리즘인 ‘RNN(순환 신경망)’이나 ‘CNN(합성곱 신경망)’ ‘MLP(다층 퍼셉트론)’에 비해 연산속도가 비교할 수 없이 빨라지고 성능이 좋아졌다는 점입니다. 이 트랜스포머는 특히나 자연어 처리에 있어서 뛰어난 성능을 보여줬습니다. 자연어는 말그대로 인간이 일상생활에서 의사소통을 위해 쓰는 말을 이야기합니다.


AI는 인간이 아니기 때문에 자연어 처리를 위해서는 별도의 과정을 거쳐야 합니다. 어떻게 보면 컴퓨터 환경에서 AI가 인간의 언어를 이해하게 하는 것이 AI 기술의 전부라고 할 수도 있겠죠. 트랜스포머는 자연어를 이해하고 활용하는데 큰 강점을 보이며 단숨에 대세가 됐습니다. 트랜스포머를 이용한 챗GPT가 그동안 나온 AI 챗봇 중 가장 사람에 가까운 대화가 가능한 것도 이런 맥락입니다. 사람의 질문에 답하는 것, 번역을 하는 것, 긴 문장을 요약하는 것. 이런 게 바로 트랜스포머의 강점입니다. 물론 지금은 텍스트 기반뿐만 아니라 다양한 방식으로 응용돼서 쓰이고 있습니다.