우리말을 배우자/쉼표,마침표(국립국어원 온라인소식지)

뭉치가 알려주는 국어 말뭉치 - ‘말뭉치’란 무엇일까요?

튼씩이 2022. 2. 12. 11:58

'인공 지능 스피커', '챗봇', '빅스비, 시리'…. 날이 갈수록 발전해 가는 인공 지능이 우리 일상생활에 깊숙이 파고들고 있습니다. 이제 인공 지능은 낯설고 새로운 기술이 아니라 일상에서 흔히 접하는 단어가 되었지요. 사람의 말을 제대로 알아듣고 '척하면 척', 사용자가 원하는 결과를 내놓는 인공 지능의 모습은 놀랍기만 한데요. 인공 지능은 어떻게 우리의 말을 알아듣고 우리와 소통할 수 있는 것일까요? 바로 '말뭉치' 덕분입니다. 인공 지능 기술의 중요한 열쇠인 '말뭉치', 지금부터 함께 살펴보실까요?  

 

 

■ '말뭉치'란 무엇일까요?

 

 '실뭉치', '솜뭉치'에서 '뭉치'는 한데 뭉치거나 말거나 감은 덩이를 말합니다. 그렇다면 '말뭉치'는 말(언어)을 한데 모아 놓은 덩어리가 되겠지요? 말뭉치는 우리 생활 어디에나 존재합니다. 신문, 책, 음성에 있는 단어나 문장 등 언어 자료들이 다 말뭉치가 될 수 있지요.

 

 하지만 쌓아 둔 종이 신문이나 소설책들을 말뭉치라고 하지는 않는데, 단순히 모으기만 해서는 활용할 수 없기 때문입니다. 말뭉치는 컴퓨터가 분석하고 처리할 수 있게 가공하여 입력되어 있어야 합니다. 우리나라는 1988년부터 10년간 '21세기 세종계획'이란 이름으로 말뭉치 구축 사업을 벌였는데요. 이 기간에 약 2억 어절의 말뭉치를 구축했습니다. 그 이후에는 2018년부터 다시 5년간 155억 어절을 목표로 말뭉치를 구축하고 있습니다. 국립국어원에서는 2020년 8월에 18억 어절에 달하는 자료를 공개하기도 했지요.

 

 

■ '말뭉치', 어떻게 만들까요?

 

 말뭉치를 만들려면 먼저 말뭉치의 재료가 될 언어 자료를 수집해야 합니다. 우리가 흔히 접하는 신문 기사, 책, 블로그나 게시판의 글은 물론이고 일상 대화, 메신저 대화까지 다양한 언어 자료가 모두 말뭉치의 재료가 됩니다. 수집할 재료를 선정한 다음에는 저작권자에게 이용 허락을 받은 후 수집한 언어 자료를 말뭉치로 만듭니다. 이때 컴퓨터에 입력하는 과정에서 말로 된 언어 자료는 모두 글로 바꾸어 입력합니다. 여기에 언어 자료의 종류나 작성자, 출처 등 언어 자료의 기본적인 정보와 문단이나 문장 경계를 알려 주는 형식 정보를 컴퓨터에 입력하면 말뭉치의 기본이라고 할 수 있는 '원시 말뭉치'가 됩니다. 이 원시 말뭉치에 품사 정보, 의미 정보, 문장 구성 정보 등 여러 가지 분석 정보를 더하여 '분석 말뭉치'를 만드는데 이때 분석 정보에는 컴퓨터가 읽을 수 있는 특별한 형식을 덧붙입니다.  

 

 

■ '말뭉치', 어디에 쓰일까요?

 

말뭉치는 언어 교육, 어휘 연구, 사전 편찬, 인공 지능 개발 등에 활용됩니다. 가령 언어 교육 분야에서 말뭉치는 외국어를 가르칠 때 유용한 자료가 될 수 있습니다. 가장 많이 쓰는 자연스러운 표현들을 말뭉치 중에 뽑아서 가르칠 수 있지요. 학습자 말뭉치를 활용하면 외국어를 배울 때 자주 틀리는 문법, 어휘, 표현 등을 분석할 수 있어서 효과적인 교수법을 찾거나 교재를 만드는 데 도움이 됩니다. 또한 말뭉치는 언어를 연구하고 어문 정책을 수립할 때에도 꼭 필요합니다. 말뭉치를 분석하면 언제부터 그 단어가 쓰이기 시작했는지, 어느 때에 그 단어가 많이 쓰였는지, 시대에 따라 단어의 형태와 의미가 어떻게 변화되어 왔는지 등도 확인할 수 있습니다.
 

4차 산업 혁명 시대에 들어서면서 말뭉치는 인공 지능과도 떼려야 뗄 수 없는 관계가 되었습니다. 일상에서 모든 사람이 표준 발음과 표준어를 구사하는 것은 아니며, 같은 말을 하더라도 사람마다 조금씩 다를 수 있습니다. 인공지능이 이러한 차이를 인식하고 사용자의 말을 잘 알아들으려면 ‘말뭉치’를 학습하는 것이 필요합니다. 말뭉치를 학습한 인공 지능은 사람들과 더욱 원활한 의사소통을 할 수 있게 됩니다. 또한 외국어로 쓰인 문서를 지금보다 훨씬 정확하고 자연스럽게 번역할 수 있습니다. 이렇듯 말뭉치는 인공 지능을 더욱 똑똑하게 만들어주는 데 없어서는 안 될 존재입니다.

 

 

 

 

■ 말뭉치', 어디에서 볼 수 있나요?

 

 '모두의 말뭉치' 누리집(https://corpus.korean.go.kr)에서 회원 가입 후 이용 약정을 하면 신청한 말뭉치를 내려받을 수 있습니다. ‘모두의 말뭉치’에서는 신문, 책, 일상 대화, 메신저 대화 자료, 웹 자료 등으로 구성된 다양한 원시 말뭉치와 형태, 어휘 의미, 구문, 개체명 등 여러 가지 정보를 부착한 분석 말뭉치를 제공하고 있습니다.  

 

 

 

 

인공 지능을 완성하는 대량의 언어 자료 말뭉치! 좋은 언어 자료를 많이 모아 양질의 대량 말뭉치가 많을수록 인공 지능의 음성 인식률이 높아지고, 기계 번역의 정확도가 올라갑니다. 우리 삶에 이로운 변화를 가져오는 기술 발전의 저변에 국립국어원의 ‘모두의 말뭉치’가 있습니다.