2030년 AI 시장 전망 & 주목할 상용화 AI 기술 종류 5가지와 활용 사례

한빛미디어

2024-07-31

by 김경환

8,028

오늘날 AI 서비스들은 본격적인 상용화를 시작하면서 하루가 다르게 시장이 커지고 있습니다. 리서치 전문 기업 마켓앤마켓 ^{Markets and Markets}에 따르면 전세계 AI 시장 규모는 2024년 약 2,054억 달러(약 267조 원) 규모에서 2030년에는 1조 3,452억 달러(약 1,800조 원)로 6배 가량 성장할 것이라고 합니다. 글로벌 AI 시장이 연평균 36.8%의 성장률을 보인다는 예측이죠. 다른 조사 결과들도 금액의 차이는 있지만, 대부분 어마어마한 성장세를 예측하고 있습니다.

▵OCR 기술(약 185억 달러), ▵이미지 세그멘테이션 기술(약 50억 달러), ▵자연어 처리 기술(약 345억 달러), ▵음성 인식 기술(약 268억 달러), ▵이미지 생성 기술(약 67억 달러) 등 시장 규모가 크고 쉽게 상용화가 가능한 AI 기술 다섯가지를 소개합니다.

① 광학 문자 인식 기술: OCR(Optical Character Recognition)

✅ 개념 이해

OCR 기술은 이미지 속에 들어 있는 문자를 컴퓨터가 인식할 수 있는 디지털 문자로 변환해 주는 기술입니다. 컴퓨터는 이진법으로 데이터를 처리하지만, 우리가 인식할 수 있도록 해당 데이터를 텍스트로 변환해서 화면상에 보여줍니다. OCR은 이와 반대의 개념으로 생각하면 됩니다. 즉, 사람이 종이 위에 쓴 글씨를 인식하여 텍스트 데이터로 변환하는 기술입니다.

예를 들어, 사진 등 이미지 안의 글씨나 스캔된 문서 속의 글씨는 사람에게는 해석할 수 있는 일종의 ‘정보’이지만, 컴퓨터에게는 글씨나 그림 모두 그저 ‘이미지의 일부’일 뿐입니다. OCR 기술은 이런 글씨를 텍스트로 읽어 내어 텍스트 정보(데이터)로 변환합니다. 이를 통해 컴퓨터는 이미지 속의 텍스트를 번역하거나, 스캔된 문서의 내용을 분석하고, 검색하거나, 편집할 수 있습니다. 이처럼 OCR 기술은 우리 주변의 글씨를 디지털 텍스트 데이터로 변환해 컴퓨터가 처리하기 쉽게 만들어, 다양한 분야에서 유용하게 활용됩니다.

✦ OCR 기술을 구현하거나 학습하기 위해 필요한 필수 키워드: 인코더-디코더 ^{Encoder-Decoder}, 토크나이저 ^Tokenizer

✅ 활용 사례_신용카드 인식 서비스

온라인 쇼핑몰 애플리케이션에서 물건을 구매할 때 신용카드로 결제하려면 카드 정보를 등록해야 합니다. 이때 OCR 기술을 활용한 애플리케이션 사용 시 스마트폰 카메라로 신용카드를 촬영하기만 하면 카드 정보 자동으로 결제 정보 입력란에 입력됩니다. 사용자가 카드 정보를 직접 입력해야 하는 번거로움과 오입력을 줄일 수 있습니다. OCR 기술을 활용한 신용카드 정보 입력은 이제 거의 일상화가 되었을 정도로 활발하게 이루어지는 서비스이며, 비슷한 유형의 서비스 또한 셀 수 없을 정도로 많습니다.

이 밖에도 법인카드 정산 절차를 간소화하는 ‘영수증 인식 서비스’와 파파고와 같은 ‘번역 애플리케이션 서비스’가 있습니다.

② 이미지 세그멘테이션 기술(Image Segmentation)

✅ 개념 이해

이미지 세그멘테이션 기술은 컴퓨터가 디지털 이미지나 영상에서 데이터를 추출하고 해석할 수 있도록 하는 컴퓨터 비전 기술 중의 하나로, 이미지 내의 특정 객체를 픽셀 단위로 분리하는 기술입니다.

이 기술은 다양한 방법을 사용해서 이미지나 영상에서 특정한 관심 대상이 되는 ‘객체’를 픽셀 단위로 분리합니다. 이를 통해 객체의 경계를 픽셀 단위로 정확하게 파악하고, 객체 내부와 배경을 구분할 수 있습니다.

이미지 세그멘테이션 기술은 객체 인식 ^{Object detection}기술과 비슷한 개념이지만, 몇 가지 차이점이 있습니다. 객체 인식 기술은 이미지 내에서 객체의 위치와 크기를 사각형 박스로 표현하여 객체를 식별합니다. 반면에 이미지 세그멘테이션 기술은 객체를 이루는 모든 픽셀을 정확하게 분리해서 객체의 윤곽을 세밀하게 파악합니다. 그리고 이를 통해서 객체의 형태와 구조를 더 자세하게 분석할 수 있습니다.

✦ 이미지 세그멘테이션 기술을 구현하거나 학습하기 위해 필요한 필수 키워드: 클래스 ^Class, 세그멘테이션 마스크 ^{Segmentation Mask}, 바운딩 박스 ^{Bounding box}

✅ 활용 사례_자율 주행 서비스

자율주행 시스템에서는 영상 정보를 기반으로 도로 상황을 인식하기 위해 이미지 세그멘테이션 기술이 사용됩니다. 이미지 세그멘테이션 기술은 도로 위의 표지판, 보행자, 장애물, 도로 표면, 차선 등 모든 정보를 픽셀 수준으로 구분해서 인식하여 자율주행 시스템이 도로 상황을 정확히 인지하고 적절한 조치를 취할 수 있게 합니다.

미국의 테슬라 ^Tesla는 뛰어난 자율주행 기술을 보유한 회사입니다. 테슬라의 자동차는 세그멘테이션 기술을 사용하여 도로 환경을 이해하고 도로 위의 객체들을 인식합니다. 이를 통해 도로의 차선, 보행자, 차량, 표지판 등을 정확히 구분하여 안전하고 효율적인 자율주행을 가능하게 합니다.

이밖에도 질병을 조기에 발견하고 진단케 하는 ‘의료 이미지 분석 서비스’와 CCTV ‘영상 분석 서비스’에 활용됩니다.

③ 자연어 처리 기술(NLP; Natural Language Processing)

✅ 개념 이해

사람들은 다양한 언어와 방식으로 소통합니다. 친구와의 대화, 글, 기사, SNS 등 우리가 일상생활에서 소통하는 모든 방식이 이에 해당합니다. 그러나 컴퓨터는 사람이 사용하는 언어를 바로 이해하지 못합니다. 이 문제를 해결하기 위해서는 ‘자연어 처리’라는 기술이 필요합니다.

사람이 일상적으로 사용하는 언어를 자연어^{Natural language}라고 합니다. 자연어 처리 기술은 컴퓨터가 이러한 자연어를 이해하고 사용할 수 있도록 도와주는 기술로, 크게 ‘자연어 이해’와 ‘자연어 생성’의 2가지 기술로 나눌 수 있습니다.

첫 번째로 자연어 이해 ^{NLU; Natural Language Understanding}는 컴퓨터가 사람의 언어를 이해하고 분석하는 기술입니다. 예를 들어, “오늘 날씨 어때?”라는 문장을 컴퓨터에 입력하면 컴퓨터는 자연어 이해 기술을 바탕으로 말의 의미를 이해하고 사용자가 오늘의 날씨 정보를 요청한다고 해석합니다.

두 번째로 자연어 생성 ^{NLG; Natural Language Generation}는 컴퓨터 스스로 자연스러운 문장을 만들어내는 기술입니다. 예를 들어, 컴퓨터가 “오늘 날씨가 맑다”라는 정보를 가지고 있으면 이를 바탕으로 “오늘 날씨는 맑습니다”라는 사람이 이해할 수 있는 문장을 생성할 수 있습니다.

자연어 이해와 생성 기술의 관계를 벤다이어그램으로 나타내면, 두 기술이 자연어 처리라는 큰 영역 안에서 서로 밀접하게 연관되어 있음을 알 수 있습니다.

✦ 자연어 처리 기술을 구현하거나 학습하기 위해 필요한 필수 키워드: 자연어 ^{Natural language}, 언어 모델^{Language model}, 초거대 언어 모델^{LLM; Large Language Model}, 프롬프트^Prompt와 프롬프트 엔지니어링^{Prompt engineering}, 업스트림 태스크^{Upstream task}와 다운스트림 태스크^{Downstream task}, 웹 스크래핑 ^{Web scraping}, API^{Application Programming Interface}

✅ 활용 사례_챗봇 서비스

챗봇은 자연어 처리 기술을 활용한 AI 서비스 중에서도 현재 가장 주목받는 서비스입니다. 대표적인 예로는 ChatGPT가 있습니다. ChatGPT는 OpenAI에서 개발한 대화형 AI 모델로, 자연어 처리 기술을 활용하여 사용자와 자연스러운 대화를 나눌 수 있습니다. 수많은 자연어 데이터를 학습하여 단순히 문장을 생성하는 수준을 넘어서 대화 상황에 맞는 적절한 대답을 하거나, 특정 질문에 답변하는 등의 작업도 수행할 수 있습니다. 심지어는 코드를 작성하거나 에러 로그 분석, 디버깅 등의 고급 작업도 가능합니다.

특히 ChatGPT는 초거대 언어 모델을 활용한 서비스로, 사용자와의 대화에서 높은 수준의 자연스러움을 제공합니다. 사용자의 질문이나 명령을 이해하고, 맥락에 맞는 응답을 생성하여 자연스러운 대화 경험을 제공합니다. 또한 감정 분석과 공감, 지속적인 학습, 실시간 응답 등 다양한 장점을 기반으로 다양한 분야에서 챗봇 서비스로 활용되고 있습니다.

이밖에도 뉴스 기사 하단에 달린 좋아요, 화나요, 슬퍼요 등의 구독자 반응을 분석하는 ‘감정 분석 서비스’나 OCR 기술에서 언급했던 파파고 같은 ‘번역 서비스’가 있습니다.

④ 음성 인식 기술(Speech Recognition)

✅ 개념 이해

말로 의사소통할 때 입에서 나온 음성은 공기의 진동을 통해 우리 귀에 도달합니다. 이러한 의사소통 방식을 컴퓨터도 똑같이 수행할 수 있을까요? 컴퓨터가 음성 정보를 이해하도록 하는 음성 인식기술을 사용하면 가능합니다. 음성 인식은 기본적으로 음성 신호를 텍스트로 변환하는 작업입니다. 스피치 투 텍스트^{SpeechTo-Text}, 줄여서 STT라고도 부릅니다.

예를 들어, 우리가 스마트폰의 음성 인식 기능을 사용해 “음악을 틀어줘”라고 말하면 컴퓨터는 다음의 과정을 거칩니다.

❶ 목소리(음성)가 마이크를 통해 디지털 신호로 변환: 마이크가 음파를 전기(디지털) 신호로 바꿉니다.
❷ 디지털 신호가 음성 인식 알고리즘을 거침: 전기 신호는 음성 인식 알고리즘을 거치며 “음악을 틀어줘”라는 텍스트로 변환됩니다.
❸ 변환된 텍스트 기반으로 명령 수행: 컴퓨터는 이 텍스트를 이해하고, 음악을 재생하는 작업을 수행합니다.

우리는 말로 의사소통하는 것이 너무나 자연스럽지만, 사실 사람 간의 대화는 다양한 억양과 언어, 발음, 주변 소음 등 음성 인식을 어렵게 하는 다양한 요소들 때문에 기술로 구현하기가 굉장히 어렵습니다. 그러나 현재는 AI 기술의 발전 덕분에 음성 인식 기술의 퀄리티가 비약적으로 향상되어 일상생활에서 다양한 음성 인식 기술이 활용되고 있습니다.

✦ 음성 인식 기술을 구현하거나 학습하기 위해 필요한 필수 키워드: 자동 음성 인식^{ASR; Automatic Speech Recognition.}스펙트로그램 ^Spectrogram, SRT 포맷 ^{SubRip Subtitle}

✅ 활용 사례_자동차 내비게이션 서비스

음성 인식 기술은 특히 운전할 때도 많은 도움을 줍니다. 운전 중에는 손으로 기기 조작이 어렵기 때문에 내비게이션의 음성 인식 기능을 활용해 “가까운 주유소를 찾아 줘”라고 말하면 자동차의 시스템이 해당 명령을 알아서 수행하죠.

자동차의 음성 인식 시스템은 운전자가 음성 명령을 사용해 차량의 다양한 기능과 상호 작용할 수 있도록 지원하는 기술입니다. 일반적으로 자연어 처리 알고리즘을 사용해 음성 명령을 해석할 뿐만 아니라 전화 걸기, 실내 온도 조절, 음악 선택, 내비게이션 길 안내 등의 작업을 수행합니다. 자동차에 탑재된 내비게이션뿐만 아니라 카카오내비, 티맵과 같은 내비게이션 애플리케이션에서도 음성 인식을 지원하고 있습니다.

이밖에도 빅스비, 시리와 같은 ‘스마트폰 비서 서비스’와 네이버의 클로바노트 같은 ‘음성 메모 서비스’가 있습니다.

⑤ 이미지 생성 기술(Generate Image)

✅ 개념 이해

이미지 생성 기술은 컴퓨터가 스스로 독창적이면서도 현실적인 새로운 이미지를 생성하는 기술입니다. 이 기술의 핵심은 신경망을 활용한 딥러닝 기술인 만큼, 현시점에서 이미지 생성 기술은 곧 ‘이미지 생성 AI’라고 표현할 수 있습니다.

이미지를 생성할 때는 다양한 입력값을 활용해 원하는 이미지를 생성할 수 있습니다. 입력값으로는 생성할 이미지를 대표하는 키워드나 이미지를 설명하는 문장처럼 텍스트가 가장 많이 쓰이며, 스케치 형태로 밑그림을 그려 주거나 유사한 다른 이미지를 입력하는 것처럼 이미지 정보를 입력값으로 활용하기도 합니다.

예를 들어, 이미지 생성 AI에 ‘고양이’라는 특정 키워드를 입력하면 AI가 고양이와 관련된 이미지를 생성해 줍니다. 나아가서는 현실에 존재하지 않는 이미지 키워드를 입력해도 사람이 이해할 수 있는 수준의 이미지를 만들어 줍니다. ‘말을 타고 있는 우주비행사’라는 프롬프트를 입력해도 사람이 이를 상상해서 그림으로 그리는 것처럼 AI가 이미지를 생성해 주는 것입니다.

즉, 단순히 학습된 이미지 데이터 중 하나를 재생성하는 것이 아니라 인지적인 부분을 고려하여 이미지를 생성한다는 점이 이미지 생성 AI의 놀라운 점입니다.

✦ 이미지 생성 기술을 구현하거나 학습하기 위해 필요한 필수 키워드: 오토인코더 ^Autoencoder, 잠재 공간 ^{Latent Space}

✅ 활용 사례_이미지 생성 서비스

이미지 생성 서비스 중 하나인 레오나르도^{AILeonardo AI}는 이미지 생성 모델을 기반으로 다양한 스타일의 이미지 생성 기능을 제공하는 AI 서비스입니다. 자체적으로 학습한 애니메이션, 컨셉 아트, 실사 이미지 등 여러 스타일의 모델을 통해 사용자가 원하는 이미지를 구현해 낼 수 있다는 점이 레오나르도 AI의 큰 특징입니다.

레오나르도 AI는 기본적으로 텍스트 설명을 기반으로 이미지를 생성할 수 있는 텍스트 투 이미지 기능을 제공합니다. 예를 들어, 앞에서 예로 들었던 것처럼 ‘말을 타고 있는 우주비행사’라는 텍스트를 입력하면 이를 기반으로 이미지를 생성해 낼 수 있습니다.

특히 레오나르도 AI는 텍스트 투 이미지뿐만 아니라 가이드 이미지를 입력하면 이미지를 생성해 주는 이미지 투 이미지 서비스나 이미지의 특정 부분만 새로 생성하는 인페인트 ^Inpaint기능 또한 제공합니다. 단순한 이미지 생성뿐만 아니라 캐릭터 생성, 게임 개발용 이미지 생성, 그래픽 디자인 등 목적에 맞는 이미지 생성 기능도 함께 서비스하고 있습니다.

이밖에도 스노우 같은 ‘기존 이미지 기반 새 이미지 생성 서비스’와 딥아트와 같은 ‘예술 작품 생성 서비스’가 있습니다.