검색 엔진의 절대강자 구글, ChatGPT 등장으로 노심초사? 아직은.. (下)
사람들은 시, 소설, 보고서 등 글쓰기, 그림 그리기, 알고리즘 코딩 등 창작의 세계가 그동안 인간에게만 허락된 별도의 영역이라 알고 있었다. 그런데 AI(인공지능)의 발전과 함께 이제는 진화한 AI가 스스로 창작의 영역을 넘보는 시대가 되었다. 생성형 AI(Generative AI)의 등장은 인간에게 어떤 의미가 있으며 우리의 미래에 어떤 영향을 미칠지 가늠하기 쉽지 않지만, 생성형 AI는 이미 여러 분야에서 현실로 나타나 적용되고 있다. 우리에게 성큼 다가온 생성형 AI의 시장현황, 다양한 이슈와 관심 사항 등을 살펴보기로 하자. <편집자 주>
[뉴스투데이=최봉 산업경제 전문기자] 검색 엔진은 1990년대 초반 인터넷 세상의 주류가 되었는데, 사용자에게 가장 관련성이 높은 방식으로 색인이 생성된 웹사이트 순위를 지정해주는 핵심 접근법은 그 이후로 변하지 않았다.
검색 1.0 시대에는 검색 엔진에 문의(query)하기 위해 사용자가 키워드 또는 키워드 조합을 입력하는 방식이었다.
검색 2.0은 2000년대 후반 사용자가 마치 인간과 상호 작용하는 것처럼 자연스러운 구문을 입력할 수 있는 시맨틱 검색(semantic search)이 도입되면서 활성화되었다. 이 방식을 계기로 지금의 검색 엔진의 절대강자 구글이 아성을 구축한 것이다.
• 검색 3.0 시대, 사용자는 웹사이트 목록 아닌 “더 깊은 통찰력과 이해” 원해..
그런데 시대가 바뀌면 사용자의 ‘입맛’도 고급으로 변하는 법, 사용자는 이제 문의와 관련된 웹사이트 목록 그 이상의 것을 찾고 있다. 그들은 “더 깊은 통찰력과 이해”를 원한다.
웹사이트 대신 답변을 제공하는 것, 이것이 바로 검색 3.0이 하는 일이다. ChatGPT와 같은 Generative AI(생성형 AI) 도구가 뜨는 이유이기도 하다.
비유하자면, 구글이 우리의 질문에 답할 수 있는 도서관의 책을 알려주는 동료라면 ChatGPT는 이미 도서관의 모든 책을 읽었고 우리의 질문에 답할 수 있는 동료라 할 수 있다(Harvard Business Review, 2023.2).
이론적으로 그렇다는 얘기다. 하지만 지난 편에서 언급했듯이 원재료인 ‘데이터’와 관련한 한계가 있다(필자의 본 시리즈 10편(3월 14일), 12편(3월 28일) 참고).
2022년 12월 OpenAI의 CEO 샘 알트만(Sam Altman) 조차도 “중요한 일에 지금 당장(현재 시점에서) [ChatGPT]에 의존하는 것은 실수입니다”라고 트윗을 날리기도 했다.
전문가들은 대규모 언어모델(LLM, large language model)이 기존 검색 엔진의 특정 측면을 향상시킬 가능성은 크지만 지금 당장 구글 검색을 무너뜨릴 수 있는 것 같지는 않다고 주장한다.
하지만 LLM은 구글 검색(통합 검색)과는 다른 종류의 검색을 변화시키는 데 더 파괴적이고 혁신적인 역할을 할 수 있을 것으로 기대한다.
• '버티컬 검색(vertical search)', 좁지만 깊이 있는 지식의 특정 분야에 초점
검색 3.0 시대에 가능성이 더 큰 것은 전문화되고 주제에 특화한 검색 엔진인 ‘버티컬 검색(vertical search)’을 위해 의도적으로 훈련된 LLM의 등장이다.
버티컬 검색은 몇 가지 이유로 인해 LLM의 확실한 활용사례라 할 수 있다. 우선, 버티컬 검색은 좁지만 깊이 있는 지식의 특정 분야와 활용 사례에 초점을 맞춘다.
이를 통해 고도로 선별된 데이터 세트에서 LLM을 교육하기가 더 쉬워진다. 선별된 데이터 세트는 모델에 대한 소스 및 기술적인 세부 정보를 설명하는 포괄적 문서와 함께 제공된다.
또한 이러한 데이터 세트는 저작권, 지적 재산권 및 개인 정보 보호법, 규정 등에 의해 관리되는 것이 쉬워진다. 규모가 작고 검색목표가 명확한 언어모델은 계산 비용이 낮아 더 자주 재훈련하기가 용이하다.
특화된 LLM에서 일단 생성형 모델이 훈련되면 훨씬 적은 데이터로 특정 콘텐츠 도메인에 대해 ‘미세 조정’이 가능해진다.
2018년 구글이 공개한 언어모델 버트(BERT)는 생의학 콘텐츠(BioBERT), 법 관련 콘텐츠(Legal-BERT) 및 프랑스어 텍스트(CamemBERT)용 BERT 등 특정 목적을 위해 ‘버티컬’ 방향으로 세분화되었다(Harvard Business Review, 2022.11).
엔비디아(NVIDIA)도 버티컬 검색 분야에 참여하고 있다. 엔비디아 바이오네모(BioNeMo)는 슈퍼컴퓨팅 규모에서 대형 생체분자 트렌스포머 AI 모델을 훈련하고 배포하기 위해 엔비디아 네모 메가트론(NVIDIA NeMo Megatron)에 구축된 AI 기반 약물 발견 클라우드 서비스 및 프레임워크이다.
실제로 에보자인(Evozyne), 인실리코 메디슨(Insilico Medicine) 등의 신약 개발사가 새로운 치료제 후보물질에 대한 데이터 기반 약물 설계를 지원하기 위해 바이오네모를 도입했다.
• 구글의 통합 검색 우위는 당분간 유지, 다만 버티컬 검색은 경쟁 예상
OpenAI는 도메인에 특화한 100개 정도의 특별한 사례가 GPT-3 결과물의 정확성과 관련성을 크게 향상시킬 수 있음을 발견했다고 한다.
검색엔진의 절대강자 구글은 언어모델 버트뿐만 아니라 최근 ChatGPT의 대항마 바드(Bard)까지 선보이는 등 Generative AI 분야에서 다소 뒤처져 있다는 이미지 만회를 위해 애쓰고 있다.
그렇지만 ‘생성형’이 아닌 통합 검색 분야에서는 여전히 절대우위를 점하고 있으며 당분간은 구글의 우위가 유지될 것으로 보인다.
다만 좁지만 깊이 있는 지식정보를 요구하는 특정 분야에서의 버티컬 검색은 여러 검색 엔진 관련 AI 기업들의 각축장이 될 것이다.