만약 소프트웨어 역사상 가장 찬사받는 도구가 대부분 쓰레기를 만들어내고 있다면?

지난주, 해커 뉴스에 올라온 한 데이터 분석이 수백 개의 추천을 받으며, 전형적인 개발자 간의 갑론을박이 아닌 집단적 자기성찰에 가까운 댓글 스레드를 만들어냈을 때, 나는 그 질문 앞에서 멈춰 설 수밖에 없었다. 분석 결과는 이랬다: Anthropic의 Claude와 연관된 코드 산출물의 약 90%가 별(star) 2개 미만의 GitHub 저장소에 머물고 있다는 것. 참여도가 낮은 저장소가 아니다. 참여도가 거의 제로인 저장소다. 아무도 없는 숲에서 쓰러지는 나무처럼 존재하는 그런 저장소들이다.

이것은 인터넷 한구석 러다이트들의 변두리 불만이 아니다. AI 코딩 에이전트가 5,000억 달러 규모의 소프트웨어 산업을 재편할 것이라는 전제 아래 벤처 캐피털리스트들이 수표를 써대는 바로 그 시점에 도착한 정량적 증거다. 이보다 더 불편한, 그리고 이보다 더 필요한 타이밍은 없을 것이다.

나는 이 데이터가 실제로 무엇을 의미하는지, 그리고 황제의 새 코드 에디터에 옷이 있기는 한 건지 이해하기 위해 개발자, 투자자, 연구자들과 이야기를 나눴다.

AI 붐을 뒤흔드는 지표

해커 뉴스에서 광범위하게 논의된 이 분석은, 커밋 패턴, API 핑거프린트, 메타데이터를 통해 Claude를 코드 생성에 집중적으로 사용한 것으로 추정되는 GitHub 저장소들을 조사했다. 결론은 냉혹했다: AI 지원 산출물의 압도적 다수가 커뮤니티 참여, 포크, 하위 사용이 사실상 전무한 저장소에 존재했다.

약 600포인트를 기록한 해커 뉴스 스레드는 많은 댓글 작성자들이 독립적으로 관찰했다고 말한 현상을 증폭시켰다 — 보일러플레이트 프로젝트, 튜토리얼 클론, LLM 생성의 전형적인 흔적을 지닌 반쯤 완성된 프로토타입의 범람. 장황한 변수 이름. 완벽하게 구조화되었지만 기능적으로는 텅 빈 README 파일. 컴파일은 되지만 실제 문제는 아무것도 해결하지 못하는 코드.

개발자들이 실제로 하는 말

나는 해커 뉴스 토론에 참여한 여러 시니어 엔지니어에게 연락했다. 익명을 요청한 중견 SaaS 기업의 백엔드 아키텍트 한 명이 직설적으로 말했다.

Q: AI 코딩 도구가 작업 방식을 바꿨다고 댓글을 다셨는데요. 하지만 이 데이터는 산출물이 의미 없다고 시사합니다. 어떻게 설명하시겠습니까?

"두 가지 다른 이야기입니다. 회사 안에서 Copilot과 Claude는 보일러플레이트 작업에서 하루에 30분 정도를 절약해 줍니다. 그건 실질적이죠. 하지만 GitHub에서 보이는 저장소 폭증? 그건 완전히 다른 현상입니다. 사람들이 프롬프트 하나로 프로젝트 전체를 생성하고 GitHub에 올리면서 그게 무언가를 의미하는 것처럼 행동하고 있어요. 웹사이트에서 졸업장을 인쇄하고 자기가 의사라고 주장하는 것의 코딩 버전이죠."

Q: 그러면 생산성 향상은 실재하지만 범위가 좁다는 건가요?

"정확합니다. 이 도구는 좋은 자동완성이에요. 그럭저럭인 아키텍트이고, 형편없는 프로덕트 매니저입니다. 별 0개인 저장소들은 아무도 프로덕트 매니저 역할을 하지 않은 곳이에요. 누군가가 'X를 만들어줘'라고 했고 AI는 순순히 따랐는데, 정작 아무도 X를 필요로 하지 않았던 거죠."

산출물과 가치 사이의 수십억 달러 격차

이것이 개발자 문화를 넘어 중요한 이유는, AI 코딩 에이전트가 필수불가결해질 것이라는 논지에 실제 자금 — 어마어마한 규모의 — 이 유입되고 있기 때문이다. Claude를 만든 Anthropic은 수십억 달러를 조달했다. OpenAI의 모델 위에 구축된 GitHub Copilot은 Microsoft AI 수익화 전략의 중심에 있다. Devin, Cursor를 비롯한 수십 개의 스타트업이 엔지니어링 팀 전체를 대체하겠다고 약속하는 자율 코딩 에이전트 개발에 경쟁적으로 뛰어들고 있다.

모든 투자 제안서에 담긴 암묵적 약속: AI가 개발자 생산성을 5배, 10배, 어쩌면 그 이상 증폭시킬 것이라는 것. 하지만 그 증폭된 산출물의 90%가 어떤 인간도 사용하지 않는 저장소에 귀결된다면, 그것은 0의 곱셈이다.

나는 AI 개발자 도구 기업 두 곳에 투자한 벤처 캐피털리스트에게 이 질문을 던졌다.

Q: 이 데이터가 우려됩니까?

"GitHub 별이 생산성의 척도라고 생각했다면 우려가 됐겠죠. 하지만 그렇지 않습니다. 대부분의 기업 코드는 공개 GitHub에 올라가지 않아요. 보이는 저장소들은 취미 개발자, 학습자, 실험하는 사람들의 것입니다. 진짜 가치 창출은 시트당 월 19달러를 내는 기업들의 비공개 저장소 안에서 일어나고 있습니다."

Q: 그래도 이 데이터는 AI가 생성한 코드 대부분이 독자도 목적도 없다는 걸 시사하지 않나요?

"2006년 워드프레스에 대해서도 같은 말을 할 수 있었을 겁니다. 대부분의 워드프레스 사이트는 방문자가 0이었어요. 그렇다고 워드프레스가 나쁜 비즈니스였던 건 아닙니다."

합리적인 반론이다. 하지만 이는 실리콘밸리의 밸류에이션이 어떻게 구성되는지에 대해 중요한 점을 드러낸다. 피칭은 "취미 개발자들이 일회용 프로젝트를 더 빨리 만들도록 돕겠다"가 아니다. 피칭은 생산성 혁신이다. 그리고 공개 증거 — 우리가 실제로 측정할 수 있는 증거 — 는 다른 이야기를 하고 있다.

코드를 학습하는 플랫폼이 코드 생성기도 판매할 때

이 데이터 논의는 GitHub 자체의 중대한 정책 업데이트와 함께 도착했다. 2026년 3월 24일 GitHub 블로그에 보도된 바와 같이, GitHub은 Copilot 사용자의 코드 스니펫, 프롬프트, 상호작용 데이터가 모델 학습 및 제품 개선에 어떻게 사용될 수 있는지에 관한 Copilot 상호작용 데이터 사용 정책을 개정했다.

이 타이밍은 잘못된 인센티브에 대해 10년간 경고해 온 버클리 AI 연구자 스튜어트 러셀이 즉시 알아볼 만한 질문을 제기한다. 코드를 호스팅하는 플랫폼이 그 코드를 학습함으로써 이익을 얻고, 코드를 생성하는 도구가 대부분 저가치 산출물을 만들어내고 있다면, 우리는 AI가 AI가 생성한 범작을 학습하는 피드백 루프를 만들어낸 것이다.

내가 이야기를 나눈 한 머신러닝 연구자 — 주요 연구소에서 코드 생성 모델을 연구하는 — 는 그 위험을 인정했다.

Q: AI 생성 코드를 학습 데이터로 사용하여 모델이 붕괴하는 것이 실제 우려 사항입니까?

"더 이상 이론적인 문제가 아닙니다. 이미 내부 평가에서 나타나고 있어요. 2024년 이후의 GitHub 데이터로 학습한 모델은 새로운 문제 해결 능력에서 미묘한 저하를 보입니다. 올바르게 보이는 코드를 생성하는 데는 점점 나아지지만, 중요한 방식에서 실제로 올바른 코드를 생성하는 데는 점점 나빠지고 있어요."

Q: 해결책은 무엇인가요?

"데이터 큐레이션입니다. 필터링이요. 비용이 많이 들고 지루하며 아무도 자금을 대려 하지 않아요. 좋은 데모가 안 되니까요. 하지만 유용한 도구와 매우 비싼 랜덤 코드 생성기의 차이가 바로 거기에 있습니다."

반복되는 MOOC의 전철

나는 이 패턴을 알아볼 만큼 충분히 많은 기술 사이클을 취재해 왔다. 2010년대 초, MOOC 혁명은 교육의 민주화를 약속했다. Coursera와 edX가 하버드 수준의 학습을 모든 사람에게 무료로 제공할 것이라고 했다. 수백만 명이 등록했다. 수료율은 약 5%를 맴돌았다. 기술은 작동했다. 하지만 처음 제시된 형태의 가치 제안은 그렇지 않았다.

AI 코딩 에이전트가 같은 궤적을 그리고 있을 수 있다. 기술은 진정으로 작동한다. Claude는 기능하는 코드를 작성할 수 있다. Copilot은 소름 끼칠 정도로 정확하게 자동완성할 수 있다. 하지만 "기술이 작동한다"와 "기술이 밸류에이션이 요구하는 규모의 가치를 창출한다"는 두 개의 매우 다른 주장이며, 데모와 실전 배포 사이의 광활하고 화려하지 않은 거리만큼 떨어져 있다.

90%라는 수치는, 면밀한 검증을 견딘다면, AI 코딩 도구가 쓸모없다는 것을 증명하지 않는다. 더 미묘하고, 투자자들에게는 잠재적으로 더 위험한 무언가를 증명한다: 이 도구들은 좁은 범위의 맥락에서 유용하며, 그 좁은 범위에 대한 시장은 1,000억 달러 투자 논지가 가정하는 것보다 훨씬 작을 수 있다는 것을.

뉴스 사이클보다 오래 남아야 할 세 가지 시사점

첫째, AI 생산성에 대한 더 나은 지표가 필요하다. GitHub 별은 불완전하다. 하지만 AI 기업들이 선호하는 지표인 "생성된 코드 줄 수"도 마찬가지다. 결과물 — 실제로 출시되고, 확장되고, 문제를 해결하는 소프트웨어 — 을 측정하기 전까지, 우리는 아무도 치르지 않는 시험을 채점하고 있는 것이다.

둘째, 기업 시장과 소비자 시장의 구분이 대단히 중요하다. 진짜 가치가 기업 방화벽 뒤에 있다면, AI 코딩 도구를 만드는 기업들은 투자자들이 검증할 수 있는 데이터로 그것을 증명해야 한다 — 일화나 NPS 점수가 아니라.

셋째 — 그리고 이것이 불편한 부분인데 — AI 코딩 에이전트는 이미 생산적이었던 사람들을 주로 가속화하는 한편, 나머지 모든 사람들로부터는 동시에 소음의 바다를 생성할 수 있다. 그것은 혁명이 아니다. 그것은 전동 공구다. 전동 공구는 가치가 있다. 하지만 1,000억 달러로 평가되지는 않는다.

중요한 코드는 한 번도 양에 관한 것이었던 적이 없다. 항상 판단력에 관한 것이었다 — 무엇을, 왜 만들어야 하는지 아는 것. 아직 어떤 모델도 그 능력을 보여주지 못했다. 그리고 그때까지, 쓰레기 더미는 계속 쌓여간다.