[BREAKING] Reports of code's death are greatly exaggerated

아무도 말하고 싶어 하지 않는 정밀도 문제

스티브 크라우스(Steve Krouse)가 대부분의 현업 엔지니어들이 이미 본능적으로 느끼고 있던 것을 수치로 증명했다. 그의 에세이 "코드의 죽음에 대한 보도는 크게 과장되었다(Reports of code's death are greatly exaggerated)"는 해커 뉴스에서 303포인트를 기록하며 이번 주 가장 많은 추천을 받은 프로그래밍 게시물 중 하나가 되었다. 핵심 논지는 기만적으로 단순하다: 코드는 현재의 AI 시스템이 안정적으로 제공할 수 없는 수준의 정밀도를 요구한다는 것이다.

"언젠가 제공하지 못할 수도 있다"가 아니다. 지금 제공할 수 없다.

시점이 중요하다. 지금 우리는 주요 기술 기업들의 모든 실적 발표에 "AI가 소프트웨어 개발 방식을 혁신할 것"이라는 식의 문구가 포함되는 사이클 한가운데에 있다. GPU 클러스터에 수십억 달러의 자본 지출이 쏟아지고 있으며, 그 정당화 근거의 일부는 AI 코딩 도구가 개발자 생산성을 10배 이상 높여줄 것이라는 약속이다. 크라우스의 주장, 그리고 해커 뉴스의 폭발적인 반응은 개발자 커뮤니티가 선을 긋고 있음을 시사한다.

"대충 맞는 것"과 "진짜 맞는 것" 사이의 격차

stevekrouse.com에 게재된 크라우스의 에세이에 따르면, 근본적인 문제는 AI가 코드를 작성할 수 없다는 것이 아니다. AI는 분명 코드를 작성할 수 있다. 문제는 소프트웨어 엔지니어링이 정밀도의 학문이라는 것이며, "대충 맞는 것"과 "진짜 맞는 것" 사이의 격차에 모든 실질적인 작업이 존재한다는 것이다.

궤도역학을 생각해 보라. 위성을 정확한 궤도의 95%까지 보내는 것은 B+ 학점이 아니라, 죽은 위성이다. 소프트웨어도 마찬가지다. 엣지 케이스의 95%를 올바르게 처리하는 함수는 프로덕션에 버그를 배포한다. 95% 정확한 데이터베이스 마이그레이션은 데이터를 손상시킨다.

크라우스는 이것을 일시적인 한계가 아니라 근본적인 한계로 규정한다. 대규모 언어 모델은 확률적 시스템이다. 가장 가능성 높은 다음 토큰을 생성한다. 그러나 올바른 코드는 가능성이 아니라 정확성의 문제다. 잘못 배치된 연산자 하나, 틀린 변수명 하나, 미묘한 경쟁 조건 하나—이런 종류의 오류는 모델 파라미터를 확장한다고 사라지는 것이 아니다.

이 주장은 303포인트에 달하는 개발자들의 공감을 얻었다.

300개의 추천이 업계 신호인 이유

개발자 생태계 밖에 있는 사람들을 위해 설명하자면, 해커 뉴스의 점수는 풍향계로서 중요하다. Y Combinator가 운영하는 이 플랫폼은 글로벌 소프트웨어 엔지니어링 커뮤니티의 사실상의 광장 역할을 한다. 게시물이 300포인트를 넘는다는 것은 수백 명의 경험 많은 엔지니어들이 읽고, 동의하고, 적극적으로 지지했다는 의미다.

댓글 스레드는 더욱 풍부한 이야기를 들려준다. 개발자들은 AI 코딩 도구가 그럴듯해 보이지만 미묘하고 감지하기 어려운 방식으로 실패하는 코드를 생성한 구체적인 사례를 공유한다. 패턴은 일관적이다: AI 도구는 보일러플레이트, 스캐폴딩, 초안 작성에서는 잘 작동한다. 정밀도가 중요할 때, 즉 진짜 중요할 때 무너진다.

이것은 더 이상 소수 의견이 아니다. 실무자들 사이에서 합의된 견해가 되어가고 있다.

불투명해지는 비즈니스 케이스

여기서부터 경제학이 불편해진다. AI 코딩 도구 시장 전체—GitHub Copilot, Cursor, Claude Code, Devin, 그리고 수십 개의 스타트업—는 암묵적인 약속 위에 세워져 있다: 이 도구들이 기업들이 더 적은 엔지니어로 더 많은 일을 하거나, 최소한 엔지니어 1인당 산출량을 극적으로 늘릴 수 있게 해줄 것이라는 약속이다.

밸류에이션은 그 약속을 반영한다. 벤처 캐피털이 AI 코딩 스타트업에 수십억 달러를 쏟아부었다. 마이크로소프트 같은 상장 기업들은 Copilot 도입에 상당한 전략적 베팅을 걸었다.

그러나 크라우스가 정밀도 한계에 대해 옳다면, 실현 가능한 시장 규모는 매우 달라 보인다. 엔지니어를 대체하는 대신, 이 도구들은 정교한 자동완성—유용하지만 혁신적이지는 않은—이 된다. 이것이 100억 달러 시장과 5,000억 달러 시장의 차이다.

분명히 하자면, 진지한 사람 중 아무도 이 도구들이 쓸모없다고 주장하지 않는다. GitHub은 Copilot 사용자가 제안의 약 30%를 수락한다고 보고한다. 이것은 실질적인 생산성 향상이다. 그러나 "보일러플레이트를 30% 빨리 작성한다"와 "AI가 프로그래머의 필요성을 없앤다"는 경제적 영향 면에서 은하계만큼 떨어져 있다.

반대편에서 거는 베팅

모든 사람이 정밀도 논지에 동의하는 것은 아니다. 일부 저명한 AI 연구자와 스타트업 창업자들은 정밀도가 점진적 개선으로 해결될 엔지니어링 문제라고 주장한다. 그들의 논리는 대략 이렇다: 초기 컴파일러도 신뢰할 수 없었다. 초기 클라우드 인프라도 취약했다. 컴퓨팅에서 모든 추상화 계층은 거칠게 시작해서 개선되었다.

앤트로픽(Anthropic)의 CEO 다리오 아모데이(Dario Amodei)는 AI 시스템이 향후 몇 년 내에 최고 수준 엔지니어의 역량에 필적할 것이라고 공개적으로 밝혔다. NVIDIA의 젠슨 황(Jensen Huang)도 비슷한 예측을 했다. 이들은 한가한 평론가가 아니다—이 베팅에 수백억 달러를 투입하고 있는 사람들이다.

AI 연구소 CEO들이 예측하는 것과 현업 엔지니어들이 매일 경험하는 것 사이의 벌어지는 격차는 기술 산업을 규정하는 핵심 긴장 중 하나가 되어가고 있다.

시장을 위한 세 가지 시사점

AI 지원 개발의 경제학을 추적하는 모든 이에게 세 가지 결론이 도출된다.

"프로그래머는 쓸모없어진다"는 내러티브는 빠르게 신뢰를 잃고 있다—실제로 소프트웨어를 출시하는 바로 그 사람들 사이에서. 이것이 중요한 이유는 개발자 도입이 시장에 나와 있는 모든 AI 코딩 도구의 수익 모델을 좌우하기 때문이다. 커뮤니티가 이 도구들을 대체재가 아닌 유용한 보조 도구로 본다면, 가격 결정력과 시장 규모 모두 축소된다.

AI가 부족분을 메워줄 것이라는 가정 하에 주니어 인력을 줄이는 기업들은 실질적인 실행 리스크를 감수하고 있다. 크라우스가 지적하는 정밀도 문제는 주니어 엔지니어가 담당하는 바로 그 업무—정확성이 이진적인 작고 명확히 정의된 코딩 작업—에서 가장 크게 타격을 준다. AI가 사람의 검토 없이 이런 작업을 안정적으로 완수할 수 없다면, 인력 산정은 맞아떨어지지 않는다.

진정한 승자는 AI를 개발자 대체가 아닌 정밀도 향상 도구로 포지셔닝하는 기업일 수 있다. 자동조종장치 대 조종사 보조 시스템을 생각해 보라. 후자는 기하급수적 성장 내러티브를 좇는 투자자들에게는 더 어려운 셀링 포인트지만, 기술이 오늘날 실제로 제공하는 것에 훨씬 더 가깝게 부합한다.

조정 국면에 이름이 붙었다

우리는 이 패턴을 기술 업계에서 전에도 본 적이 있다. 진정으로 강력한 기술이 등장하고, 과대광고할 재정적 인센티브가 있는 사람들에 의해 과대광고되고, 현실이 개입하면서 조정을 맞이하고, 결국 실제의 거대하지만-무한하지는-않은 시장에 안착한다.

클라우드 컴퓨팅이 그랬다. 블록체인이 그랬다. AI 코딩 도구는 이제 그 조정 국면에 진입하고 있으며, 해커 뉴스 303포인트로 증폭된 크라우스의 에세이는 명확한 변곡점을 나타낸다.

엔지니어들은 과대광고를 사지 않는다. 그리고 소프트웨어에서 엔지니어가 바로 고객이다.

그것이 주목할 만한 신호다.