33년. 아카이브(arXiv)가 코넬대학교의 지붕 아래에서 보낸 시간이다. 그 세월 동안 아카이브는 조용히 물리학자, 수학자, 컴퓨터 과학자, 그리고 최근에는 AI 연구 커뮤니티 전체가 연구를 공유하는 핵심 인프라로 자리 잡았다. 이제 아카이브가 독립한다.

*사이언스(Science)* 매거진에 따르면, 아카이브는 코넬대학교에서 공식적으로 분리되어 독립 비영리 단체로 전환한다. 학계에서 오랫동안 논의되어 온 이번 조치는 수십 년 만에 오픈 사이언스 인프라에서 일어나는 가장 중대한 구조적 변화다. AI, 머신러닝, 혹은 신속한 지식 확산에 의존하는 어떤 분야에서든 일하고 있다면, 이 소식에 주목할 필요가 있다.

분리의 실제 모습

물리학자 폴 긴스파그(Paul Ginsparg)가 1991년에 설립한 프리프린트 서버 아카이브는, 존재 기간 대부분을 코넬대학교의 행정적·재정적 우산 아래에서 운영되어 왔다. 코넬은 기관 차원의 지원, 서버 인프라, 그리고 우편 주소를 제공했다. 그 대가로 아카이브는 현재 240만 편 이상의 논문을 호스팅하고 매달 약 16,000건의 새로운 투고를 받는 플랫폼에 대한 과도한 영향력을 코넬에 부여했다.

독립이란 아카이브가 자체 이사회, 자체 모금 조직, 그리고 결정적으로 자체 거버넌스 구조를 갖춘 독립 501(c)(3) 비영리 법인으로 설립된다는 것을 의미한다. *사이언스*의 보도에 따르면, 이번 전환은 아카이브의 규모와 중요성이 대학 프로젝트 모델을 넘어섰다는 인식에 의해 추진되었으며, 상당 기간 준비되어 왔다.

적대적인 결별은 아니다. 코넬은 전 과정에서 협조적이었다. 하지만 행간의 메시지는 분명하다. 아카이브에는 대학 학과가 제공할 수 없는 운영상의 자유가 필요하다.

이것이 지식의 공급망 이벤트인 이유

기술 업계에서 인프라 플레이를 지켜본 사람이라면 공감할 수 있는 방식으로 설명해 보겠다.

아카이브는 저널이 아니다. 학자들을 위한 소셜 네트워크도 아니다. 아카이브는 지구상에서 과학 연구를 위한 가장 중요한 단일 배포 레이어다. 동료 심사 전에, 보도자료 전에, 트위터에서 입소문을 타기 전에, 아카이브가 있다. 지난 4년간 읽어온 AI 붐? 최초의 트랜스포머 아키텍처부터 최신 추론 모델 기법까지, 거의 모든 기초 논문이 아카이브에 먼저 올라왔다.

따라서 이 플랫폼의 거버넌스 구조가 바뀌는 것은 행정적 각주가 아니다. 지식의 공급망 이벤트다.

이렇게 생각해 보자. 아카이브가 하나의 프로토콜이라면, 이것은 이더리움이 이더리움 재단에서 분리되어 완전한 탈중앙화 거버넌스 구조로 전환하는 것과 같다. 기반 서비스는 동일하게 유지되지만, 누가 통제하고, 누가 자금을 대고, 누가 미래를 결정하는지가 근본적으로 바뀐다.

오픈 인프라의 취약한 경제 구조

여기서부터 흥미로워지며, 약간의 회의적 시각을 권하고 싶은 부분이다.

아카이브는 역사적으로 코넬의 보조금, 사이먼스 재단(Simons Foundation)의 지원금, 그리고 연구 도서관들이 연회비를 내는 멤버십 모델의 혼합으로 유지되어 왔다. 총 운영 예산은 연간 약 300만 달러 수준이다. 참고로, 이는 일부 AI 스타트업이 GPU 크레딧에 한 달 만에 쓰는 금액보다 적다.

독립한다는 것은 아카이브가 대학이라는 안전망 없이 지속 가능한 자금 조달 방안을 스스로 마련해야 한다는 의미다. 멤버십 모델은 항상 취약했다. 도서관들은 만성적으로 예산 부족에 시달린다. 정부 지원금은 정치 주기에 따라 오락가락한다. 그리고 사이먼스 재단이 관대하게 지원해 왔지만, 핵심 인프라가 단일 주요 기부자에 의존하는 것은 결코 편안한 상황이 아니다.

새로운 비영리 구조는 가능성을 열어준다. 대형 AI 연구소들의 기업 후원이 있을 수 있다. 구글, 메타, 마이크로소프트, 오픈AI 모두 자사 연구의 배포 채널로 아카이브에 크게 의존하고 있다. 이들 기업이 플랫폼 유지에 상당한 기여를 해야 한다는 합리적인 주장이 있다. 실제로 그렇게 할지는 완전히 별개의 문제다.

또한 독립이 궁극적으로 새로운 수익 모델로 이어질 수 있는지의 문제도 있다. 기관 접속용 프리미엄 API, 강화된 메타데이터 서비스, 이미 수백만 편의 아카이브 논문을 스크래핑하고 있는 AI 도구들과의 통합 파트너십 등이 그것이다.

하지만 이 모든 경로에는 트레이드오프가 따른다. 대규모 기업 자금을 도입하는 순간, 기업의 영향력이 들어온다. 프리미엄 등급을 만드는 순간, 접근 불평등이 생긴다. 아카이브의 가장 큰 자산은 급진적 개방성이다. 그 원칙을 아주 조금이라도 훼손하면, 33년간의 중립성이 쌓아온 신뢰를 약화시킬 위험이 있다.

AI 연구 파이프라인에 미치는 의미

과학 언론이 간과할 가능성이 높은 부분에 대해 집중적으로 살펴보고 싶다. 아카이브의 독립은 AI 및 머신러닝 생태계에 특별한 함의를 지닌다.

아카이브의 ML 섹션은 폭발적으로 성장했다. 현재 신규 투고에서 불균형적으로 높은 비중을 차지하고 있다. AI 연구가 움직이는 속도—때로는 동일한 기법에 대한 경쟁 논문이 며칠 간격으로 등장하기도 하는—를 감안하면, 아카이브는 AI 연구자들에게 단순한 배포 플랫폼이 아니다. 아카이브 *자체가* 발표의 장이다. 많은 중요한 ML 결과가 전통적인 저널에는 전혀 게재되지 않는다.

이는 독특한 의존 관계를 만들어낸다. 프론티어 연구소부터 스타트업까지, AI 기업들은 아카이브를 중심으로 연구 워크플로 전체를 구축해 왔다. 시맨틱 스칼라(Semantic Scholar), 페이퍼스 위드 코드(Papers with Code), 허깅 페이스(Hugging Face)의 논문 페이지, 주요 연구소의 수많은 내부 도구—이 모든 것이 아카이브의 인프라 하류에 위치한다.

독립된 아카이브는 이론적으로 이 커뮤니티의 요구에 더 민첩하게 대응할 수 있다. 더 빠른 심사. 더 나은 API. 개선된 메타데이터 표준. 논문과 함께 코드와 데이터셋 같은 재현성 산출물 지원.

아니면 반대 방향으로 갈 수도 있다. 재정 압박을 받는 독립 아카이브는 장기적 개방성보다 단기적 지속 가능성을 우선시하는 결정을 내릴 수 있다. 대형 기관 행위자들의 로비에 더 취약해질 수도 있다. 잘못된 리더십 아래에서는 가속기가 아닌 병목이 될 수도 있다.

과거 인프라 전환에서 얻는 교훈

핵심적인 오픈 인프라가 거버넌스 전면 개편을 겪은 것이 처음은 아니다. 리눅스 재단. 아파치 소프트웨어 재단. 넷스케이프에서 분리된 모질라. 파이썬 소프트웨어 재단. 각 전환에는 리스크가 따랐고, 뚜렷이 다른 결과를 낳았다.

가장 시사하는 바가 큰 비교 대상은 인터넷 아카이브(Internet Archive)일 것이다. 역시 빠듯한 예산으로 핵심 오픈 인프라를 운영하는 비영리 단체다. 인터넷 아카이브는 대학이나 대기업이 제공할 수 있는 기관적 뒷받침이 없기 때문에, 법적 도전과 자금 불안정이라는 존립 위협에 직면해 왔다.

아카이브의 리더십은 이러한 선례를 연구하고 있을 것이다. 문제는 학문적 독립성을 보존하면서도 이 정도 중요성을 가진 플랫폼이 요구하는 자금을 확보할 수 있는 거버넌스 모델을 구축할 수 있느냐 하는 것이다.

기술 커뮤니티의 입장

이 기사는 해커 뉴스(Hacker News)에서 333포인트를 기록했는데, 기술 커뮤니티가 이 소식을 어떻게 바라보는지를 보여준다. 논의는 예상대로 두 진영으로 나뉜다.

한 쪽은 독립이 너무 늦었고 자명하게 옳다고 본다. 아카이브는 너무 오랫동안 대학 관료주의에 제약받아 왔다. 독립 비영리 단체는 더 빠르게 움직이고, 더 나은 인재를 채용하며, 커뮤니티에 더 직접적으로 봉사할 수 있다.

다른 쪽은 더 신중하다. 대학은 느리지만, 비영리 단체에 종종 결여된 일종의 제도적 안정성을 제공한다. 코넬의 지원은 아카이브가 끊임없이 자금을 쫓아다닐 필요가 없다는 뜻이었다. 매 분기 이사회에 존재 의의를 입증할 필요가 없었다. 그저 인프라로서 *존재*할 수 있었다.

양쪽 관점 모두 일리가 있다. 진실은, 늘 그렇듯, 실행에 달려 있다.

주시해야 할 세 가지 신호

이 전환이 진행되면서, 세 가지 지표가 가장 많은 것을 보여줄 것이다.

이사회 구성. 아카이브의 독립 이사회에 누가 앉느냐가 미래 방향에 대한 모든 것을 말해줄 것이다. 학계 인사가 많으면? 연속성을 기대하라. 기술 기업 임원이나 자선 재단 대표가 많으면? 좋든 나쁘든 변화를 기대하라.

자금 모델. 아카이브가 개방성을 훼손하지 않으면서 수익 기반을 다각화할 수 있다면, 이번 전환은 돌이켜보면 탁월한 결정으로 보일 것이다. 코넬의 보조금을 대체하는 데 어려움을 겪는다면, 아무도 원하지 않는 불안정 시기를 맞이할 수 있다.

기술 로드맵. 독립된 아카이브는 공격적으로 현대화할 자유가 있다. 현재 플랫폼은 기능적이긴 하지만, 연구자들이 필요로 하는 것을 따라가지 못하고 있다. 더 나은 검색, 더 나은 API, 멀티미디어와 코드에 대한 더 나은 지원, 연구자들이 실제로 사용하는 도구들과의 긴밀한 통합이 그것이다. 독립이 기술 개선의 물결을 이끌어낸다면, 커뮤니티는 이를 지지하며 결집할 것이다.

여기서의 이해관계는 진정으로 높다. 아카이브는 과학계 전체가 의존하면서도 학계 밖 대부분의 사람들은 들어본 적 없는, 그런 드문 인프라 중 하나다. 하루에 처리하는 정보의 중요도는 대부분의 미디어 기업이 일 년에 다루는 것보다 크며, 그 예산은 중급 기술 컨퍼런스의 케이터링 비용도 감당하지 못할 수준이다.

독립은 올바른 결정이다. 하지만 올바른 결정도 완벽한 실행이 필요하다. 과학계, 그리고 특히 아카이브의 가장 까다로운 이해관계자가 된 AI 연구 커뮤니티는 앞으로 벌어지는 일에 매우 주의 깊게 주목해야 한다.