첫 화면 메뉴 바로가기 본문 내용 바로가기

한국저작권위원회

인기검색어
폰트, 음악, PPT, 일러스트
전체 메뉴
닫기

저작권동향

저작권동향 상세보기
제목 2024년 제9호-[미국] Intercept Media v. OpenAI 사건(최승재)
담당부서 국제통상협력팀 손휘용(0557920089) 등록일 2024-05-16
첨부문서

2024년 제9호-[미국] 2024 Intercept Media v. OpenAI 사건(최승재).pdf 미리보기

[미국] Intercept Media v. OpenAI 외 사건 분석

 

세종대학교 법학과 교수

최승재

 

1. 사실관계

 

원고는 대규모 언어모델(Large Language Model, LLM)에 의한 생성형 AI 학습에 자사의 저작물(기사 등)을 이용한 것에 대해 OpenAI를 포함한 피고들을 상대로 미국 저작권법 제1202조를 청구원인으로 해서 저작권 침해 소송을 제기하였음.

소장에서 원고는 미국 헌법이 저작권의 보호를 위하여 제8조 제8항에서 의회에 인간의 창작성을 보호하도록 하고 있으며, 이런 법적인 장치는 저작자들이 불법적인 저작권 침해로부터 보호받을 수 있도록 하였다고 주장하고 있음. 이를 구체화한 것이 미국의 DMCA 1998이며 이 법은 저작권, 저자, 제목 등을 제거하거나 이러한 행위를 하도록 유도하거나 방조하는 행위 등을 금지하고 있음. 미국에서 저작권 소송을 제기하기 위해서는 저작권을 등록하여야 하지만 DMCA 위반으로 저작권 침해소송을 하는 경우에는 이와 같은 등록이 저작권 소송을 제기하기 위한 요건이 아니라는 점도 언급하고 있음.

이 사건에서 원고는 심층취재(in-depth investigation)를 전문으로 하며, 다수의 수상 경력이 있는 등 저명한 언론사임. 이들은 정치, 전쟁, 부패, 환경, 기술, 형사 사건 등 여러 분야에서 다양한 심층취재를 해오고 있음. 이들은 과거 부패한 경찰의 문제나 테프론(Teflon)의 독성에 대한 문제를 포함한 다양한 문제들을 취재하여 세상에 알렸음. 피고는 ChatGPT라는 대규모 언어모델을 이용하여 인공지능을 개발하고 서비스를 제공하고 있는 회사임.

원고는 피고가 ChatGPT-4를 학습시키는 과정에서 어떤 콘텐츠를 이용하였는지에 대하여 비밀로 유지하면서 이를 알리지 않고 있다고 주장하였음. 원고는 소장에서 피고가 공개적으로 접근 가능한 다양한 데이터들을 인공지능 학습을 위해서 이용하고 있다고 하면서 최소한 GPT-4 이전에는 웹텍스트, 웹텍스트2, 일반적 크롤링 등을 통해서 데이터를 수집하여 이를 인공지능 학습에 사용하였다고 주장하였음.

 

2. LLM 관련 소송과정의 예상쟁점들

 

1) 이 사건에서 법원은 아직 어떤 실체적인 판단을 한 것은 아닌 것으로 보임. 20242월에 소장이 제출되었고, 이후 절차가 진행되고 있음.

 

2) 이 소송에서 문제가 된 것이 LLM. 대규모 언어모델로 번역되는 LLMChatGPT를 통해서 우리에게도 익숙하게 되었음. LLM 개발에서 저작권 침해 문제는 개인정보 보호와 함께 핵심적인 쟁점의 하나가 되고 있음. 생성형 인공지능은 우리의 이해와 무관하게 지속적으로 개량되고 발전하고 있음.

우리의 관심사는 LLM을 학습시킴에 있어서 텍스트를 재구성하고 데이터를 재배치하는 일련의 과정에서 저작권에 의해서 보호받는 데이터를 추출해서 이들을 학습에서 제외하는 방식으로 학습 과정에서 자체적으로 문제를 해결할 수 있는지에 있음.

해당 사건은 LLM을 이용한 생성형 AI ChatGPT가 저작권 침해를 했다고 주장하면서 그 청구원인으로 저작권법 제1202조를 기초로 하였다는 점, 손해배상액의 산정과 관련해서 침해 1건당 2500 미국 달러(USD)의 법정 손해배상 청구를 했다는 점에서 사건의 소장 및 공개된 소송기록을 분석하여 유의미한 시사점을 도출할 수 있는 사건으로 보임. 이 사건의 소장에서는 구체적인 LLM에 의한 저작권 침해에 대한 데이터가 포함되어 있지는 않음.

 

3) LLM의 저작권 침해 실험결과

19권의 책과 1826개의 리트코드(leetcode) 문제를 LLM으로 학습하도록 한 실험이 있었음. 해당 실험에서 저작권 침해가 관찰되는 도서나 코드를 분석하여 본 결과 50% 이상 저작권법 위반의 소지가 있을 수 있다는 점이 주장되었음. 동 연구 결과에 의하면 데이터의 사이즈가 커질수록 저작권에 의해서 보호받는 텍스트가 더 많이 포함되는 것으로 보인다고 함(선형함수관계). 향후 소송에서 이런 실험에 의한 검증이 중요할 것으로 보임.

 

3. 시사점

 

1) 향후 법원의 디스커버리(증거수집제도) 절차에서 어떤 내용이 드러나게 될 것인지 여부

(1) 원고의 주장대로 피고가 어떤 데이터들을 이용하여 인공지능을 학습시켰고, LLM의 학습을 위하여 사용된 데이터들이 어떤 것이고 언론사의 저작권에 의해서 보호되는 기사들이 어떤 규모로 사용되었는지, 어떤 언론사의 저작권에 의해서 보호되는 기사들이 사용되었는지도 현재로서는 명확하지 않음. 법원의 판단을 받는 과정에서 미국에서 요구되는 디스커버리 절차를 통해서 어떤 정도로 이런 사항들이 드러나게 될 것인지가 향후 법원의 판단을 통해서 드러나게 될 일의 중요한 부분이라고 생각됨.

 

(2) 주지하는 바와 같이 우리 법원에서는 미국의 디스커버리와 같은 절차가 없으므로 우리 법원에서 만일 같은 소송을 제기한다고 하더라도 원고로서는 어떤 저작권에 의해서 보호받는 데이터가 침해의 목적이 되었는지를 확인할 방법이 없으므로 이 점에서는 미국 소송에서의 디스커버리 절차와 다른 우리 법원의 명확한 한계가 있다고 보임.

 

2) 반면 원고들이 소를 제기하면서 언급한 바 있는 소제기를 위한 저작권 등록의 필요성은 우리나라에서는 저작권 침해 주장을 위한 요건이 아니라는 점도 우리 법원에서의 분쟁 해결과 관련하여 고려할 점이라고 보임. 실제 저작권을 이용한 금융이나 저작권 침해를 청구원인으로 하는 소제기에서 저작권등록 여부는 베른조약이 무방식주의를 취하고 있고 우리나라에서도 소제기를 위한 요건이 아니라는 점에서 우리 법제에서 참고가 안 될 수 있음. 그런데 분쟁 해결과 관련하여 저작권 등록에 대해서 현재 우리 저작권법이 규정하는 바와 같은 식으로 유지할지 아니면 조약에 반하지 않으면서도 저작권등록과 소제기 등 저작권 분쟁 해결 절차의 연계를 도모할 점이 있을지에 대하여 생각하여 보는 계기는 될 수 있다고 보임.

 

 

참고자료

 

United States District Court Southern District of New York, 소장(Case 1:24-cv-01515)

Large, creative AI models will transform lives and labour markets, The Economist Apr. 22nd 2023

Antonia Karamolegkou et al, Copyright Violations and Large Language Model, Proceedings of the 2023 Conferences on Empirical Methods in Natural Lauage Processing, pp 7403-7412.

 

  • 담당자 : 손휘용
  • 담당부서 : 국제통상협력팀
  • 전화번호 : 0557920089

본 페이지의 내용이나 사용 편의성에 대해 만족하십니까?

  • 만족도 총 5점 중 5점
  • 만족도 총 5점 중 4점
  • 만족도 총 5점 중 3점
  • 만족도 총 5점 중 2점
  • 만족도 총 5점 중 1점
평가하기