첫 화면 메뉴 바로가기 본문 내용 바로가기

한국저작권위원회

인기검색어
폰트, 음악, PPT, 일러스트
전체 메뉴
닫기

저작권동향

저작권동향 상세보기
제목 [이슈리포트] 2022-09-머신러닝 모델 훈련을 위한 소스코드 이용의 저작권 쟁점(박지원)
담당부서 통상산업통계팀 장민기(0557920096) 등록일 2022-04-08
첨부파일

[이슈리포트] 2022-09-머신러닝 모델 훈련을 위한 소스코드 이용의 저작권 쟁점(박지원).pdf 바로보기

 

 

COPYRIGHT ISSUE REPORT 2022-09

Copyright Implications of the Use of Code Repositories to Train a Machine Learning Model1)

머신러닝 모델 훈련을 위한 소스코드 이용의 저작권 쟁점

- GitHubCopilot을 중심으로 -2)

 

 

 

 

한국저작권위원회 통상산업통계팀

박지원 선임연구원3)번역

 

 

서론

 

 

 

 

깃허브(GitHub)는 소프트웨어 소스 코드(이하 코드”)를 게시물의 한 형태인 저장소’(repositories)4)에 저장하고 이를 웹사이트에 호스트하여, 소프트웨어 개발자들의 협력을 강화하는 웹 기반 플랫폼입니다. 최근 깃허브사는 코드를 생성하여 개발자가 자신의 프로젝트에 포함시킬 수 있는 코파일럿(Copilot)이라는 서비스를 개시하였습니다. 코파일럿은 개발자가 제공한 코드에 대한 자연어5)설명을 실제 코드로 변환하도록 훈련된 머신러닝 모델을 활용하여 코드를 생성합니다. 다른 머신러닝모델과 마찬가지로, 코파일럿 역시 훈련 데이터가 필요하며, 이러한 훈련 데이터를 깃허브 사이트를 통해 공개된 저장소에서 일부 가져와 이용하고 있습니다. 저장소의 창작자는 보통 명시적으로 깃허브에서 그러한 목적으로 이용하는 것을 허락하지 않았기에, 다음과 같은 의문이 발생할 수 있습니다. 깃허브가 게시된 코드들을 활용하여 코파일럿을 훈련시키고 이를 통해 새로운 코드를 창작하는 것이 원 코드 제작자의 저작권을 침해하는가?

 

깃허브가 코파일럿을 개발하는 과정에서 모델을 훈련할 때와 코파일럿을 제품으로서 출시할 때, 이 두 가지 경우에서 창작자의 저작권 침해 여부가 문제될 수 있습니다. 이에 따라 침해 우려가 있는 행위들을 고려한 결과 코파일럿이 다음의 이유로 저작권을 침해하지 않을 가능성이 있는 것으로 결론 내렸습니다. 첫째, 깃허브의 이용약관이 모델을 훈련하거나 또는 그를 통해 만들어진 모델을 상품화하는 것을 허용할 가능성도 있으며, 둘째, 깃허브의 활동이 공정이용의 법리에 따라 허용되거나, 최소한의(de minimis) 복제에 할 수 있습니다.

 

코파일럿의 이용자인 개발자들은 코파일럿이 제작하는 코드를 이용하며, 그러한 코드는 해당 개발자의 프로젝트에 그대로 이용되거나 새로운 코드를 제작하기 위한 영감을 제공할 수 있습니다. 이러한 두 가지 경우 모두, 이용자인 개발자들이 코파일럿 훈련 데이터 내 코드의 개발자들의 저작권을 침해하지 않을 것이라는 결론에 이르렀습니다.

 

 

 

배경 : 저작권법, 깃허브와 머신러닝

 

 

 

 

. 저작권법

 

저작권법은 책, 그림, 음악 그리고 컴퓨터 소스코드와 같은 저작물의 창작자에게 특정한 법적 권리를 부여하기 위한 연방법입니다. 원 소스코드는 작성되고 특정한 유형매체에 저장되면 자동적으로 저작권에 의해 보호됩니다. 법은 보호되는 저작물의 창작자에게 타인이 자신의 작품의 특정한 이용(복제, 원저작물에 기초한 2차저작물의 작성, 배포, 공연 또는 전시)을 금지할 권리를 부여합니다.

 

깃허브의 이용자는 일반적으로 코드의 창작자이며 그에 따라 코드에 대한 저작권을 갖습니다. 하지만 저작권법이 부여하는 권리들은 공정이용이라는 제한을 받게 됩니다. 만약 어떤 사람이 타인의 저작물을 이용한 것이 정당하다고 판단되는 경우, 저작자는 그러한 이용을 금지할 권리가 없습니다. 법은 어떤 이용이 공정한지를 판단하기 위해 네 가지 요소 테스트를 마련하였으며, 미국 저작권법 제107조에 따르면, 이 네 가지 요소는 다음과 같습니다. (1) 이용의 성격과 목적, (2) 저작물의 종류, (3) 저작물이 이용량 및 (4) 저작자에게 미치는 이용의 경제적 효과. 각 요소들의 모호성과 다수의 사정들을 합리적으로 고려하여야 할 필요성으로 인해 특정 이용이 공정성 여부를 판단하는 것은 매우 까다롭습니다.

 

. 깃허브

 

깃허브는 파일들의 변경사항을 추적할 수 있는 (git)”이라는 오픈소스를 활용하여 소스코드에 대한 관리를 할 수 있는 서비스를 제공하고 개발자들 간 협력 및 관련 활동들을 지원합니다. 이용자들은 공개 또는 비공개 저장소를 생성할 수 있으며, 다른 이용자의 저장소에 참여하거나 다른 개발자들과 코드 변경에 대해 토론할 수 있습니다. 많은 저장소의 코드들은 코드에 대한 자연어 설명이 함께 첨부되기도 하며, 종종 코드 파일 내 주석이 삽입되기도 합니다.

 

. 머신러닝

 

코파일럿은 코드를 설명하는 주석에 기초하여 코드 스닙펫(Code snippets)6)을 생성하도록 훈련된 머신러닝모델을 이용합니다. 머신러닝모델은 훈련하기 위한 데이터가 필요하며, 코파일럿은 이러한 데이터를 공개 깃허브 저장소로부터 가져와 사용합니다. 훈련과정에서 코파일럿은 훈련 세트의 주석을 받아 주석이 설명하는 코드와 유사한 결과 코드를 생성하기 위해 확률적 경사 하강법7)을 이용하여 최적화됩니다. 코드를 기억(memorize)하지 않고 새로운 코드를 생성하기 위한 모델의 훈련을 보장하기 위해 다양한 기술들이 이용되지만, 큰 규모의 모델을 학습시키기 위해서는 일반적으로 어느 정도의 메모리제이션이 불가피합니다. 이로 인해 때때로 코파일럿은 훈련세트에서의 코드를 그대로 생성8)하기도 합니다.

 

 

 

법적 검토

 

 

 

 

. 깃허브의 이용약관이 게시된 코드를 코파일럿의 훈련세트로 활용하기 위해 이용하거나 코파일럿 이용자들에게 소스의 일부로서 제공되는 것을 허용하고 있는지 여부

 

깃허브 저장소에 자신의 코드를 저장하고자 하는 이용자들은 반드시 웹사이트의 이용약관에 동의하여야 합니다. 약관은 깃허브가 개발자의 저작권을 침해할 가능성이 있는 방법으로의 코드 이용도 가능하게 합니다. 구체적으로, 개발자는 깃허브에게 콘텐츠를 저장, 보관, 구문 분석(parse) 및 게시할 권리와 서비스를 제공하기 위해 필요한 부수적인 복제를 허용하고 있으며, 여기서 서비스란 코파일럿을 포함9)하여, 깃허브가 제공하는 모든 서비스를 의미합니다. 다시 말해, 라이선스10)데이터베이스로 [코드를] 복제 및 백업”, “이용자 본인 또는 다른 이용자에게 전시”, 그리고 검색 인덱스로 구문분석을 하거나 서버에서 분석할 권리를 깃허브에게 부여하고 있습니다.

 

어느 범위까지의 코파일럿의 훈련과 운영이 코드 제공자의 저작권에 영향을 끼치는지가 불분명합니다. 코파일럿 훈련은 서버에서 수행되는 분석의 한 형태이며, 훈련이 컴퓨터 램(RAM)에서 코드 복제를 수반하기 때문에 깃허브 pre-Copilot에서 발생한 것 이상으로 복제가 발생될 수 있습니다. 코파일럿에서 생성된 코드는 훈련 데이터 내 코드 스닙펫을 그대로 이용하지 않을 수 있지만 한편으로는 그대로 이용할 수도 있습니다. 설사 코파일럿이 복제를 한다고 하더라도, 이는 이용약관에 따라 허용되는 행위(”복제 및 전시”)에 해당한다고 할 수 있습니다. 이는 이용자가 깃허브가 이용자의 코드를 이용하고 코파일럿을 운영하도록 허락하였다는 주장에 대한 논거가 됩니다.

 

다만, 법원이 이용약관에 대해 모호하다고 판단할 여지가 있습니다. 코파일럿 이전에는 검색 인덱스로의 구문 분석 또는 다른 분석데이터베이스로의 복제는 검색, 정의 위치 지정(locating definitions), 새로운 코드 병합 등 깃허브의 기본 기능을 위한 간단한 수준의 분석을 의미하는 것으로 이해되어왔습니다. 마찬가지로 이용자 본인 또는 다른 이용자에게 전시(show)” 역시 임의의 코파일럿 사용자에게 스닙펫이 출처가 표시되지 않은 채(unattributed)로 보여지는 것이 아니라, 깃허브 웹사이트에서 검색한 이용자에게 원 저장소를 통해 보여지는 것을 의미해왔습니다. 법원은 이를 코파일럿의 저장소 이용을 예상치못한 새로운 기술적인 이용으로 보고 약관 상의 라이선스가 당사자의 의도를 명확하게 반영하지 못한 것으로 볼 수도 있습니다. 이 경우 어떤 법원에서는 라이선스 용어(. 단순 구문분석 및 공개)의 핵심적이고 명확한 범위 내로만 한정하여 해석할 수 있지만 다른 법원에서는 새로운 이용(. 코파일럿 훈련)을 라이선스의 용어의 범위 내에서 합리적으로 수용 가능한 이상 허용 가능하다고 볼 수도 있습니다(Bartsch v. Metro-Goldwyn-Mayer, Inc., 391 F.2d 150 (2d Cir. 1968)).

 

또 다른 가능성은 법원이 코파일럿이 생성한 코드를 원 코드를 기반한 2차적저작물로 파악할 수 있으며, 라이선스는 2차적저작물을 명시적으로 허용하고 있지 않습니다. 이러한 결론의 판례를 매우 드물다고 볼 수 있습니다.

 

. 깃허브의 머신 러닝을 위한 저장소 코드 이용이 공정이용인지 여부

 

저장소의 콘텐츠를 훈련세트로 이용하기 위해 깃허브는 코드를 복제 하여야 합니다. 만약 법원이 이용약관 해석 상 코드 제공자가 이러한 복제에 동의하지 않았다고 판단한다면, 깃허브의 이용이 저작권법상의 공정이용인지 여부에 대한 검토가 필요합니다. 이를 판단하기 위해 법에 명시된 4가지 요소를 고려하게 됩니다.

 

(1) 이용의 목적과 성격

 

이는 (i) 상업적 목적에 따른 이용인지 여부, 그리고 (ii) 이용이 변형적인 방식(transformative)인지에 대한 것이며, 미국 연방 대법원은 이 중 두번째에 더 무게를 둡니다. 이용의 목적과 성격에 대한 판단 목적은 이용이 원래 저작물의 목적을 단순히 대체하는지(예를 들어, 원작을 그대로 복제하여 원작자와 경쟁적으로 판매하는 경우) “아니면 다른 성격 또는 이를 발전시킬 목적으로 새로운 무언가를 첨가하여 새로운 표현, 의미 또는 의도로 변경하는 것인지를 판단하기 위함입니다. Campbell v. Acuff-Rose Music, Inc., 510 U.S. 569 (1994)

 

깃허브가 저장소의 콘텐츠를 훈련 데이터로 이용하는 것이 변형적인 방식의 이용이라는 강력한 주장이 있습니다. 원 소스코드는 개발자가 개별 요소의 목록을 정리하거나 수학적인 계산을 수행하는 것과 같이 특정한 목적을 달성하기 위해 작성한 것이지만, 깃허브는 그것은 전혀 다른 목적, 자연어 설명에 기반한 새로운 코드 생성을 위해 모델을 훈련하기 위한 목적으로 이용한다는 것이다. 이는 논문 제출을 위해 표절 검사 서비스를 이용하는 사안과 유사하다고 볼 수 있습니다. 표절검사 서비스 제작사는 제출된 논문을 인터넷 또는 다른 데이터베이스의 논문과 대조한 후, 학생이 제출한 논문을 다음 서비스 제공을 위해 자신의 데이터베이스에 추가할 수 있습니다. 법원은 이러한 회사의 이용을 변형적인 이용이라고 보았습니다(논문의 목적은 표현적인 내용을 전달하는 것이고 데이터베이스의 목적은 표절을 검사하는 것이다, A.V. ex rel. Vanderhye v. iParadigms, LLC, 562 F.3d 630 (4th Cir. 2009)). 마찬가지로 깃허브는 코드를 목록을 정리하기 위해 이용하는 것이 아니라 모델을 훈련하고 특정한 목적을 달성하기 위한 코드를 생성하기 위해 사용하는 것으로 볼 수 있습니다. 코파일럿이 훈련 데이터를 그대로 복제하여 배포하는 경우도 마찬가지로 변형적인 이용이라고 볼 수 있습니다. 코파일럿은 코파일럿 이용자가 자신의 작업물에 이용하도록 제공하기 위해 상대적으로 짧은 스닙펫을 생성하므로 저장소의 코드를 단순히 대체한다고 보기 어렵습니다.

 

코파일럿 개발하는 깃허브의 목적은 상업적인 것으로 보이지만, 법원은 상업적인 목적보다는 변형적인 이용에 더 무게를 두고 공정이용의 이용의 목적과 성격요건을 충족한다고 볼 수 있습니다.

 

(2) 저작물의 종류

 

대부분의 경우 저작물의 종류에 대한 판단은 공정이용을 판단할 때 큰 비중을 차지하지는 않지만 컴퓨터 코드 복제가 결부된 일부 사안에서는 매우 중요한 지위를 갖습니다. 미국 연방대법원은 최근 구글의 자바API의 선언코드(declaring code, 간단하게 말하면, API를 구성하는 각 함수의 이름)를 안드로이드 운영체제에 복제하는 것을 공정이용으로 판단하였습니다. 법원은 저작물의 종류는 공정이용의 요소라고 설시하며, 구글의 선언코드 복제는 단순히 게으름에 기한 것이 아니라 자바 API에 익숙한 개발자들이 기존 기술을 안드로이드 앱 개발에 적용할 수 있도록 하는 것에 목적을 두고 있다고 설명하였습니다(Google LLC v. Oracle America, Inc., 141 S. Ct. 1183 (2021)). 다른 판례에서 법원은 게임 개발자인 Accolade가 세가 제네시스(Sega Genesis) 콘솔과 호환되는 게임을 개발하는 방법을 찾기 위해 세가 게임 카트리지를 분해하는 과정에서 코드를 복사하는 것을 공정이용이라고 판단하기도 하였습니다(Sega Enterprises Ltd. v. Accolade, Inc., 977 F.2d 1510 (9th Cir. 1992)).

 

깃허브가 저장된 코드를 복제하는 목적이 단순히 리스트를 정리하는 것이 아니고 개발자로 하여금 새로운 프로그램을 더 쉽게 만들 수 있도록 하는 것이라면, 법원은 공정이용을 위한 저작물의 종류요건을 충족하였다고 인정할 여지가 있습니다.

 

(3) 저작물의 이용량

 

일반적으로 이용자가 이용한 저작물의 양이 많을수록 법원은 이러한 이용을 공정하다고 판단할 가능성이 낮습니다. 그러나 저작물의 이용목적이 저작물의 이용량을 정당화할 수 있습니다. 많은 판례에서 법원은 이용의 목적에 따라 보호되는 저작물의 전체 복제마저도 정당화된다는 판단을 한 바 있습니다.

 

코파일럿을 훈련하기 위해서 깃허브는 저장소의 전체 코드를 훈련 세트에 복제하여야 할 것이지만, 이러한 복제의 목적에 비추어볼 때 복제량이 정당화 될 수 있습니다. 전체를 복사하는 것이 아니라면 코드를 생성하는 훈련 목적을 달성하는데 있어 덜 유용한 훈련세트를 만들게 되기 때문입니다;

 

생성되는 스닙펫이 상대적으로 짧기 때문에 코파일럿은 구동과정에서 저작물의 많은 부분을 복제하지 않을 가능성이 높습니다. 또한 코파일럿은 훈련 데이터를 그대로 인용하는 일은 거의 없습니다. 깃허브는 “[코파일럿의] 제안 중 0.1% 정도는 훈련세트의 일부 스닙펫을 이용할 수도 있다라고 밝혔습니다(https://copilot.github.com (FAQs, linked from “Protecting originality”). 코파일럿은 오직 적은 양의 코드를 복사하게 되므로 이는 공정이용에 해당할 가능성이 높고, 법원은 이를 최소한의(de minimis) 복제로 보아, 저작권 청구를 인용하지 않을 수도 있습니다. 하지만 “0.1%정도라는 깃허브의 설명에도 불구하고, 코파일럿이 어쩌다 상당히 긴 저장소의 코드를 그대로 이용할 가능성을 배제할 수는 없다는 점에 유의하여야 합니다. 게다가 0.1%는 깃허브가 중요히 않다고 여기는 원문 그대로의 복제 뿐만 아니라 원문과 매우 유사한 정도의 복제(. 단순히 변수의 이름만을 변경한 코드 스닙펫을 복제한 경우)까지 배제하고 있습니다. 이런 범위까지 복제가 이루어진다면, 공정이용 항변이 약화될 가능성이 있습니다.

 

(4) 저작자에게 미치는 이용의 경제적 효과

 

이와 관련하여 법원은 허락받지 않은 이용행위가 저작자가 원저작물로부터 얻는 경제적 가치를 어느 정도까지 훼손하는지를 판단기준으로 둡니다. 시장에서 원저작물을 이용하여 만들어진 저작물이 원저작물을 대체하는지 여부가 쟁점이 됩니다.

 

이러한 점을 감안하여, 법원은 그 이용이 얼마나 변형적(transformative)인지 여부에 방점을 두게 됩니다. 이용이 변형적일 수록, 원작을 활용한 창작물(the second work)이 원작을 시장에서 대체할 가능성이 낮아지기 때문입니다. 저장소의 코드는 컴퓨터로 하여금 계산 또는 정리와 같은 행동을 하도록 하는 반면에 코파일럿은 새로운 코드를 만드는 기존과는 전혀 다른 기능을 하기 때문에 법원은 이러한 점에서 코파일럿이 저장소를 대체하지 않는다고 판단할 수 있습니다.

 

몇몇 사례에서 법원은 허락받지 않은 저작물의 이용이 원저작자가 라이선스비를 청구할 기회를 잃게 하는지 여부를 경제적 효과를 판단하는 기준으로 두기도 합니다. 저작자는 타인의 이용(the challenged use)에 대해 상당한 라이선스비를 청구할 수 있기 때문에 그러한 이용이 정당하지 못하다는 일응 모순(an inherent circularity)적인 의견도 있으나, 저작권자는 타인의 이용이 공정하지 않을 경우를 전제로 라이선스 비용을 청구할 수 있다는 점에 유의하여야 합니다. 법원은 이러한 모순을 극복하기 위해 라이선스 비용에 대한 권리는 전통적이거나 납득 가능한, 적어도 개발될 가능성이 있는 시장이 존재할 경우에만 인정될 것이라는 주장을 받아들였습니다(American Geophysical Union v. Texaco Inc., 60 F.3d 913 (2d Cir. 1994)). 법원이 훈련 세트를 위한 코드를 제공하거나 혹은 타인의 프로젝트를 위한 코드를 제공하는 확립된 시장이 없다고 판단한다면 공정이용에서 이 요건 역시 충족한다고 인정할 수 있습니다.

 

. 개발자인 이용자들의 코파일럿의 결과물 이용의 침해 구성 여부

 

보통 개발자들은 자신의 프로젝트에 코드를 삽입하는 방식으로 코파일럿을 이용합니다. 이는 복제를 수반하며, 이는 저작권자의 배타적인 권리 중 하나입니다. 하지만 깃허브가 명시적으로 또는 암시적으로 원 소스코드의 이용에 대해 원개발자들의 동의를 얻어 보유하고 있는 것11)이므로 코파일럿 이용자들의 복제가 저작권을 침해하지 않습니다. 그렇다면 저장소의 소유자들의 저작권은 어떻게 되는것일까요? 위에서 살펴본 바와 같이 저장소의 코드가 그대로 코파일럿의 결과물로 현출될 가능성이 낮습니다. 깃허브에 따르면 저장소 코드의 0.1%만이 코파일럿의 결과로 이용되기 때문입니다. 그렇다면 여기에는 두 가지 가능성이 있을 수 있습니다. 첫 번째는 코파일럿이 개발자에게 저장소의 코드를 복제한 코드를 그대로 제공하고 개발자가 이를 자신의 프로젝트에 삽입한 경우입니다. 위에서 살펴본 것과 마찬가지로 공정이용 판단 기준에 따라 판단하여야 하며 이 역시 공정한 이용이라는 결론에 이를 수 있습니다. 두 번째는 코파일러의 결과물이 저장소의 코드 그대로가 아닌(또는 상당히 유사한) 경우입니다. 이러한 복제가 침해를 구성할 수도 있습니다. 작품 자체를 그대로 복제한 것은 아니지만 문학작품의 줄거리를 복제함으로써 침해가 성립되는 것이 가능한 것과 마찬가지입니다. 하지만 컴퓨터 코드를 그대로 복제하지 않은 경우 법원은 복사한 것은 표현이 아니라 아이디어에 불과하여 침해를 구성하지 않는다고 판단하는 경향이 있습니다(Computer Associates Int'l, Inc. v. Altai, Inc., 982 F.2d 693 (2d Cir. 1992)).

 

깃허브는 코파일럿이 생성하는 코드가 항상 작동된다거나 올바르다(https://copilot.github.com, (FAQs, linked from “General”)고 볼 수 없다고 인정한 바 있고 이에 따라 코파일럿의 이용자인 개발자들은 코파일럿이 제공한 코드를 단순히 영감을 얻기 위한 목적으로 사용할 수도 있습니다. 이 경우 복제는 표현이 아닌 아이디어의 복제의 수준에 불과하며, 따라서 침해를 구성하지 않을 것입니다.

 

 

 

결론

 

 

 

 

깃허브에 코드를 게시하는 많은 소프트웨어 개발자들은 깃허브가 자신들의 코드를 자신들 모르게 코파일럿을 훈련하기 위해 사용하고 있으며, 코파일럿은 그에 대한 정당한 출처 표시 없이 자신들의 코드를 다른 개발자들에게 제공하게 될 것이라는 점에 대해 우려하고 있습니다. 본 연구는 깃허브의 잘못을 감싸기 위한 것이 아니며, 코파일럿과 개발자인 이용자들이 원 코드 개발자들의 저작권을 침해하지 않을 가능성이 높다는 점을 밝히고자 하였습니다. 또한 코파일럿이 저작권은 침해하지 않았지만, 프리 소프트웨어 라이선스를 위반하였는지 여부 또는 코파일럿의 원 코드 개발자들의 인격권을 침해하였는지 여부는 다루지 않았습니다. 코파일럿은 여전히 베타 테스트 중이며, 깃허브는 코파일럿이 훈련세트에서 그대로 복제하는지 여부를 감지하기 위한 시스템을 개발중입니다. 하지만 방대한 훈련 세트 안에서 한 복제를 감지해낸다는 것은 알고리즘적으로 꽤 어려운 일이며, 완벽히 일치 하지 않는 코드(. 같은 코드이지만 단순히 변수이름만 다른 경우)에 대해서도 고려하여야 합니다.

 

코파일럿의 한가지 긍정적인 점은 개발자들의 지식재산에 대한 인식이 점점 커지는 한편, 그들이 통제할 수 없는 제3자에게 자신들의 코드를 호스팅하는 것에 대한 위험성을 깨닫게 되었다는 것입니다. 이러한 논의들이 코파일럿 개발에 따라 제기된 저작권 쟁점들을 설명하는데 도움이 되기를 희망합니다.

 

 ---------------------------------------------------------------------------

1) 본 이슈리포트는 자유소프트웨어재단(Free Software Foundation, FSF)에서 깃허브 코파일럿(GitHub Copilot)’ 관련 백서의 일부로서 2022224일 발표된 보고서로 원문은 John A. Rothchild 교수(Professor of Law, Wayne State University)Daniel H. Rothchild(Ph.D, the University of California, Berkeley)가 작성하였음. 이에 따라 위원회 연구원이 원문을 번역 및 설명을 보강하였음. FSF에 따르면 본 보고서는 재단의 의견과는 다른 의견을 포함하고 있으며, 본 보고서가 재단의 의견을 대표하는 것은 아니지만 본 보고서가 중요한 문제들에 대한 논의를 함의하고 있으며 이를 명확하게 정리하였기에 본 보고서를 채택하였다고 부연하였음. 원문은 FSF 재단 홈페이지에서 확인이 가능함https://www.fsf.org/licensing/copilot/copyright-implications-of-the-use-of-code-repositories-to-train-a-machine-learning-model (CC BY 4.0)

2) 독자의 명확한 이해를 돕기 위해 역자가 단 부제임

3) 영문 보고서를 국문으로 번역하고 이를 바탕으로 전문용어에 대한 보충 설명을 주석을 통해 추가 보강함. 아래의 주석은 모두 역자가 붙인 주석임

4) 개발자들이 자신들의 프로젝트를 업로드할 수 있는 공간을 말하며, 깃허브 이용자들은 코드에 대한 간단한 설명과 소스코드를 저장소에 올리고 이에 대해 다양한 사람들이 댓글을 통해 소스코드에 대한 의견을 주고 받을 수 있음

5) 컴퓨터에서 사용하는 프로그램 작성 언어 또는 기계어와 구분하기 위해 인간이 일상생활에서 의사소통을 위해 사용하는 언어를 가리키는 말(IT 용어사전, 한국정보통신기술협회)

6) 재사용이 가능한 소스코드의 소부분을 일컫는 말

7) 훈련세트에서 샘플을 하나씩 무작위로 꺼내서 훈련하는 방식

8) 원문에서 ‘generate’라는 단어를 이용하여 생성이라고 번역하였지만, 내용상으로 여기서의 의미는 복제로 보아야 함. 다만 필자는 실질은 복사이지만 모델은 생성한다고 생각하고 현출하는 것이기에 이렇게 표현하는 것으로 추측됨

9) 깃허브 약관에서는 코파일럿이라고 명시하고 있지 않다는 점을 유의하여야 함. 다음은 라이선스 원문. The “Service” refers to the applications, software, products, and services provided by GitHub, including any Beta Previews.

10) 위의 약관 내용은 깃허브 이용약관 중 깃허브에게 부여된 라이선스에 대한 설명이므로 필자는 라이선스로 표현하였음

11) 이는 위의 부분에 따른 결과를 의미하며, 원개발자들이 그러한 이용에 동의하지 않았고, 개발자들이 약관에 동의할 당시에는 코파일럿이라는 서비스가 존재하지 않아 예측가능하지 않으므로 그러한 이용에 동의할 수 없었다고 인정되는 경우에는 이 부분은 저작권 침해로 인정될 가능성이 있음에 유의할 것

 

 

 

 

  • 담당자 : 손휘용
  • 담당부서 : 국제통상협력팀
  • 전화번호 : 0557920089

본 페이지의 내용이나 사용 편의성에 대해 만족하십니까?

  • 만족도 총 5점 중 5점
  • 만족도 총 5점 중 4점
  • 만족도 총 5점 중 3점
  • 만족도 총 5점 중 2점
  • 만족도 총 5점 중 1점
평가하기