인터넷 상의 이미지 크롤링은 저작권법 위반인가? 기계 학습의 법적 문제를 해설
최근 몇 년 동안, AI(인공지능) 기술의 발전이 두드러지며, ‘Stable Diffusion’이나 ‘Midjourney’와 같은 이미지 생성 AI와, 문장 등을 생성하는 ‘ChatGPT’와 같은 다양한 AI가 주목받고 있습니다. 인터넷 상의 데이터를 크롤링하여 AI에게 학습시키면, AI를 활용하여 다양한 일을 할 수 있게 되는 등, 기계학습의 정확도가 향상되고 있지만, 저작권법 위반의 위험이 지적되고 있습니다.
인터넷 상에서 공개된 이미지나 일러스트 등 다양한 데이터를 크롤링하여 무단으로 수집하고, 가공하여 AI의 기계학습에 활용하는 것이 저작권 침해가 될까요?
이 글에서는, 인터넷 상에서 공개된 이미지·일러스트를 기계 학습에 활용하는 것의 법적문제에 대해 설명하겠습니다.
머신러닝이란?
머신러닝(ML: Machine Learning)이란, 사람이 경험을 통해 배우는 것과 같이, 기계가 데이터를 통해 학습하는 것을 말합니다. 머신러닝의 과정에서는 데이터를 수집하고, 해당 데이터를 선택 및 가공하여 학습용 데이터 세트를 생성해야 합니다.
크롤링이란, 크롤러라고 불리는 프로그램이 웹사이트를 순회하며, 웹페이지에 있는 텍스트나 이미지 등의 정보를 복제·저장하는 것을 말합니다.
관련 기사: 스크레이핑이란? 주목받는 편리한 데이터 수집 방법의 법적 과제를 설명 [ja]
기계 학습에서 저작권법상의 문제점
‘저작권’이란, 간단히 말하면, 저작물을 법적으로 보호하기 위한 권리입니다. 또한, 보호되는 ‘저작물’에 대해서는, 일본의 저작권법 제2조 제1항에서 다음과 같이 규정하고 있습니다.
(정의)
제2조 이 법에서, 다음 각호에 나열된 용어의 의미는, 해당 각호에서 정한 바에 따른다.
1. 저작물: 사상이나 감정을 창작적으로 표현한 것으로서, 문학, 학문, 미술 또는 음악의 범위에 속하는 것을 말한다.
헤이세이 30년(2018년) 저작권법 개정의 배경
2018년(헤이세이 30년), 개정된 일본의 저작권법이 제정되어, 2019년(헤이세이 31년) 1월 1일부터 시행되었습니다.
IoT, 빅데이터, AI(인공지능) 등의 기술을 활용하기 위해서는, 저작물을 포함한 대량의 정보의 축적·조합·분석 등을 가능하게 해야 합니다. 그래서 이번 개정에서는 저작물을 감상 등의 목적으로 이용하지 않는 등의 일정한 경우에는, 저작물의 이용을 인정하는 규정이 마련되었습니다.
일본의 저작권법 제30조의 4에서 인정하고 있는 이용법은 무엇인가
2018년에 개정된 일본의 저작권법 제30조의 4에서는, ‘저작물에 표현된 사상이나 감정의 즐길 목적이 아닌 이용’에 대해서는, 필요하다고 인정되는 범위에서, 방법에 관계없이, 저작물을 이용할 수 있도록 되어 있습니다.
(저작물에 표현된 사상이나 감정의 즐길 목적이 아닌 이용)
제30조의 4 저작물은, 다음에 나열된 경우 그 외에 해당 저작물에 표현된 사상이나 감정을 자신이 즐기거나 다른 사람에게 즐기게 하는 것을 목적으로 하지 않는 경우에는, 그 필요하다고 인정되는 한도 내에서, 어떤 방법으로든 이용할 수 있다. 단, 해당 저작물의 종류 및 용도 그리고 해당 이용의 방식에 비추어 저작권자의 이익을 부당하게 해치는 경우에는, 이에 해당하지 않는다.
1. 저작물의 녹음, 녹화 그 외의 이용에 관한 기술의 개발 또는 실용화를 위한 시험에 제공하는 경우
2. 정보 분석(다수의 저작물 그 외의 대량의 정보에서, 해당 정보를 구성하는 언어, 소리, 영상 그 외의 요소에 관한 정보를 추출하고, 비교, 분류 그 외의 분석을 하는 것을 말한다. 제47조의 5 제1항 제2호에서 동일하게 적용한다.)에 제공하는 경우
3. 앞의 두 항에 나열된 경우 외에, 저작물의 표현에 대한 사람의 인식을 동반하지 않는 상태에서 해당 저작물을 전자 계산기에 의한 정보 처리 과정에서의 이용 그 외의 이용(프로그램의 저작물에 대해서는, 해당 저작물의 전자 계산기에서의 실행을 제외한다.)에 제공하는 경우
구체적으로는 다음과 같은 경우에는, 저작물의 이용이 인정됩니다.
· 미술 작품의 복제에 적합한 카메라나 프린터를 개발하기 위해 미술 작품을 시험적으로 복제하는 행위
· 인공지능의 개발을 위해 저작물을 학습용 데이터로서 수집하여 이용하거나, 수집한 학습용 데이터를 인공지능의 개발이라는 목적 하에 제3자에게 제공(양도나 공중 송신 등)하는 행위
· 컴퓨터의 정보 처리 과정에서, 백엔드에서 저작물을 복사하여, 그 데이터를 사람이 전혀 인지하지 않는 상태에서 이용하는 행위
· 프로그램의 조사 분석을 목적으로 프로그램의 저작물을 이용하는 행위(일명 ‘리버스 엔지니어링’)
인용: 일본 문화청|저작권법의 일부를 개정하는 법률(헤이세이 30년 법률 제30호)에 대하여 [ja]
기계 학습에 저작물을 활용하면 저작권법 위반 가능성이 있는 경우
이처럼, 기계학습을 위해 이미지(저작물)를 수집, 가공, 활용하는 것은 물론, 수집한 학습용 데이터를 제3자에게 제공(판매, 양도 등)하는 것은 일본의 ‘저작권법 제30조의 4 제2항’에서 인정되고 있습니다. 그러나, 이러한 저작물의 활용이 법적 문제로 발전할 가능성도 있습니다.
여기에서는, 인터넷 상에서 공개된 이미지를 수집하여 기계학습에 활용하는 경우에 발생할 수 있는 법적문제에 대해 살펴보겠습니다.
저작권자의 이익을 부당하게 해치는 경우
일본의 ‘저작권법 제30조의 4’에서는 ‘저작물에 표현된 사상이나 감정의 즐길 목적이 아닌 활용’을 인정하는 한편, 그 활용이 저작권자의 이익을 부당하게 해치는 경우에는 저작물의 활용을 인정하지 않습니다.
구체적으로 어떤 경우가 있을까요? 일본 문화청의 Q&A에 따르면, 다음과 같은 경우가 ‘저작권자의 이익을 부당하게 해치는 경우’에 해당한다고 설명되어 있습니다.
구체적인 판단은 결국 법원에서 이루어지지만, 예를 들어, 대량의 정보를 쉽게 정보 분석에 활용할 수 있는 형태로 정리한 데이터베이스의 저작물이 판매되고 있는 경우, 해당 데이터베이스를 정보분석 목적으로 봉제 등을 하는 행위는 해당 데이터베이스의 판매에 관련된 시장과 충돌하는 것으로, ‘저작권자의 이익을 부당하게 해치는 경우’에 해당한다고 볼 수 있다.
인용:일본 문화청 저작권과|‘디지털화·네트워크화의 진전에 대응한 유연한 권리 제한 규정에 관한 기본적인 생각’ [ja]
저작권법 상의 규정과 다른 합의를 한 경우
일본의 저작권법에서는 기계학습에 저작물을 활용하는 것을 인정하지만, 당사자 간에 이와 다른 합의를 하는 것도 가능합니다. 이러한 합의가 성립한 경우, 합의에 반하는 경우, 손해배상 책임 등을 추궁당할 가능성이 있습니다.
예를 들어, 사이트의 이용약관이나 라이선스약관에서 기계학습 및 정보분석을 위한 데이터의 수집·추출을 명시적으로 금지하는 사이트도 있습니다. 데이터를 수집할 때, 해당 사이트의 이용약관이나 라이선스약관을 확인해야 합니다.
일반적으로, 사이트의 이용약관에 ‘동의’하기 위해서는 어떤 액션이 요구됩니다. 예를 들어, ‘계정을 생성함으로써, 이용약관과 개인정보 보호정책에 동의한 것으로 간주됩니다’ 등의 표시와 함께, 등록이나 동의 버튼 클릭 등이 요구됩니다. 등록이나 동의버튼을 클릭함으로써 ‘동의’가 성립하게 됩니다.
반면, 단순히 데이터의 수집·추출을 금지하는 이용약관을 사이트 내의 다운로드 페이지와는 별도의 페이지에 게시하고 있을 뿐, 그에 동의하지 않아도 이미지의 다운로드가 가능한 경우에는, ‘동의’는 성립하지 않았다고 볼 수 있습니다. 이 경우, 저작권법 상의 규정이 적용되어, 저작물을 활용할 수 있게 됩니다.
그러나, 문제예방을 위해, 이용 약관에서 명시적으로 데이터의 수집·추출 등을 금지하고 있는 사이트에서의 데이터 수집은 피하는 것이 좋을 것입니다.
기계학습으로 합성한 이미지는 저작권법 위반일까?
지금까지, 저작물을 기계학습에 활용하는 것이 저작권법에서 인정되는 것에 대해 설명했습니다. 그렇다면, AI가 기계학습을 통해 합성이미지를 생성하는 것은, 학습의 기반이 된 이미지(사진·일러스트·그림 등)의 저작권을 침해하는 것일까요?
여기서는, AI가 GAN(적대적 생성 네트워크: Generative Adversarial Networks)을 통해 이미지 생성을 하는 경우를 예로 설명하겠습니다.
기계학습에 의한 이미지 생성의 원리
GAN(적대적 생성 네트워크: Generative Adversarial Networks)은 생성모델의 일종으로, 데이터에서 특징을 학습하여 실재하지 않는 데이터를 생성하거나, 존재하는 데이터의 특징에 따라 변환할 수 있습니다. 이 GAN에 의한 이미지 생성의 원리는, 예를 들어, 실제 방의 사진이나 그림을 분석하여, 예산이나 방의 크기 등에 맞는 가구가 실제로 그곳에 놓여 있는 것처럼 이미지를 합성하는 서비스 등에도 활용됩니다.
AI는 기계학습한 원본 이미지의 저작권을 침해할 수 있을까?
GAN은 생성기(Generator)와 판별기(Discriminator)라는 두 개의 신경망으로 구성되어 있습니다. 이 중, 생성기는 원본 이미지의 특징을 숫자화하여 읽고, 그곳에 일정한 변수를 입력하여, 그 변수에 의해 조정된 숫자를 출력하여 합성 이미지를 생성합니다.
즉, 합성 이미지는 합성 과정에서 함수에 변수를 입력한 결과로 새롭게 생성된 이미지이므로, 원본 이미지의 데이터(사진·일러스트·그림 등)와는 전혀 다른 것이라고 할 수 있습니다. 기계 학습의 결과로, 원본 이미지와 유사한 이미지가 합성되었다 해도, 그것은 원본 학습 데이터의 복제·번역·변경에 해당하지 않는다고 생각됩니다.
따라서, 이와 같이 AI가 기계 학습하여 생성한 합성 이미지는, 기계 학습의 원본 이미지의 저작권을 침해하지 않았다고 할 수 있습니다.
결론: AI의 기계 학습과 저작권 문제는 변호사에게 상담하십시오
이 글에서는 인터넷에 공개된 이미지를 AI의 기계 학습에 활용하는 것이 저작권법상의 문제점에 대해 설명하였습니다.
저작물을 기계 학습에 활용하는 것은 일본의 저작권법에서 인정되고 있습니다(일본 저작권법 제30조의 4). 그러나 예외적으로, 저작권자의 이익을 부당하게 해치는 경우나, 당사자 간에 저작권법의 규정과 다른 합의를 한 경우에는, 저작물의 활용이 인정되지 않는 경우도 있습니다.
‘Midjourney’, ‘Stable Diffusion’, ‘ChatGPT’ 등의 AI가 주목받고 있으며, 더욱 AI 개발에 나서는 기업들이 급증하고 있습니다. AI 개발에 필수적인 학습 데이터로서 저작물의 활용이 인정될 수 있는지 여부는 판단이 어려운 경우도 있기 때문에, AI나 기계 학습을 활용한 사업을 진행할 때에는 IT 분야에 능통한 변호사에게 상담하는 것을 권장합니다.
당사 법률사무소의 대책 안내
모노리스 법률사무소는 IT, 특히 인터넷과 법률의 양면에 풍부한 경험을 보유한 법률사무소입니다.
AI 비즈니스에는 많은 법적 위험이 동반되며, AI에 관한 법적 문제에 정통한 변호사의 지원이 필수적입니다. 당사는 AI에 정통한 변호사와 엔지니어 등의 팀으로, ChatGPT를 포함한 AI 비즈니스에 대해, 계약서 작성, 비즈니스 모델의 합법성 검토, 지적 재산권의 보호, 개인정보 보호 등, 고도의 법적 지원을 제공하고 있습니다. 아래 기사에서 자세한 내용을 기술하고 있습니다.
모노리스 법률사무소의 취급 분야: AI (ChatGPT 등) 법률 [ja]
Category: IT