网络上的图片爬取是否违反了版权法?解析机器学习的法律问题

2024.05.02

2024.05.18

近年，AI（人工智能）技术的进步日新月异，如“Stable Diffusion”和“Midjourney”等图像生成AI，以及生成文章等的“ChatGPT”等各种AI受到了广泛关注。通过在网络上爬取数据让AI学习，利用AI可以实现各种可能，机器学习的精度也在提高，但同时也指出了存在侵犯版权法的风险。

在网络上公开的图片、插图等各种数据，如果未经许可就爬取并收集，然后加工用于AI的机器学习，这会不会构成侵犯版权呢？

本文将解释在网络上公开的图片和插图用于机器学习的法律问题。

什么是机器学习

机器学习（ML：Machine Learning）是指机器从数据中学习，就像人类从经验中学习一样。在机器学习的过程中，需要收集数据，选择和处理这些数据，以创建用于学习的数据集。

爬行是指被称为爬虫的程序遍历网站，并复制和保存网页上的文本、图片等信息。

相关文章：什么是网络抓取？解析这种受到关注的便捷数据收集方法的法律问题[ja]

机器学习中的版权法问题

“版权”简单来说，是法律对作品的保护权。而被保护的“作品”在《日本版权法》第2条第1款中有如下规定：

（定义）
第二条在本法中，下列各项所列的术语的含义，按照各项所规定的。
一作品创作性地表达思想或情感的，属于文学、学术、美术或音乐范畴的。

平成30年（2018年）版权法修订的背景

2018年（平成30年），修订版的《日本版权法》通过，并于2019年（平成31年）1月1日开始实施。

为了利用物联网、大数据、人工智能等技术，需要能够积累、组合、分析包括作品在内的大量信息。因此，在这次修订中，对于不以欣赏等目的利用作品的一定情况，设定了允许利用作品的规定。

在版权法第30条的4中被允许的使用方式是什么

在2018年修订的《日本版权法》第30条的4中，对于“不以享受作品所表达的思想或情感为目的的使用”，在认为必要的范围内，无论方法如何，都允许使用作品。

（不以享受作品所表达的思想或情感为目的的使用）
第三十条之四作品，在下列情况和其他不以自己或他人享受作品所表达的思想或情感为目的的情况下，可以在认为必要的范围内，无论使用何种方法，使用。但是，如果根据作品的类型和用途以及使用的方式，可能会不当地损害版权人的利益的情况，不在此限。
一为了开发或实用化与作品的录音、录像等使用相关的技术，将作品用于测试
二用于信息分析（从大量的作品和其他信息中，提取与构成这些信息的语言、声音、影像等元素相关的信息，并进行比较、分类等分析。在第四十七条之五第一款第二项中同样适用。）
三除上述两项外，不伴随人的感知对作品的表现的认知，将作品用于电子计算机的信息处理过程中的使用和其他使用（对于程序作品，不包括在电子计算机中执行该作品。）

具体来说，以下这些情况下，允许使用作品：

・为了开发适合复制艺术品的相机或打印机，试验性地复制艺术品的行为
・为了进行人工智能的开发，收集作品作为学习数据并使用，或者在人工智能开发的目的下，向第三方提供（转让或公开传输等）收集的学习数据的行为
・在计算机的信息处理过程中，在后台复制作品，并在人完全无法感知的情况下使用该数据的行为
・为了进行程序的调查分析，使用程序作品的行为（所谓的“反向工程”）

引用：文化厅｜关于修订版权法的部分（平成30年法律第30号）[ja]

利用机器学习处理著作物可能触犯版权法的情况

如此，收集、处理和使用图像（著作物）以进行机器学习，以及向第三方提供（销售、转让等）收集的学习数据，都是在日本版权法第30条第4款第2项中被允许的。然而，这种著作物的使用可能会引发法律问题。

在这里，我们将探讨收集网络上公开的图像用于机器学习可能会出现的法律问题。

相关文章：互联网上的信息可以使用到什么程度？关于网络版权的解释[ja]

损害版权人利益的情况

在日本版权法第30条第4款中，虽然允许“不以享受著作物中表达的思想或情感为目的的使用”，但如果这种使用损害了版权人的利益，就不允许使用著作物。

具体来说，可能会出现哪些情况呢？根据日本文化厅的Q&A，以下的情况被认为是“损害版权人利益的情况”：

具体的判断最终将在法庭上做出，例如，如果正在销售的数据库著作物整理了大量的信息，以便容易地用于信息分析，那么复制等用于信息分析的行为，可能会与该数据库的销售市场发生冲突，从而被认为是“损害版权人利益的情况”。

引用：日本文化厅版权科｜“关于应对数字化和网络化进展的灵活权利限制规定的基本思路”[ja]

与版权法规定不同的协议

虽然日本版权法允许使用著作物进行机器学习，但当事人之间也可以达成与此不同的协议。如果达成了这样的协议，那么违反协议可能会导致追究损害赔偿责任等。

例如，有些网站的使用条款或许可条款明确禁止收集和提取数据以进行机器学习或信息分析。在收集数据时，需要确认该网站的使用条款或许可条款。

一般来说，要“同意”网站的使用条款，需要进行某种操作。例如，“通过创建账户，您将被视为同意使用条款和隐私政策”，并要求进行注册或点击同意按钮等操作。通过点击注册或同意按钮，就达成了“同意”。

另一方面，如果仅在网站的下载页面以外的页面上发布禁止收集和提取数据的使用条款，并且即使不同意也可以下载图像，那么就不构成“同意”。在这种情况下，将适用版权法的规定，可以使用著作物。

然而，为了防止问题，最好避免从明确禁止收集和提取数据的网站收集数据。

通过机器学习合成的图像会侵犯版权法吗？

到目前为止，我们已经解释了在版权法中，使用著作物进行机器学习是被允许的。那么，AI进行机器学习并创建合成图像，是否会侵犯学习源图像（照片、插图、绘画等）的版权呢？

在这里，我们将以AI使用GAN（生成对抗网络：Generative Adversarial Networks）进行图像生成的情况为例进行解释。

机器学习生成图像的机制

GAN（生成对抗网络：Generative Adversarial Networks）是一种生成模型，通过学习数据的特征，可以生成不存在的数据，或者按照存在数据的特征进行转换。例如，这种GAN生成图像的机制，可以用于分析实际房间的照片或画作，然后根据预算或房间大小等因素，合成出仿佛真实放置了家具的图像，这种服务也在使用。

AI是否可能侵犯机器学习源图像的版权？

GAN由生成器（Generator）和鉴别器（Discriminator）两个神经网络组成。其中，生成器将源图像的特征数字化并读取，然后输入一定的变量，输出由该变量调整的数值，从而生成合成图像。

因此，合成图像是在合成过程中将变量输入函数生成的新图像，可以说是与源图像数据（照片、插图、绘画等）完全不同的东西。即使机器学习的结果生成了与原图像相似的图像，也不被认为是对原学习数据的复制、改编或修改。

因此，可以说，这样的AI通过机器学习生成的合成图像，并未侵犯机器学习源图像的版权。

相关文章：AI开发中如何保护知识产权？整理版权、专利权的论点[ja]

总结：请向律师咨询AI机器学习与版权问题

本文解释了在网络上公开的图片用于AI机器学习在版权法上可能存在的问题。

随着“Midjourney”、“Stable Diffusion”和“ChatGPT”等AI受到关注，越来越多的公司开始进行更多的AI开发。作为AI开发不可或缺的学习数据，是否允许使用作品这一点有时候判断起来可能会比较困难，因此，我们建议在进行利用AI和机器学习的业务时，向熟悉IT领域的律师进行咨询。

我們事務所的對策介紹

Monolith法律事務所是一家在IT，特別是互聯網和法律兩方面都有豐富經驗的法律事務所。

AI業務伴隨著許多法律風險，需要熟悉AI相關法律問題的律師的支持。我們事務所的團隊由熟悉AI的律師和工程師等組成，為包括ChatGPT在內的AI業務提供高級法律支持，包括合同草擬，業務模型的合法性審查，知識產權保護，隱私對策等。詳細內容已在下面的文章中說明。

Monolith法律事務所的業務範疇：AI（包括ChatGPT等）法務[ja]

The Editor in Chief: Managing Attorney: Toki Kawase

An expert in IT-related legal affairs in Japan who established MONOLITH LAW OFFICE and serves as its managing attorney. Formerly an IT engineer, he has been involved in the management of IT companies. Served as legal counsel to more than 100 companies, ranging from top-tier organizations to seed-stage Startups.

Category: IT

Tag: AI (ChatGPT, etc.)IT

网络上的图片爬取是否违反了版权法?解析机器学习的法律问题

什么是机器学习