網路上的圖像爬蟲是否違反著作權法？解釋機器學習的法律問題

2023.11.06

2024.06.12

近年，AI（人工智能）技術的進步日新月異，像是「Stable Diffusion」和「Midjourney」等圖像生成AI，以及能生成文章等的「ChatGPT」等各種AI受到了廣泛的關注。透過在網路上爬取數據讓AI學習，使得利用AI可以實現各種可能，而機器學習的精確度也在提升。然而，也有人指出這可能帶來侵犯著作權法的風險。

在網路上公開的圖像或插圖等各種數據，如果未經許可就爬取並收集，再加以處理用於AI的機器學習，這樣的行為是否會侵犯著作權呢？

本文將針對在網路上公開的圖像和插圖等用於機器學習的法律問題進行解說。

什麼是機器學習

機器學習（ML：Machine Learning）是指機器從數據中學習，就像人類從經驗中學習一樣。在機器學習的過程中，需要收集數據，選擇和處理這些數據，以創建學習用的數據集。

爬蟲是指由稱為爬蟲的程序瀏覽網站，並複製和保存網頁上的文本、圖像等信息。

機器學習中的著作權法問題

「著作權」簡單來說，是法律保護著作物的權利。而受保護的「著作物」在日本著作權法第2條第1項中有如下規定：

（定義）
第二條在本法中，下列各項所列的詞語的意義，依該各項所定。
一著作物指創作性地表現思想或情感的物品，包括文學、學術、美術或音樂範疇的物品。

2018年著作權法修訂的背景

2018年，修訂的日本著作權法通過，並於2019年1月1日開始實施。

為了利用物聯網、大數據、AI（人工智能）等技術，需要能夠積累、組合、分析包含著作物在內的大量信息。因此，在這次修訂中，設定了在不以欣賞等目的利用著作物等一定情況下，允許利用著作物的規定。

日本著作權法第30條的4所認可的利用方式

在2018年修訂的日本著作權法第30條的4中，對於「不以享受著作物所表現的思想或情感為目的的利用」，在認為必要的範圍內，不論方法如何，都允許利用著作物。

（不以享受著作物所表現的思想或情感為目的的利用）
第三十條的四著作物，在下列情況或其他不以自己或讓他人享受該著作物所表現的思想或情感為目的的情況下，可以在認為必要的範圍內，不論以何種方式，利用該著作物。但是，如果根據該著作物的類型和用途以及該利用的方式，不公平地損害著作權人的利益，則不在此限。
一為了開發或實用化與著作物的錄音、錄像或其他利用相關的技術，而將著作物用於試驗的情況
二為了信息分析（從大量的著作物或其他大量的信息中，提取與構成該信息的語言、聲音、影像或其他元素相關的信息，並進行比較、分類或其他分析的情況。在第四十七條的五第一項第二號中同樣適用。）的情況
三除了前兩項所列的情況外，不伴隨人的知覺認識著作物的表現，而將該著作物用於電腦信息處理過程中或其他利用（對於程序的著作物，不包括在電腦中執行該著作物。）的情況

具體來說，以下情況可以允許利用著作物：

・為了開發適合複製美術品的相機或打印機，試驗性地複製美術品的行為
・為了進行人工智能的開發，收集著作物作為學習數據並利用，或在人工智能開發的目的下，向第三方提供（轉讓或公眾傳輸等）收集的學習數據的行為
・在電腦的信息處理過程中，後台複製著作物，並在人完全無法感知的情況下利用該數據的行為
・為了調查分析程序，利用程序著作物的行為（所謂的「反向工程」）

引用：日本文化廳｜關於修訂著作權法的部分（法律第30號）[日語]

利用機器學習的著作物可能違反著作權法的案例

如此，收集、加工、利用圖像（著作物）以進行機器學習，以及將收集的學習數據提供給第三方（銷售、轉讓等）在日本著作權法第30條的4第2號中是被允許的。然而，這種著作物的使用可能會導致法律問題。

在這裡，本所將討論收集網路上公開的圖像並用於機器學習可能會出現的法律問題。

不當損害著作權人的利益的情況

在日本著作權法第30條的4中，雖然允許「不以享受著作物中表現的思想或情感為目的的使用」，但如果該使用不當地損害了著作權人的利益，則不允許使用著作物。

具體來說，可能會出現哪些情況呢？根據日本文化廳的Q＆A，以下的情況被認為是「不當損害著作權人的利益」的情況。

具體的判斷最終將在法庭上進行，例如，如果正在銷售一個整理了大量信息，可以輕鬆用於信息分析的數據庫的著作物，那麼複製該數據庫以進行信息分析的行為，將與該數據庫的銷售市場產生衝突，可以認為是「不當損害著作權人的利益的情況」。

與著作權法規定不同的協議的情況

雖然日本著作權法允許利用著作物進行機器學習，但當事人之間也可以達成與此不同的協議。如果達成了這種協議，則違反協議可能會導致追究損害賠償責任等。

例如，有些網站的使用條款或許可條款明確禁止收集和提取數據以進行機器學習或信息分析。在收集數據時，需要確認該網站的使用條款或許可條款。

一般來說，要「同意」網站的使用條款，需要採取某種行動。例如，「通過創建帳戶，您將被視為同意使用條款和隱私政策」，並要求註冊或點擊同意按鈕。通過點擊註冊或同意按鈕，「同意」就成立了。

另一方面，如果只是在網站的下載頁面以外的頁面上顯示禁止收集和提取數據的使用條款，即使不同意也可以下載圖像，那麼「同意」就沒有成立。在這種情況下，將適用日本著作權法的規定，可以使用著作物。

然而，為了防止問題，最好避免從在使用條款中明確禁止收集和提取數據的網站收集數據。

機器學習合成的圖像會違反著作權法嗎？

到目前為止，本所已經解釋了在著作權法中，使用著作物進行機器學習是被允許的。那麼，AI進行機器學習並創建合成圖像，是否會侵犯學習原始圖像（照片、插圖、繪畫等）的著作權呢？

在這裡，本所將以AI使用GAN（對抗生成網絡：Generative Adversarial Networks）進行圖像生成的案例來進行解釋。

機器學習生成圖像的原理

GAN（對抗生成網絡：Generative Adversarial Networks）是一種生成模型，可以通過從數據中學習特徵來生成不存在的數據，或者根據存在的數據的特徵進行轉換。例如，這種GAN生成圖像的原理可以用於分析實際房間的照片或畫作，並根據預算或房間大小等因素合成圖像，就像真實的家具被放置在那裡一樣。

AI是否可能侵犯機器學習原始圖像的著作權？

GAN由生成器（Generator）和鑑別器（Discriminator）兩種神經網絡組成。其中，生成器將原始圖像的特徵數值化並讀取，然後輸入一定的變數，輸出由該變數調整的數值，從而生成合成圖像。

因此，合成圖像是在合成過程中將變數輸入到函數中生成的新圖像，可以說與原始圖像的數據（照片、插圖、繪畫等）完全不同。即使機器學習的結果生成了與原始圖像相似的圖像，也不被認為是對原始學習數據的複製、改編或修改。

因此，可以說，這種由AI進行機器學習生成的合成圖像並未侵犯機器學習原始圖像的著作權。

總結：AI機器學習與著作權問題，請諮詢律師

本文解釋了在網路上公開的圖像被用於AI機器學習時，可能會遇到的著作權法問題。

在著作權法中，使用著作物進行機器學習是被允許的（日本著作權法第30條的4）。然而，例外情況下，如果不當地損害了著作權人的利益，或者當事人之間達成了與著作權法規定不同的協議，則可能不允許使用著作物。

隨著「Midjourney」、「Stable Diffusion」、「ChatGPT」等AI受到關注，越來越多的公司開始進行更多的AI開發。由於判斷是否可以使用著作物作為AI開發中不可或缺的學習數據有時可能困難，因此，本所建議在進行利用AI或機器學習的業務時，請諮詢熟悉IT領域的律師。

本所事務所的對策介紹

MONOLITH法律事務所是一家在IT，特別是互聯網和法律兩方面都有豐富經驗的法律事務所。

AI業務伴隨著許多法律風險，需要熟悉AI相關法律問題的律師的支援。本所事務所的團隊由熟悉AI的律師和工程師等組成，為包括ChatGPT在內的AI業務提供高級法律支援，包括製作契約、審查業務模型的合法性、保護知識產權、處理隱私問題等。

The Editor in Chief: Managing Attorney: Toki Kawase

An expert in IT-related legal affairs in Japan who established MONOLITH LAW OFFICE and serves as its managing attorney. Formerly an IT engineer, he has been involved in the management of IT companies. Served as legal counsel to more than 100 companies, ranging from top-tier organizations to seed-stage Startups.

Category: IT

Tag: AI (ChatGPT and others)IT

網路上的圖像爬蟲是否違反著作權法？解釋機器學習的法律問題

什麼是機器學習