人工智慧公司非法竊取網路資源?
草根影響力新視野(琪拉編譯)
據《華爾街日報》最近發表的一篇報導稱,《紐約時報》已向由Amazon 傑夫·貝索斯支持的 Perplexity新創公司發出了一封禁制令,要求這家人工智慧新創公司立刻停止使用紐約時報上面的內容,以訓練自己的AI資料庫。
該報在其法律信函中寫道:“Perplexity 及其商業夥伴在未經許可的情況下使用泰晤士報(The Times)富有表現力、精心撰寫、研究和編輯的新聞報導,從而獲得不公正的利益。”並限期在10 月30 日前Perplexity要完全停止其行為。
紐約時報指責 Perplexity 規避公司使用的反擷取和反機器人措施。它們設置的robots.txt 頁面明確禁止「PerplexityBot」(該新創公司的抓取機器人),儘管尚不清楚Perplexity 是否也使用其他方法或其他中間方法來間接從該網站的內容中提取內容,例如預先收集的資料集。然而,Robots.txt 頁面的規則是可以被打破的。因此,即使一個網站有設置Robots.txt「壞」機器人仍然可以從中擷取內容。
作為回應,Perplexity 執行長 Aravind Srinivas 表示該公司希望與《紐約時報》合作。斯里尼瓦斯告訴《華爾街日報》:「我們非常有興趣與包括《紐約時報》在內的每家出版商合作,我們沒有興趣成為這裡任何人的對手。」
Perplexity 代表透過電子郵件告訴 PCMag(該網站也設置Robots.txt) :「我們相信透明度,並在我們的網站上設有公共頁面,闡明我們的內容政策以及我們如何使用網路內容,我們並不是為了建立LLM而抓取數據,而是對網頁進行索引並顯示內容作為引文,以便在用戶提出問題時提供回應。」
圖片取自:(示意圖123rf)
6 月,Perplexity 告訴 PCMag網站,其Perplexityt「尊重 robots.txt」。由於該機器人在 Amazon Web Services 上運行,Perplexity 還表示,抓取機器人不會以任何違反 AWS 服務條款的方式進行爬網行為。
但一些科技和人工智慧公司也採取了這樣的立場,使用爬蟲技術抓取他們想要的任何網站的內容都構成著作權法上面的“合理使用”行為,並沒有侵害著作權,儘管這一點尚未在法庭上得到證明。許多人工智慧公司可能也迫切希望免費竊取人類產生的任何新鮮資料。一位教授警告說,人工智慧公司用於訓練聊天機器人的文字正在大量耗盡中,因此它們需要更多第一手人類大腦產出的資料。
無論 Perplexity 說它在做什麼或沒有做什麼,新聞媒體都不滿意。擁有《連線》、《紐約客》和《Vogue》雜誌的康泰納仕集團先前曾向 Perplexity 發出警告,稱其一直在抓取其網站並利用這些內容謀取自身經濟利益。 《富比士》也向這家人工智慧公司開槍,指責其盜竊並根據《富比士》文章編造「山寨故事」。
其他人工智慧公司也因未經同意或付費而使用受著作權保護的內容而受到批評。儘管許多人繼續在網路上搜尋訊息,但有些人也決定與新聞媒體達成內容授權協議。像是美聯社、大西洋月刊、金融時報、Semafor、Business Insider、Dotdash Meredith、Vox Media,甚至《華爾街日報》本身都是各自領導人或母公司達成的人工智慧授權協議的一部分。
然而,其他新聞媒體正試圖讓人工智慧公司對未經許可竊取其內容的行為負責。 《紐約時報》在去年年底對 OpenAI 和微軟提起訴訟,目前仍在審理中。今年 4 月,《橘郡紀事報》和《紐約每日新聞》等六家多家報紙也以類似理由起訴 OpenAI 和微軟。
資料來源:https://www.msn.com
[不許轉載、公開播送或公開傳輸]