GitHub Copilot 究竟是什么?
Copilot 是一種基于公開(kāi)源代碼和文本訓(xùn)練的人工智能。它實(shí)時(shí)為程序員提供代碼建議。
Copilot 還使用 GPL 等 Copyleft 許可下的眾多 GitHub 存儲(chǔ)庫(kù)作為培訓(xùn)材料。
那么為什么它和“抄襲有關(guān)?”
這還和當(dāng)年那一段“雷神代碼”有關(guān)。
有行業(yè)從業(yè)者稱,在利用GitHub Copilot 走平方根倒數(shù)速算法(Fast Inverse Square Root),結(jié)果出人意料。
它簡(jiǎn)直“完美復(fù)刻”那段有名的代碼,就連當(dāng)年那句“what the fuck”的注釋也用上了。
很難不讓人認(rèn)為這是抄襲。
只能說(shuō)微軟、GitHub、OpenAI 還想收費(fèi)簡(jiǎn)直做夢(mèng)!
一些評(píng)論家指責(zé) GitHub 侵犯版權(quán),因?yàn)?Copilot 本身不是在 Copyleft 許可下發(fā)布的,而是在測(cè)試后作為付費(fèi)服務(wù)提供的階段。
這場(chǎng)爭(zhēng)論同時(shí)涉及幾個(gè)棘手的版權(quán)問(wèn)題。
收費(fèi)還是免費(fèi)?
GitHub Copilot 在訓(xùn)練過(guò)程中必定使用過(guò) GPL 協(xié)議下的代碼,那么機(jī)器學(xué)習(xí)系統(tǒng)產(chǎn)生的作品,甚至機(jī)器學(xué)習(xí)系統(tǒng)本身,都算是 GPL 協(xié)議中規(guī)定的衍生作品嗎?
如果是那么GitHub Copilot很難避免的就是免費(fèi)開(kāi)源,原因不言自明,如果不是那是不是說(shuō)明開(kāi)發(fā)者可以利用 GitHub Copilot 來(lái)“清除”代碼的 GPL 協(xié)議,從此再也無(wú)需遵循該協(xié)議?
工作原理
GitHub Copilot 由 OpenAI 研發(fā)的新 AI 系統(tǒng) Codex 提供支持,Codex 是 GPT-3 的延伸版本,該模型接受過(guò)公開(kāi)源代碼和自然語(yǔ)言的訓(xùn)練,因此它理解編程和人類語(yǔ)言。
機(jī)器生成的代碼不是衍生作品
一些評(píng)論員將 GitHub Copilot 視為侵犯版權(quán),因?yàn)樵摮绦虿粌H使用受版權(quán)保護(hù)的軟件代碼(其中很多是在 GPL 下發(fā)布的)作為培訓(xùn)材料,而且還生成軟件代碼作為輸出。根據(jù)批評(píng)者的說(shuō)法,這個(gè)輸出代碼是訓(xùn)練數(shù)據(jù)集的衍生作品,因?yàn)槿绻麤](méi)有訓(xùn)練數(shù)據(jù),人工智能將無(wú)法生成代碼。根據(jù) GitHub 的常見(jiàn)問(wèn)題解答,在少數(shù)情況下,Copilot 還會(huì)從訓(xùn)練數(shù)據(jù)集中復(fù)制短片斷。