阿爾法元自學(xué)成才，以100比0完爆阿爾法狗，你怎么看？

admin 2024年02月25日 12:59 256 0

今天微信朋友群里被阿爾法元刷屏了，實(shí)在是一個(gè)令人震驚的消息。這兩年谷歌就沒(méi)消停過(guò)，2016年整出個(gè)阿爾法狗1.0版4比1擊敗李世石九段，讓棋界為之震驚；2016年底和2017年初，又整出個(gè)Maste,對(duì)人類高手60連勝，后來(lái)得知這是阿爾法狗2.0版；2017年5月第二次“人機(jī)大戰(zhàn)”，阿爾法狗2.0版3比0完勝柯潔九段。至此，“人機(jī)大戰(zhàn)”已經(jīng)沒(méi)有任何意義，人類高手在阿爾法狗面前難求一勝。

但始料未及的是，谷歌又推出阿爾法元，而且，與阿爾法狗1.0版和2.0版不同的是，阿爾法元完全不靠人類棋手的棋譜學(xué)棋、成長(zhǎng)，只需懂得圍棋規(guī)則后即在短短時(shí)間里成長(zhǎng)為超級(jí)高手，與Maste對(duì)戰(zhàn)擁有壓倒性的勝率，簡(jiǎn)言之，阿爾法元已經(jīng)接近“圍棋之神”了。

這只能說(shuō)明：人工智能已經(jīng)發(fā)展到了我們難以想象的地步，霍金擔(dān)心的人工智能有一天會(huì)摧毀人類并非危言聳聽(tīng)，它已經(jīng)可以不借助人類積累數(shù)千年的棋譜在短時(shí)間里成為第一高手。一如劉小光九段所言：人類思考千年不如它短短的一瞬。而且，它還是單機(jī)版，方便隨身攜帶，人類如果利用它，那人類高手們根本沒(méi)有爭(zhēng)勝的必要。

其次，圍棋的深度和難度通過(guò)阿爾法狗、阿爾法元證明，我們?nèi)祟悢?shù)千年掌握的不過(guò)是滄海一粟，應(yīng)驗(yàn)了日本名譽(yù)棋圣藤澤秀行所說(shuō)的：棋道一百，我只知七。如果阿爾法元能讓阿爾法狗1.0版三個(gè)子的話，人類認(rèn)識(shí)圍棋連百分之七都不到。就像柯潔九段說(shuō)的那樣：自從有了阿爾法狗后，沒(méi)有什么棋不能下。問(wèn)題是，知道什么棋都可以下僅僅是第一步，距離“圍棋之神”還遠(yuǎn)著呢，但阿爾法元卻接近“圍棋之神”了。

非常令人震驚的進(jìn)展！2016年3月4:1戰(zhàn)勝李世石之后，Deepmind就放出風(fēng)聲，要讓AlphaGo從零知識(shí)開(kāi)始學(xué)習(xí)下圍棋，當(dāng)時(shí)讓人很有興趣。這種完全靠自學(xué)習(xí)，不學(xué)習(xí)人類棋譜的AI，在學(xué)成以后會(huì)如何下圍棋？會(huì)不會(huì)從天元開(kāi)始下？能達(dá)到什么樣的實(shí)力？肯定非常有趣。

所謂零知識(shí)自學(xué)習(xí)，就是一開(kāi)始就隨機(jī)扔子，就如上圖這樣黑白等于是瞎下。從這種隨機(jī)策略開(kāi)始，慢慢改進(jìn)，而不是學(xué)習(xí)人類的棋譜先來(lái)個(gè)策略網(wǎng)絡(luò)一開(kāi)始就下得象模象樣。

但是后來(lái)這個(gè)零知識(shí)自學(xué)習(xí)的事一直沒(méi)下文。到2017年5月烏鎮(zhèn)3:0戰(zhàn)勝柯潔時(shí)，中間有研討會(huì)，David Silver出來(lái)講了不少，也完全沒(méi)有提這個(gè)。我還寫文章，說(shuō)零知識(shí)自學(xué)習(xí)可能失敗了，陷入局部陷阱棋力并不太高。特別是2017年8月AlphaGo打星際的論文出來(lái)，從0知識(shí)開(kāi)始學(xué)習(xí)，但是能力非常差，連暴雪最弱的AI都打不過(guò)，也不會(huì)造兵，更是讓人覺(jué)得零知識(shí)自學(xué)習(xí)可能不行，人類的先驗(yàn)知識(shí)應(yīng)該還是挺重要的。

但是2017年10月18日Deepmind第二篇AlphaGo論文《Mastering the Game of Go without Human Knowledge》出來(lái)了！論文給出了出乎我的預(yù)料的結(jié)果：

1. 從0知識(shí)開(kāi)始學(xué)習(xí)，是可以訓(xùn)練成功的！這個(gè)成功的程度是”目前所有Alphago版本中最厲害“。100:0戰(zhàn)勝AlphaGo-Lee版本，90%勝率勝M(fèi)aster版本（也就是戰(zhàn)勝柯潔的那個(gè)）。但是還沒(méi)有”天下無(wú)敵“，還是有一定概率輸給Master，等級(jí)分領(lǐng)先幅度還不算大。下圖右是等級(jí)分?jǐn)?shù)值。

2. 從0知識(shí)開(kāi)始，訓(xùn)練速度非?？欤?天就能戰(zhàn)勝AlphaGo-Lee，21天能戰(zhàn)勝M(fèi)aster。下圖左是AlphaGo-Zero等級(jí)分隨時(shí)間提升的曲線。訓(xùn)練沒(méi)有在早期陷入局部陷阱。

3. 讓人類還算欣慰的是，雖然AlphaGo Zero不需要人類棋譜，但是訓(xùn)練出來(lái)下得還是象人的。論文給出AlphaGo Zero的83局棋譜，沒(méi)訓(xùn)練一會(huì)就下得有模有樣了。也不是從中腹天元開(kāi)始下，而是象人類一樣先占邊角。這說(shuō)明人類的這些行棋方向還不算離譜。實(shí)際這也早有征兆，幾個(gè)圍棋AI都這樣，如果一開(kāi)始不下角部，下在中腹或者邊上，給出的勝率就會(huì)下降。

4. 雖然Alphago Zero下得象人，但是很多招為什么這么下，連高手都應(yīng)該是看不懂了。它到了什么境界，人類還需要領(lǐng)會(huì)。

從哲學(xué)意義上來(lái)說(shuō)，這說(shuō)明圍棋這種人類看上去很復(fù)雜的游戲，在AI看來(lái)卻是簡(jiǎn)單的。因?yàn)閲宓囊?guī)則與目標(biāo)是明確的，甚至是最簡(jiǎn)單的，圍棋幾乎是規(guī)則最簡(jiǎn)單的游戲，只需要兩個(gè)行棋規(guī)則：氣盡提子，禁止全同。勝負(fù)規(guī)則，也是行棋規(guī)則自然出來(lái)的，終局?jǐn)?shù)子。

圍棋的規(guī)則，讓AI可以不需要人類，就判定棋局的結(jié)果，這樣就完全不需要人類干預(yù)進(jìn)行自學(xué)習(xí)了。學(xué)名叫“無(wú)監(jiān)督”。也就是說(shuō)圍棋是個(gè)完全客觀的游戲。而人類在這種客觀游戲中，確實(shí)在幾百上千年中加入了不少主觀的東西，各種“定式”、“趣向”、“價(jià)值判斷”，這都是非自然的，肯定有不少錯(cuò)誤。人類的經(jīng)驗(yàn)，對(duì)AI的自學(xué)習(xí)來(lái)說(shuō)，到很高的水平上，應(yīng)該反而是障礙了。

AlphaGo Zero說(shuō)明，對(duì)于完全客觀的東西，人類的主觀經(jīng)驗(yàn)很可能是有錯(cuò)的，要勇敢地懷疑與挑戰(zhàn)。當(dāng)然也有不少問(wèn)題，是依賴人的主觀判斷的，那對(duì)AI又是不同的，需要“監(jiān)督”，如識(shí)別文字。

關(guān)于這個(gè)問(wèn)題，每日經(jīng)濟(jì)新聞?dòng)浾咄縿跑娬J(rèn)為：

AlphaGo Zero完勝曾經(jīng)戰(zhàn)勝人類的AlphaGo，這是一個(gè)里程碑的事件，對(duì)于Ai技術(shù)來(lái)說(shuō)，是上到一個(gè)新臺(tái)階，足以在現(xiàn)實(shí)中證明，不依賴于人類的既有經(jīng)驗(yàn)，讓機(jī)器自主學(xué)習(xí)掌握了人類上千年的圍棋技能。

這種新程序代表著人類在建造真正智能化機(jī)器方面向前邁進(jìn)了一步，因?yàn)榧词乖跊](méi)有大量訓(xùn)練數(shù)據(jù)的情況下，機(jī)器也需要找出解決困難問(wèn)題的方法。 DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官戴密斯·哈薩比斯（Demis Hassabis）說(shuō)：“最引人注目的一點(diǎn)是，我們不再需要任何人工數(shù)據(jù)，”。他認(rèn)為，建造Alphago Zero的技術(shù)已經(jīng)足夠強(qiáng)大，可以應(yīng)用在現(xiàn)實(shí)世界，例如藥物發(fā)現(xiàn)與材料科學(xué)等一些有必要繼續(xù)探索各種可能性的行業(yè)。Alphago Zero的相關(guān)研究成果發(fā)表在今天的《自然》雜志上。

阿爾法元自學(xué)成才，以100比0完爆阿爾法狗，你怎么看？-第1張圖片-贊晨新材料

人類一直以來(lái)有一個(gè)擔(dān)心，就是人工智能能夠自我進(jìn)化，從而超越人類，甚至對(duì)人類帶來(lái)威脅。如果過(guò)去認(rèn)為這種擔(dān)心是多余的，那么現(xiàn)在完全有理由相信人工智能的強(qiáng)大足以超過(guò)人類。當(dāng)然擔(dān)心之外，我們還是應(yīng)該慶賀一下，如果能夠很好地管控好人工智能，人類完全還是可以把無(wú)比強(qiáng)大的人工智能當(dāng)作工具，為人類服務(wù)。

從市場(chǎng)空間來(lái)說(shuō)，高強(qiáng)度的人工智能，可以幫助人類解決很多前所未有的問(wèn)題，正如哈薩比斯說(shuō)的，在醫(yī)藥、新材料領(lǐng)域，完全不用借助過(guò)去的人類經(jīng)驗(yàn)來(lái)推進(jìn)，人工智能的研發(fā)，應(yīng)該比人類研發(fā)速度更加快捷，從而在急用的這些領(lǐng)域上取得重大成就。

不管怎么樣，人工智能依托人類知識(shí)的學(xué)習(xí)已經(jīng)是完全可以實(shí)現(xiàn)的。當(dāng)然他們必須還有一個(gè)過(guò)度階段，因?yàn)楝F(xiàn)階段的人工智能的創(chuàng)造與進(jìn)步依然需要人類知識(shí)來(lái)推進(jìn)，當(dāng)不可否認(rèn)的是，終究有一天，人工智能不再有人工二字，純粹的程序智能，能夠自我進(jìn)化與完善，甚至于人腦融合。

上一篇床墊執(zhí)行標(biāo)準(zhǔn)qb19502-2011合格嗎？

下一篇probouce2018和2021哪個(gè)好？

抱歉，評(píng)論功能暫時(shí)關(guān)閉!

請(qǐng)先登錄再評(píng)論，若不是會(huì)員請(qǐng)先注冊(cè)！

阿爾法元自學(xué)成才，以100比0完爆阿爾法狗，你怎么看？

阿爾法元自學(xué)成才，以100比0完爆阿爾法狗，你怎么看？