像動(dòng)物一樣適應(yīng)的機(jī)器人(This Robot Adapts Like Animals )」論文提出一種智能試錯(cuò)法算法,算法允許機(jī)器人快速適應(yīng)破壞,完全不需要自我診斷或是提前準(zhǔn)備應(yīng)急措施。
對(duì)于人類而言,有很多危險(xiǎn)的工作,例如撲滅森林火災(zāi),尋找地震廢墟下的幸存者,或者是關(guān)閉福島核電站等等。如果這些高危工作能讓 AI 來(lái)完成,那該有多好!
本期介紹的論文中出現(xiàn)了兩個(gè)機(jī)器人:一個(gè)六組機(jī)器人和一個(gè)機(jī)械手臂,以此來(lái)展示動(dòng)作方面的智能試錯(cuò)算法。這是是一種快速有效的損壞恢復(fù)算法,可以使機(jī)器人更加高效和可靠地運(yùn)行。
與傳統(tǒng)強(qiáng)化學(xué)習(xí)(RL)方法相比,本期介紹的論文更加有效率,機(jī)器人上只需要花上幾分鐘和幾次物理試驗(yàn),而 RL 算法通常必須進(jìn)行數(shù)百次測(cè)試才能學(xué)會(huì)如何完成任務(wù)。論文介紹了機(jī)器人有一個(gè)「模擬童年」(simulated childhood),在這里它學(xué)習(xí)了移動(dòng)身體的不同方式,在經(jīng)過(guò)幾次測(cè)試和大約兩分鐘后就可以適應(yīng)。
本期論文跟之前的研究有兩個(gè)主要區(qū)別:
(1)機(jī)器人不需要知道損傷是什么,它只需要一種方法來(lái)衡量其性能;
(2)我們沒(méi)有一個(gè)大型資料庫(kù)來(lái)指導(dǎo),遭受各種類型的損害之后應(yīng)該怎么做。相反,我們的機(jī)器人可以像動(dòng)物那樣,自行學(xué)會(huì)應(yīng)對(duì)各種損害的場(chǎng)景。
在這項(xiàng)研究中,機(jī)器人使用自己的模擬,找到成千上萬(wàn)種不同的行走方式。一旦損壞,機(jī)器人會(huì)進(jìn)行體驗(yàn)并更新其關(guān)于每種可能行為的性能的知識(shí)(該更新將通過(guò)機(jī)器學(xué)習(xí)算法完成:高斯過(guò)程回歸)。之前所習(xí)得的 13,000 種行為統(tǒng)統(tǒng)變得不管用了,因此,機(jī)器人必須利用之前的知識(shí)進(jìn)行下一步操作的可行性測(cè)試:在大多數(shù)情況下,它會(huì)測(cè)試少于 10 種行為,以找到一個(gè)盡管受到損害仍能正常工作的行為。