您的位置：首頁 > 資訊 > 企業動態 > 正文

MIT：人工智能圖像生成器如何幫助機器人

2022-11-04 09:10 性質：原創作者：小桐來源：AGV網

免責聲明：AGV網（www.xmydyc.com)尊重合法版權，反對侵權盜版。（凡是我網所轉載之文章，文中所有文字內容和圖片視頻之知識產權均系原作者和機構所有。文章內容觀點，與本網無關。如有需要刪除，敬請來電商榷！）

作者為美國麻省理工學院的Rachel Gordon美國麻省理工學院博士生Yilun Du一直致力于將穩定擴散模型（生成藝術的技術支柱）擴展到機器人等其他領域。人工智能圖像生成器，在夢想和現實的交匯處創造...

作者為美國麻省理工學院的Rachel Gordon

美國麻省理工學院博士生Yilun Du一直致力于將穩定擴散模型（生成藝術的技術支柱）擴展到機器人等其他領域。

人工智能圖像生成器，在夢想和現實的交匯處創造出奇幻的景象，在網絡的每個角落涌現。它們的娛樂價值體現在不斷擴大的異想天開和隨機圖像的寶庫中，作為人類設計師大腦的間接門戶。一個簡單的文字提示就能產生一個幾乎即時的圖像，滿足了我們的原始大腦，它是硬性規定的即時滿足。

雖然看起來是新生事物，但人工智能生成的藝術領域最早可以追溯到20世紀60年代，早期嘗試使用基于符號規則的方法來制作技術圖像。雖然解讀和解析文字的模型進展越來越成熟，但生成藝術的爆發引發了圍繞版權、虛假信息和偏見的辯論，這些都陷入了炒作和爭議之中。

電子工程和計算機科學系的博士生、，美國麻省理工學院計算機科學和人工智能實驗室（CSAIL）的附屬機構Yilun Du最近開發了一種新方法，使像《DALL-E 2》這樣的模型更具創造性，并有更好的場景理解。在這里，Du描述了這些模型是如何工作的，這種技術基礎設施是否可以應用于其他領域，以及我們如何在人工智能和人類創造力之間劃清界限。

問：人工智能生成的圖像使用一種叫做 "穩定擴散 "的模型，在短短幾秒鐘內將文字變成令人震驚的圖像。但每張圖片的背后通常都有一個人。那么，人工智能和人類創造力之間的界限是什么？這些模型到底是如何工作的？

答：想象一下你在谷歌搜索上能得到的所有圖片以及它們的相關模式。這就是這些模型的食物。它們在所有這些圖片和它們的標題上接受訓練，以生成與它在互聯網上看到的數十億張圖片相似的圖片。

比方說，一個模型已經看到了很多狗的照片。它經過訓練，所以當它得到類似 "狗 "這樣的文字輸入提示時，它能夠生成一張看起來與已經看到的許多狗的照片非常相似的照片。現在，從方法論上講，這一切的工作可以追溯到非常古老的一類模型，稱為 "基于能量的模型"，起源于70年代或80年代。

在基于能量的模型中，在圖像上構建了一個能量景觀，用來模擬物理耗散以生成圖像。當你把一個墨水點滴到水中，它消散了，例如，在最后，你只是得到這種均勻的紋理。但如果你試圖扭轉這個消散的過程，你又會逐漸得到水里原來的墨點。

或者說，你有這個非常復雜的積木塔，如果你用球砸它，它就會坍塌成一堆積木。這堆積木就非常無序了，而且沒有什么結構。為了使塔復活，你可以嘗試逆轉這個折疊過程，生成你原來的那堆積木。

這些生成模型生成圖像的方式非常類似，最初，你有這個非常好的圖像，你從這個隨機的噪聲開始，你基本上學會了如何模擬這個從噪聲回到你的原始圖像的過程，你試圖迭代地完善這個圖像，使它越來越真實。

就人工智能和人類創造力之間的界限而言，你可以說，這些模型確實是在人們的創造力上訓練出來的。互聯網上有各種類型的繪畫和圖像，都是人們過去已經創造過的。這些模型被訓練來復述和生成互聯網上已經出現的圖像。因此，這些模型更像是人們幾百年來花費創造力的結晶。

同時，由于這些模型是根據人類所設計的東西進行訓練的，它們可以生成與人類過去所做的非常相似的藝術作品。他們可以在人們所做的藝術中找到模式，但這些模型要真正自己生成有創意的照片就難多了。

如果你試圖輸入 "抽象藝術 "或 "獨特藝術 "之類的提示，它并不能真正理解人類藝術的創造力方面。可以說，這些模型是在復述人們過去所做的事情，而不是從根本上產生新的和創造性的藝術。

由于這些模型是在互聯網上的大量圖片上訓練出來的，這些圖片中很多都可能是有版權的。你并不確切知道模型在生成新圖像時檢索了什么，所以有一個很大的問題是，你甚至可以確定模型是否在使用受版權保護的圖像。如果該模型在某種意義上依賴于一些受版權保護的圖像，那么這些新圖像是否受版權保護？這是另一個需要解決的問題。

美國麻省理工學院學生解釋 AI 圖像生成器解釋 AI 圖像生成器

問：你是否認為由擴散模型生成的圖像編碼了對自然或物理世界的某種理解，無論是動態的還是幾何的？是否有努力 "教導 "圖像生成器了解嬰兒很早就學會的宇宙的基本知識？

答：在代碼中，他們是否理解了對自然和物理世界的一些把握？我想肯定是的。如果你要求一個模型生成一個穩定的塊狀配置，它肯定會生成一個穩定的塊狀配置。如果你告訴它，生成一個不穩定的塊狀配置，它確實看起來非常不穩定。或者，如果你說 "湖邊的一棵樹"，它大致上能夠生成。

從某種意義上說，似乎這些模型已經抓住了常識的很大一個方面。但是，使我們離真正理解自然和物理世界仍然非常遙遠的問題是，當你試圖生成你或我在工作中我們的頭腦可以非常容易地想象的不經常出現的詞語組合時，這些模型不能。

例如，如果你說，"把叉子放在盤子上面"，這種情況一直在發生。如果你要求模型產生這個，它很容易就能做到。如果你說，"把盤子放在叉子上面"，同樣，我們很容易想象這將是什么樣子的。但是，如果你把它放到任何這些大型模型中，你永遠不會得到一個放在叉子上面的盤子。相反，你會得到一個盤子上面的叉子，因為這些模型正在學習重述它所訓練的所有圖像。它不能很好地歸納出它沒有見過的詞語的組合。

一個相當知名的例子是宇航員騎著馬，模型可以輕松做到這一點。但是如果你說一匹馬騎著一個宇航員，它仍然會生成一個人騎著一匹馬。看起來這些模型在它們所訓練的數據集中捕捉到了很多相關性，但它們實際上并沒有捕捉到世界的基本因果機制。

另一個常用的例子是，如果你得到非常復雜的文本描述，比如一個物體在另一個物體的右邊，第三個物體在前面，還有第三個或第四個物體在飛。它真的只能滿足也許是其中的一個或兩個物體。這可能部分是由于訓練數據的原因，因為很少有非常復雜的標題但它也可能表明，這些模型不是很有結構。

你可以想象，如果你得到非常復雜的自然語言提示，模型沒有辦法準確地表示所有的組成部分的細節。

問：你最近提出了一種新的方法，使用多個模型來創造更復雜的圖像，對生成藝術有更好的理解。這個框架在圖像或文本領域之外是否有潛在的應用？

答：我們真正受到了這些模型的一個限制的啟發。當你給這些模型非常復雜的場景描述時，它們實際上并不能正確地生成與之匹配的圖像。

一個想法是，由于它是一個具有固定計算圖的單一模型，意味著你只能使用固定的計算量來生成圖像，如果你得到一個極其復雜的提示，你就沒有辦法使用更多的計算能力來生成這個圖像。

如果我給人類一個場景的描述，比如說，100行，和一個只有一行的場景，人類藝術家可以在前者上花費更多的時間。這些模型并沒有真正的感性來做到這一點。那么，我們建議，給定非常復雜的提示，你實際上可以把許多不同的獨立模型組成在一起，讓每個單獨的模型代表你想要描述的場景的一部分。

我們發現，這使我們的模型能夠生成更復雜的場景，或者更準確地一起生成場景的不同方面。此外，這種方法可以普遍應用于各種不同的領域。雖然圖像生成可能是目前最成功的應用，但生成式模型實際上已經在各種領域中看到了各種類型的應用。

你可以用它們來生成不同的不同的機器人行為，合成3D形狀，使人們更好地理解場景，或設計新材料。你可以潛在地組成多個所需的因素，以產生你在特定應用中需要的確切材料。

我們一直非常感興趣的一件事是機器人技術。就像你可以生成不同的圖像一樣，你也可以生成不同的機器人軌跡（路徑和時間表），通過將不同的模型組合在一起，你能夠生成具有不同技能組合的軌跡。如果我有跳躍與避開障礙物的自然語言規范，你也可以將這些模型合成在一起，然后生成既能跳躍又能避開障礙物的機器人軌跡.

以類似的方式，如果我們想設計蛋白質，我們可以指定不同的功能或方面--類似于我們用語言來指定圖像的內容--用類似語言的描述，如蛋白質的類型或功能。然后，我們可以將這些組合在一起，生成有可能滿足所有這些給定功能的新蛋白質。

我們還探索了在三維形狀生成上使用擴散模型，你可以使用這種方法來生成和設計三維資產。通常情況下，3D資產設計是一個非常復雜和費力的過程。通過將不同的模型組合在一起，生成形狀就會變得容易得多，例如，"我想要一個有四條腿的3D形狀，有這樣的風格和高度"，可能會使3D資產設計的一部分自動化。

關于美國麻省理工學院(MIT)Hyperloop項目組進入企業商鋪

美國麻省理工學院(MIT)的Hyperloop II團隊由一組具有航空航天，機械，電氣和系統工程背景的多學科研究人員組成。

MIT四十名學生合作設計和制造了Hyperloop II，這是一種高速、無摩擦的車輛，旨在通過空氣懸浮技術來運載人員或貨物。Hyperloop與許多需要軌道或在真空管運行軌道列車不同，這款模型僅需要平坦的表面并能在氣墊上行駛。它不依賴昂貴的磁性系統為其懸浮提供動力，不需要高昂的真空環境。

Hyperloop II是2019年在SpaceX Hyperloop Pod競賽中唯一以其功能齊全的空氣懸浮吊艙而聞名。這是一項年度的超級環形高鐵車廂大賽大賽，SpaceX公司旨在鼓勵開發新的運輸方式。該團隊在去年比賽中排名第5，并獲得了創新獎。因為大火摧毀了原始原型后，三周后該團隊再次對其軌道車進行了大幅度修改。

美國MIT開發的AirLev是第一款電動高速無摩擦空氣懸浮軌道車，旨在通過其空氣懸浮技術來運載人員或貨物。該團隊在2019年的SpaceX-Hyperloop大賽上展示了升級版-Hyperloop II，該軌道車在20秒內，以0到200 mph(時速200英里/352公里)迅速提升。

0贊 0踩

下一篇喜報丨銳曼霧化消毒機器人通過全國消毒產品網上備案審核

上一篇 Fusion 和Bradshaw聯合開發無GPS的AGV物流牽引車

網友評論
文明上網，理性發言，拒絕廣告
0條評論

相關資訊
更多>>

【招賢納士】合肥搬易通MiMA全國熱招銷售工程師崗，職等你來！

合肥搬易通（MiMA米瑪）合肥搬易通（MiMA米瑪）創立于1994年，是一家集高端電動叉車設計、生產、銷售于一體的高新技術企業。公司占地面積7.2萬平方米，員工人數超700人，擁有超140人的高素質研發團...

2025-04-17 08:18
多地政府代表團同日參訪鐳神智能共探激光雷達技術合作新機遇

4月16日，深圳市鐳神智能系統有限公司迎來三批重要訪客：廣西馬山縣縣委副書記、縣長韋佳一行，南通高新區黨工委委員、管委會副主任董景利及招商局局長蔣林華一行，以及江蘇省建湖高新區黨工委書記...

2025-04-17 08:18
合力科技與科爾摩根深化戰略合作共筑智能物流新未來

4月15日，科爾摩根AMS公司NDC全球總裁Johan與中國區總經理錢陽峰率團隊到訪合力科技進行交流。合力科技總經理袁正、總經理助理胡浩等接待到訪團。作為全球AGV/AMR控制系統解決方案的領軍企業，科爾...

2025-04-17 08:17
風雨十載共贏未來 | 斯坦德機器人2025年供應商大會圓滿舉行

陽春三月，萬物向新。以“風雨十載、共贏未來”為主題的斯坦德機器人2025年供應商大會在深圳隆重召開。斯坦德機器人CEO王永錕、CTO李洪祥、副總經理賓小均、王茂林等相關領導出席會議，與來自五湖...

2025-04-17 08:15
忙不過來啦！立鏢機器人出圈廣交會，人氣爆棚擠不動

4月15日，第135屆中國進出口商品交易會（廣交會）第一期在廣州正式拉開帷幕。今年第一期首次設立的服務機器人專區，引來海內外客商的廣泛關注。而立鏢機器人，經市政府多輪評審，成功作為杭州市入...

2025-04-17 08:14
PUDU T300斬獲2025年度德國紅點設計獎！普渡用實力回答：什么才是“設計卷王”

設計領域再傳捷報——普渡機器人PUDU T300憑借其突破性設計理念與技術創新，斬獲2025年度德國紅點設計獎。這是普渡機器人繼首款產品“歡樂送”獲得德國紅點至尊獎之后，第四次摘得這一被譽為設計...

2025-04-17 08:14
智能工業機器人第一股聯合索威爾成功登陸美股，開啟工業領域智能機器人新篇章，引領行業智能化變革

2025年4月3日，全球領先的機器視覺與人工智能解決方案提供商聯合索威爾（NASDAQ：LHSW）正式于納斯達克證券交易所掛牌上市，共募集800萬美元并成為智能工業機器人領域美國納斯達克上市第一股。隨著...

2025-04-16 11:04
以色列Revoltz榮獲2025中國臺北國際自行車展d&i獎

2025年4月9日，以色列電動交通技術公司Revoltz Ltd.宣布，其微型電動車產品在2025年中國臺北國際自行車展（TAIPEI CYCLE）中榮獲“d&i獎”微型出行類獎項。該獎項是全球自行車與微型出行領域最具...

2025-04-16 10:58
DoorDash攜手Coco Robotics擴展人行道機器人配送服務

2025年4月10日，美國本地商業平臺DoorDash宣布與美國食品配送機器人公司Coco Robotics擴大合作，在洛杉磯和芝加哥推出人行道機器人配送服務。此次合作旨在通過多模式配送網絡，提升“最后一公里”...

2025-04-16 10:53
Cartken發布全地形自主機器人Hauler

2025年4月11日，美國自動化機器人公司Cartken正式推出其最新自主移動機器人產品——Hauler，旨在提升制造業、倉儲、配送中心、企業園區及生命科學領域的物料搬運效率。該機器人具備強大的全地形適...

2025-04-16 10:52