卡內基梅隆大學機器人研究所的研究人員開發了一種名為FRIDA的工具,它是一個附有畫筆的機械臂。該工具利用人工智能(AI)與人類合作開展藝術項目。
該團隊將于5月在2023年IEEE機器人與自動化國際會議上展示題為“FRIDA:具有可區分的Real2Sim2Real規劃環境的協作機器人畫家”的研究。
Peter Schaldenbrand是博士。計算機學院機器人研究所學生。他與FRIDA合作,探索人工智能和創造力。
“有一幅青蛙芭蕾舞演員的畫,我認為效果非常好,”他說。“這真的很傻也很有趣,我認為FRIDA根據我的輸入生成的驚喜真的很有趣。”
FRIDA是Framework and Robotics Initiative for Developing Arts的縮寫。它以弗里達·卡羅的名字命名。
該研究由Schalderbrand以及RI教員Jean Oh和Jim McCaam領導,它吸引了來自CMU各地的學生和研究人員。
協作工具不是藝術家
用戶可以通過輸入文字描述、提交其他藝術作品以激發其風格或上傳照片并要求其繪制代表來引導FRIDA。該團隊還在測試其他輸入,例如音頻。
“FRIDA是一個機器人繪畫系統,但FRIDA不是藝術家,”Schalderbrand繼續說道。“FRIDA并沒有產生交流的想法。FRIDA是一個藝術家可以與之合作的系統。藝術家可以為FRIDA指定高級目標,然后FRIDA可以執行它們。”
為了繪制圖像,機器人使用的AI模型與支持OpenAI的ChatGPT和DALL-E 2的模型相當,后者會根據提示生成文本或圖像。FRIDA模擬了它如何用筆觸繪制圖像,并利用機器學習來評估其工作進度。
FRIDA的最終產品是異想天開和印象派的。筆觸大膽,缺乏機器人工作中經常尋求的精確度。
“FRIDA是一個探索人類和機器人創造力交叉點的項目,”McCann補充道。“Frida正在使用已經開發的AI模型來做諸如標題圖像和理解場景內容之類的事情,并將其應用于這個藝術生成問題。”
FRIDA在其藝術創作過程中多次使用人工智能和機器學習。首先,它會花一個小時或更長時間學習如何使用畫筆。然后,它采用視覺語言模型,這些模型已經在龐大的數據集上訓練,將文本和從互聯網上抓取的圖像配對,例如OpenAI的對比語言圖像預訓練(CLIP),以理解輸入。
制作物理圖像的最重大技術挑戰之一是減少模擬與真實的差距,這是FRIDA在模擬中創建的內容與它在畫布上繪制的內容之間的差異。FRIDA使用了一種被稱為real2sim2real的想法,其中機器人的實際筆觸用于訓練模擬器以反映和模仿機器人和繪畫材料的物理能力。
FRIDA團隊現在的目標是通過不斷改進他們使用的模型來解決當前大型視覺語言模型中的一些局限性。他們從新聞文章中為模型提供標題,讓他們了解世界上正在發生的事情,并進一步訓練他們使用更能代表不同文化的圖像和文本,以避免美國或西方的偏見。