在互動設計與數位藝術的領域中,科技與美學的邊界正以驚人的速度擴張。傳統的生成式藝術往往受限於運算時間與預先渲染的框架,但 TouchDesigner (TD) 強大的即時運算能力,為創作者打開了一扇全新的大門。
近期,我的研究與創作重心大量聚焦於 TD 與人工智慧 (AI) 的整合應用。當我們將 AI 模型(例如即時影像生成、姿態辨識或音訊演算)導入 TD 的工作流程時,視覺不再只是被動的播放,而是能根據環境、聲音或肢體動作產生有機的即時回饋。
在建構如《Entropy》這類深入探討電子聲響與 AI 互動視覺的專案時,TD 扮演了不可或缺的橋樑角色。為了記錄這些技術測試與跨界整合的過程,我整理了一系列的實驗影片。以下是我近期關於 TouchDesigner 與 AI 結合的測試紀錄:
實驗紀錄一:《塵沙的呢喃》(The Whisper of Dust and Sand) – 電子音樂與 AI 互動影像之共鳴
這項測試探討了如何將即時音訊轉化為視覺生成的驅動力。透過擷取音訊偵測所產生的頻譜圖像與遮罩,我以「圖生圖」的方式搭配提示詞 (Prompt),直接驅動 AI 模型的演算與變異。
技術重點: 音訊特徵擷取(波形圖像化與特定頻率帶偵測) ➔ 即時遮罩生成 ➔ AI 模型參數與提示詞連動控制 ➔ AI 即時互動影像。
觀察與反思: 現場演出的網路速度與運算延遲是目前最大的技術挑戰。然而,相較於過往純粹的音頻驅動,AI 生成的圖像在契合音樂的聲響內容上表現得更為穩定且深邃,即時生成的視覺張力依然非常迷人。
實驗紀錄二:肢體語彙的轉譯 – 基於 MediaPipe 的骨架追蹤與 AI 圖像生成
這段影片記錄了利用攝影機捕捉即時動態,並將骨架節點數據送入 TD 系統的過程。透過置換骨架節點的標籤圖像,產生自訂顏色的新骨架與形狀,進而引導 AI 的視覺生成。
技術重點: MediaPipe 節點數據擷取 ➔ 骨架標籤圖像置換 ➔ 以圖生圖引導 AI 演算。
觀察與反思: 這種手法極度適合結合當代舞蹈的互動展演,能真實反映出 AI 畫面受到表演者肢體動作牽引的有機連動。未來若能進一步讓肢體同時控制互動聲音,整體張力將會更加強烈。此外,這類精準的姿態追蹤技術在跨領域上也有著極大的潛力,例如將其延伸應用於數位療癒領域的瑜伽體態辨識系統,探索科技與身心互動的更多維度。
實驗紀錄三:聽覺的視覺化形變 – 聲音操控 Shader 驅動 AI 即時運算
相較於直接使用音訊波形,這個測試將聲音先轉化為 Shader 圖像(例如 ISF Shader),再結合提示詞來引導 AI,這種雙層轉譯的手法帶來了極大的彈性與戲劇化效果。
技術重點: 即時音訊偵測 ➔ 驅動 Shader 圖像生成 ➔ 結合提示詞 ➔ AI 即時影像生成。
觀察與反思: 碎形 (Fractal) Shader 在這套系統中表現優異,非常適合用來詮釋抽象的聲音藝術作品。在「碎聲沉影」打擊樂與互動音樂系統的演出中,我運用了這套方法,並加入了即時提示詞切換功能(如下方第一、二支影片),讓視覺能緊密貼合曲目的結構,隨時切換不同主題的影像。
實驗紀錄四:空間中的人體拓撲 – MediaPipe 人形輪廓遮罩與 AI 視覺
相較於細緻的骨架數據,這個測試專注於擷取人體的整體輪廓遮罩,並將其直接作為 AI 生成的範圍引導。
技術重點: MediaPipe 人形遮罩 (Silhouette) 擷取 + 提示詞 ➔ AI 即時影像生成。
觀察與反思: 這是在程式邏輯上最為直觀且高效的方法。若硬體具備強大的 NVIDIA 運算晶片,便能直接且流暢地擷取人形輪廓,無需在 TD 中串接複雜的元件來處理動態遮罩的精確度。雖然犧牲了骨架關節的細節,但生成圖像的面積更大、充滿彈性,是一項非常適合應用於互動裝置藝術的技術。
未來的探索方向
這些測試影片只是個起點。TouchDesigner 與 AI 的結合,不僅僅是技術工具的堆疊,更是對「創作控制權」的重新定義——我們正從單純的「創作者」,蛻變為與演算法深度協作的「策展人」。
未來我會持續在這個部落格分享更多關於互動設計、聲響藝術以及程式視覺的實驗心得與專案進度。如果你對 TouchDesigner 的技術細節、AI 在互動藝術上的應用有任何想法與合作提案,歡迎與我交流討論。同時,也竭誠歡迎對這些領域充滿熱情的同學報考北科碩士班,加入我的「互動影音多媒體」實驗室研究團隊,一起探索科技與藝術的未知領域。


