鄭建文的部落格 — 音樂、影像、與互動表演的異想空間: 探索生成式藝術：TouchDesigner 與 AI 的即時視覺實驗

2026年3月9日星期一

探索生成式藝術：TouchDesigner 與 AI 的即時視覺實驗

在互動設計與數位藝術的領域中，科技與美學的邊界正以驚人的速度擴張。傳統的生成式藝術往往受限於運算時間與預先渲染的框架，但 TouchDesigner (TD) 強大的即時運算能力，為創作者打開了一扇全新的大門。

近期，我的研究與創作重心大量聚焦於 TD 與人工智慧 (AI) 的整合應用。當我們將 AI 模型（例如即時影像生成、姿態辨識或音訊演算）導入 TD 的工作流程時，視覺不再只是被動的播放，而是能根據環境、聲音或肢體動作產生有機的即時回饋。

在建構如《Entropy》這類深入探討電子聲響與 AI 互動視覺的專案時，TD 扮演了不可或缺的橋樑角色。為了記錄這些技術測試與跨界整合的過程，我整理了一系列的實驗影片。以下是我近期關於 TouchDesigner 與 AI 結合的測試紀錄：

實驗紀錄一：《塵沙的呢喃》(The Whisper of Dust and Sand) – 電子音樂與 AI 互動影像之共鳴

這項測試探討了如何將即時音訊轉化為視覺生成的驅動力。透過擷取音訊偵測所產生的頻譜圖像與遮罩，我以「圖生圖」的方式搭配提示詞 (Prompt)，直接驅動 AI 模型的演算與變異。
技術重點：音訊特徵擷取（波形圖像化與特定頻率帶偵測） ➔ 即時遮罩生成 ➔ AI 模型參數與提示詞連動控制 ➔ AI 即時互動影像。
觀察與反思：現場演出的網路速度與運算延遲是目前最大的技術挑戰。然而，相較於過往純粹的音頻驅動，AI 生成的圖像在契合音樂的聲響內容上表現得更為穩定且深邃，即時生成的視覺張力依然非常迷人。

實驗紀錄二：肢體語彙的轉譯 – 基於 MediaPipe 的骨架追蹤與 AI 圖像生成
這段影片記錄了利用攝影機捕捉即時動態，並將骨架節點數據送入 TD 系統的過程。透過置換骨架節點的標籤圖像，產生自訂顏色的新骨架與形狀，進而引導 AI 的視覺生成。
- 技術重點： MediaPipe 節點數據擷取 ➔ 骨架標籤圖像置換 ➔ 以圖生圖引導 AI 演算。
- 觀察與反思： 這種手法極度適合結合當代舞蹈的互動展演，能真實反映出 AI 畫面受到表演者肢體動作牽引的有機連動。未來若能進一步讓肢體同時控制互動聲音，整體張力將會更加強烈。此外，這類精準的姿態追蹤技術在跨領域上也有著極大的潛力，例如將其延伸應用於數位療癒領域的瑜伽體態辨識系統，探索科技與身心互動的更多維度。

實驗紀錄三：聽覺的視覺化形變 – 聲音操控 Shader 驅動 AI 即時運算

相較於直接使用音訊波形，這個測試將聲音先轉化為 Shader 圖像（例如 ISF Shader），再結合提示詞來引導 AI，這種雙層轉譯的手法帶來了極大的彈性與戲劇化效果。
技術重點：即時音訊偵測 ➔ 驅動 Shader 圖像生成 ➔ 結合提示詞 ➔ AI 即時影像生成。
觀察與反思：碎形 (Fractal) Shader 在這套系統中表現優異，非常適合用來詮釋抽象的聲音藝術作品。在「碎聲沉影」打擊樂與互動音樂系統的演出中，我運用了這套方法，並加入了即時提示詞切換功能（如下方第一、二支影片），讓視覺能緊密貼合曲目的結構，隨時切換不同主題的影像。

實驗紀錄四：空間中的人體拓撲 – MediaPipe 人形輪廓遮罩與 AI 視覺

相較於細緻的骨架數據，這個測試專注於擷取人體的整體輪廓遮罩，並將其直接作為 AI 生成的範圍引導。
技術重點： MediaPipe 人形遮罩 (Silhouette) 擷取 + 提示詞 ➔ AI 即時影像生成。
觀察與反思：這是在程式邏輯上最為直觀且高效的方法。若硬體具備強大的 NVIDIA 運算晶片，便能直接且流暢地擷取人形輪廓，無需在 TD 中串接複雜的元件來處理動態遮罩的精確度。雖然犧牲了骨架關節的細節，但生成圖像的面積更大、充滿彈性，是一項非常適合應用於互動裝置藝術的技術。

未來的探索方向

這些測試影片只是個起點。TouchDesigner 與 AI 的結合，不僅僅是技術工具的堆疊，更是對「創作控制權」的重新定義——我們正從單純的「創作者」，蛻變為與演算法深度協作的「策展人」。
未來我會持續在這個部落格分享更多關於互動設計、聲響藝術以及程式視覺的實驗心得與專案進度。如果你對 TouchDesigner 的技術細節、AI 在互動藝術上的應用有任何想法與合作提案，歡迎與我交流討論。同時，也竭誠歡迎對這些領域充滿熱情的同學報考北科碩士班，加入我的「互動影音多媒體」實驗室研究團隊，一起探索科技與藝術的未知領域。

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)