復(fù)旦學(xué)霸張立勇做的網(wǎng)站,網(wǎng)站開(kāi)發(fā)有哪些,沒(méi)技術(shù)怎么做網(wǎng)站,做網(wǎng)站asp和asp.net點(diǎn)擊下方卡片#xff0c;關(guān)注“CVer”公眾號(hào)AI/CV重磅干貨#xff0c;第一時(shí)間送達(dá)點(diǎn)擊進(jìn)入—【頂會(huì)/頂刊】投稿交流群添加微信號(hào)#xff1a;CVer2233#xff0c;小助手拉你進(jìn)群#xff01;掃描下方二維碼#xff0c;加入CVer學(xué)術(shù)星球#xff01;可以獲得最新頂會(huì)/頂…點(diǎn)擊下方卡片關(guān)注“CVer”公眾號(hào)AI/CV重磅干貨第一時(shí)間送達(dá)點(diǎn)擊進(jìn)入—【頂會(huì)/頂刊】投稿交流群添加微信號(hào)CVer2233小助手拉你進(jìn)群掃描下方二維碼加入CVer學(xué)術(shù)星球可以獲得最新頂會(huì)/頂刊上的論文idea和CV從入門到精通資料及應(yīng)用發(fā)論文/搞科研/漲薪強(qiáng)烈推薦主頁(yè)https://henghuiding.com/SceneDesigner/論文https://arxiv.org/abs/2511.16666摘要近年來(lái)可控圖像生成領(lǐng)域引起了廣泛關(guān)注用戶已能對(duì)生成內(nèi)容的身份和風(fēng)格進(jìn)行一定程度的操縱。然而如何在單張圖像中同時(shí)對(duì)多個(gè)物體進(jìn)行涵蓋位置Location、大小Size和朝向Orientation的 9自由度9-DoF 精準(zhǔn)控制仍是一個(gè)未解難題。盡管現(xiàn)有方法取得了一定進(jìn)展但往往受限于控制能力的不足或生成質(zhì)量的下降難以實(shí)現(xiàn)全面的多物體三維空間布局控制。針對(duì)這一局限SceneDesigner 框架應(yīng)運(yùn)而生——這是一種能夠?qū)崿F(xiàn)準(zhǔn)確且靈活的多物體9D姿態(tài)操控的生成方法。SceneDesigner 在預(yù)訓(xùn)練模型的基礎(chǔ)上引入了一個(gè)分支網(wǎng)絡(luò)并利用一種全新的 CNOCS Map 作為核心表征。這種表征方式從相機(jī)視角對(duì)物體的9D姿態(tài)信息進(jìn)行編碼具有極強(qiáng)的幾何解釋性從而實(shí)現(xiàn)了更高效、穩(wěn)定的訓(xùn)練。此外為了支持模型訓(xùn)練研究者構(gòu)建了 ObjectPose9D 數(shù)據(jù)集針對(duì)長(zhǎng)尾姿態(tài)分布導(dǎo)致的數(shù)據(jù)不平衡問(wèn)題引入了包含強(qiáng)化學(xué)習(xí)的兩階段訓(xùn)練策略在推理階段該框架采用了解耦物體采樣Disentangled Object Sampling 技術(shù)以解決多物體生成中的概念混淆問(wèn)題。實(shí)驗(yàn)表明SceneDesigner 在可控性和生成質(zhì)量上均顯著優(yōu)于現(xiàn)有方法。現(xiàn)存問(wèn)題及挑戰(zhàn)隨著生成式AI的發(fā)展控制生成圖像的空間屬性如物體結(jié)構(gòu)或場(chǎng)景布局已在2D層面如利用邊緣圖、深度圖取得了廣泛探索。然而3D空間控制仍是一大挑戰(zhàn)。例如設(shè)計(jì)師希望在房間中擺放多件家具每件家具有不同的大小和朝向或者用戶希望生成一只背對(duì)鏡頭凝視風(fēng)景的寵物狗?，F(xiàn)有的解決方案面臨以下瓶頸1. 3D感知的缺失大多數(shù)方法局限于2D空間控制如ControlNet使用深度圖或邊緣圖無(wú)法理解物體的三維旋轉(zhuǎn)和體積。2. 控制維度的限制早期嘗試如LOOSECONTROL使用3D邊界框進(jìn)行引導(dǎo)但這只能控制位置和大小缺乏對(duì)物體“朝向”的精細(xì)表達(dá)例如無(wú)法區(qū)分物體是正面還是背面朝向鏡頭。3. 多物體生成的干擾在生成復(fù)雜場(chǎng)景時(shí)不同物體的特征容易發(fā)生混淆且難以獲得高質(zhì)量的帶有9D姿態(tài)標(biāo)注的訓(xùn)練數(shù)據(jù)。因此如何建立一種既包含精確幾何信息又易于獲取的表征并在此基礎(chǔ)上實(shí)現(xiàn)多物體的高保真生成是該項(xiàng)研究的核心目標(biāo)。簡(jiǎn)單直觀的交互流程SceneDesigner的工作流程主要分為三個(gè)步驟用戶只需關(guān)注頂層的設(shè)計(jì)布局復(fù)雜的幾何轉(zhuǎn)換則由模型自動(dòng)完成1. 姿態(tài)控制Pose Control 用戶首先根據(jù)構(gòu)思在 3D 空間中放置并調(diào)整立方體邊界框。這代表了用戶對(duì)物體位置、大小和朝向的意圖。2. 控制信號(hào)生成Control Signals 系統(tǒng)自動(dòng)將用戶定義的粗糙 3D 框轉(zhuǎn)換為精細(xì)的 CNOCS Map。這一步是連接用戶意圖與模型理解的橋梁它將幾何信息編碼為模型可讀的特征圖。3. 圖像生成Image Generation 結(jié)合文本提示Prompt與 CNOCS Map生成模型最終渲染出符合空間布局的高質(zhì)量圖像。這種設(shè)計(jì)使得用戶無(wú)需具備專業(yè)的 3D 建模技能僅通過(guò)簡(jiǎn)單的“搭積木”式的操作即可實(shí)現(xiàn)對(duì)畫面構(gòu)圖的精準(zhǔn)把控。方法介紹該研究的核心貢獻(xiàn)在于設(shè)計(jì)了一種能夠精確編碼9D姿態(tài)的表征形式并配合專門的數(shù)據(jù)集與訓(xùn)練策略實(shí)現(xiàn)了對(duì)圖像生成的細(xì)粒度控制。1. 核心創(chuàng)新CNOCS Map這是 SceneDesigner 實(shí)現(xiàn)精準(zhǔn)姿態(tài)控制的關(guān)鍵所在。為了將任意物體的9D姿態(tài)位置、大小、朝向有效地編碼進(jìn)生成模型該方法并未采用傳統(tǒng)的文本嵌入或簡(jiǎn)單的幾何投影而是受到 NOCSNormalized Object Coordinate System的啟發(fā)設(shè)計(jì)了CNOCS Map (Cuboid-NOCS)。傳統(tǒng) NOCS 的局限與 CNOCS 的改進(jìn)傳統(tǒng)的 NOCS 需要精確的物體3D CAD模型來(lái)確定每個(gè)像素在物體空間中的坐標(biāo)這在泛化到任意類別物體時(shí)非常困難且對(duì)用戶不友好。相比之下CNOCS Map 進(jìn)行了一種巧妙的抽象不再依賴精確的物體幾何外形而是使用立方體Cuboid 作為通用的形狀抽象。CNOCS Map 的構(gòu)建過(guò)程CNOCS Map 本質(zhì)上是一張與真實(shí)圖像對(duì)齊的RGB圖像但其顏色信息代表了三維空間坐標(biāo)。其構(gòu)建流程如下1. 3D 邊界框投影根據(jù)物體的9D姿態(tài)獲取其在3D空間中的邊界框。2. 坐標(biāo)映射與歸一化將邊界框表面上的點(diǎn)映射回“物體坐標(biāo)系”歸一化到 [-1 , 1] 區(qū)間。3. 編碼這種歸一化后的坐標(biāo)被編碼為特征圖。這意味著圖像中對(duì)應(yīng)物體區(qū)域的每一個(gè)像素都不僅包含了其在2D畫面中的位置還隱含了它在物體自身3D表面上的相對(duì)坐標(biāo)。通過(guò)注入 CNOCS Map模型能夠獲得比傳統(tǒng) 3D Bounding Box 更強(qiáng)的結(jié)構(gòu)約束從而在生成過(guò)程中精確地恢復(fù)出物體的三維姿態(tài)。2. ObjectPose9D 數(shù)據(jù)集與兩階段訓(xùn)練為了訓(xùn)練 SceneDesigner研究者構(gòu)建了 ObjectPose9D 數(shù)據(jù)集。該數(shù)據(jù)集整合了 OmniNOCS 和 MS-COCO 數(shù)據(jù)通過(guò)自動(dòng)化工具如 Orient Anything 和 MoGe與人工校驗(yàn)相結(jié)合的方式提供了豐富的高質(zhì)量9D姿態(tài)標(biāo)注。針對(duì)現(xiàn)實(shí)數(shù)據(jù)中姿態(tài)分布不平衡如動(dòng)物通常是側(cè)面或正面很少有背面視角的問(wèn)題SceneDesigner采用了兩階段訓(xùn)練策略第一階段基礎(chǔ)訓(xùn)練使模型學(xué)習(xí)基本的姿態(tài)控制能力。第二階段引入強(qiáng)化學(xué)習(xí)利用設(shè)計(jì)好的獎(jiǎng)勵(lì)函數(shù)根據(jù)生成物體的姿態(tài)準(zhǔn)確性評(píng)分在平衡后的數(shù)據(jù)分布上進(jìn)行微調(diào)。這一階段顯著提升了模型對(duì)低頻姿態(tài)的生成能力。3. 推理階段解耦物體采樣 (Disentangled Object Sampling)在處理多物體場(chǎng)景時(shí)傳統(tǒng)擴(kuò)散模型容易出現(xiàn)概念混淆例如將“貓”的特征生成到了“狗”的位置。為此SceneDesigner 在推理階段引入了解耦物體采樣技術(shù)。該技術(shù)利用 CNOCS Map 提供的精確區(qū)域掩碼Mask在去噪的每一步中根據(jù)空間位置將不同物體的生成過(guò)程隔離開(kāi)來(lái)。每個(gè)區(qū)域只關(guān)注其對(duì)應(yīng)的文本提示和姿態(tài)條件最后再融合成整張圖像。這確保了復(fù)雜場(chǎng)景中每個(gè)物體都能準(zhǔn)確對(duì)應(yīng)其指定的類別和姿態(tài)。實(shí)驗(yàn)與成果研究者將 SceneDesigner 與目前的 SOTA 方法如 LOOSECONTROL, C3DW進(jìn)行了廣泛對(duì)比。1. 單物體與多物體控制性能如下面的對(duì)比圖所示現(xiàn)有方法在控制物體朝向時(shí)往往存在偏差或者導(dǎo)致物體形狀崩壞。而 SceneDesigner 無(wú)論是控制單個(gè)物體的精細(xì)旋轉(zhuǎn)還是在同一場(chǎng)景中同時(shí)操控多個(gè)物體都表現(xiàn)出了極高的一致性和保真度。2. 靈活的應(yīng)用場(chǎng)景SceneDesigner 不僅限于通用物體生成還支持結(jié)合 LoRA 等技術(shù)進(jìn)行個(gè)性化定制。用戶可以指定特定的角色并利用 CNOCS Map 精確控制其在畫面中的動(dòng)作和位置。結(jié)論研究顯示現(xiàn)有圖像生成模型在處理涉及三維空間屬性的多物體布局時(shí)存在明顯短板。基于此SceneDesigner 通過(guò)引入 CNOCS Map 這一具有顯式幾何意義的姿態(tài)表征結(jié)合構(gòu)建的 ObjectPose9D 數(shù)據(jù)集與基于強(qiáng)化學(xué)習(xí)的訓(xùn)練策略成功實(shí)現(xiàn)了對(duì)多物體9D姿態(tài)的精準(zhǔn)操控。實(shí)驗(yàn)結(jié)果表明SceneDesigner 在無(wú)需昂貴訓(xùn)練成本的前提下極大拓展了文本到圖像模型在復(fù)雜空間布局上的生成能力。未來(lái)該技術(shù)有望在虛擬攝影、場(chǎng)景設(shè)計(jì)、故事板繪制等領(lǐng)域發(fā)揮重要作用讓AI創(chuàng)作真正實(shí)現(xiàn)“隨心所欲所見(jiàn)即所得”。何愷明在MIT授課的課件PPT下載在CVer公眾號(hào)后臺(tái)回復(fù)何愷明即可下載本課程的所有566頁(yè)課件PPT趕緊學(xué)起來(lái)ICCV 2025 論文和代碼下載在CVer公眾號(hào)后臺(tái)回復(fù)ICCV2025即可下載ICCV 2025論文和代碼開(kāi)源的論文合CVPR 2025 論文和代碼下載在CVer公眾號(hào)后臺(tái)回復(fù)CVPR2025即可下載CVPR 2025論文和代碼開(kāi)源的論文合集CV垂直方向和論文投稿交流群成立掃描下方二維碼或者添加微信號(hào)CVer2233即可添加CVer小助手微信便可申請(qǐng)加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋目標(biāo)檢測(cè)、圖像分割、目標(biāo)跟蹤、人臉檢測(cè)識(shí)別、OCR、姿態(tài)估計(jì)、超分辨率、SLAM、醫(yī)療影像、Re-ID、GAN、NAS、深度估計(jì)、自動(dòng)駕駛、強(qiáng)化學(xué)習(xí)、車道線檢測(cè)、模型剪枝壓縮、去噪、去霧、去雨、風(fēng)格遷移、遙感圖像、行為識(shí)別、視頻理解、圖像融合、圖像檢索、論文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。一定要備注研究方向地點(diǎn)學(xué)校/公司昵稱如Mamba、多模態(tài)學(xué)習(xí)或者論文投稿上海上交卡卡根據(jù)格式備注可更快被通過(guò)且邀請(qǐng)進(jìn)群▲掃碼或加微信號(hào): CVer2233進(jìn)交流群 CVer計(jì)算機(jī)視覺(jué)知識(shí)星球人數(shù)破萬(wàn)如果你想要了解最新最快最好的CV/DL/AI論文、實(shí)戰(zhàn)項(xiàng)目、行業(yè)前沿、從入門到精通學(xué)習(xí)教程等資料一定要掃描下方二維碼加入CVer知識(shí)星球最強(qiáng)助力你的科研和工作 ▲掃碼加入星球?qū)W習(xí)▲點(diǎn)擊上方卡片關(guān)注CVer公眾號(hào) 整理不易請(qǐng)點(diǎn)贊和在看

国产中文字幕在线视频,.com久久久,亚洲免费在线播放视频,神九影院电视剧免费观看,奇米在线888,天天网综合,久久免费视频观看

復(fù)旦學(xué)霸張立勇做的網(wǎng)站網(wǎng)站開(kāi)發(fā)有哪些

海外網(wǎng)站空間網(wǎng)絡(luò)營(yíng)銷的含義有哪些

手機(jī) 網(wǎng)站尺寸郴州市簡(jiǎn)介

免費(fèi)頁(yè)面網(wǎng)站制作綿陽(yáng)市公司網(wǎng)站建設(shè)

加強(qiáng)網(wǎng)站隊(duì)伍建設(shè)百度推廣的效果

網(wǎng)站設(shè)計(jì)流程及制作流程谷歌google搜索引擎入口

學(xué)生做義工網(wǎng)站nas怎么做自己的網(wǎng)站

国产中文字幕在线视频,.com久久久,亚洲免费在线播放视频,神九影院电视剧免费观看,奇米在线888,天天网综合,久久免费视频观看

復(fù)旦學(xué)霸張立勇做的網(wǎng)站網(wǎng)站開(kāi)發(fā)有哪些

海外網(wǎng)站空間網(wǎng)絡(luò)營(yíng)銷的含義有哪些

手機(jī) 網(wǎng)站 尺寸郴州市簡(jiǎn)介

免費(fèi)頁(yè)面網(wǎng)站制作綿陽(yáng)市公司網(wǎng)站建設(shè)

加強(qiáng)網(wǎng)站隊(duì)伍建設(shè)百度推廣的效果

網(wǎng)站設(shè)計(jì)流程及制作流程谷歌google搜索引擎入口

學(xué)生做義工網(wǎng)站nas怎么做自己的網(wǎng)站

手機(jī) 網(wǎng)站尺寸郴州市簡(jiǎn)介