首頁 > 新聞 > 每日熱點 / 正文

Sora文生視頻模型等視頻生成模型給視頻創作領域帶來了革命性

2024-03-28 每日熱點

Sora模型除了可以用文本生成視頻外，還可以獲取現有的靜態圖像并從中生成視頻，提高視頻的準確性和細節粒度，擴展或填充現有視頻的“缺失幀”。

盡管Sora文生視頻模型在視頻生成領域取得了顯著成效，但仍面臨著一些潛在的挑戰。首先，模型的生成結果可能受到文本提示詞質量的影響。如果提示設計不當或過于模糊，可能會導致視頻內容與預期產生較大偏差。其次，模型的生成速度可能較慢，需要較長的計算時間。此外，由于模型的訓練數據有限，可能會有一些偏見和局限性，導致視頻內容在某些方面不夠準確或多樣化。

現在，圖片生成文本或視頻生成文本已經有了一個相對成熟的內部應用模型。有了這個模型，視頻可以轉換成大量的文本數據，然后逆向訓練學者視頻。Sora團隊也使用了這些模型，這也反映在他們的技術報告中。

許多以前的工作已經研究了使用各種方法來生成視頻數據，包括循環網絡、生成對抗網絡、自回歸Transformer和擴散模型。這些工作通常集中在狹窄的視覺數據、短視頻或固定尺寸的視頻上。Sora是視覺數據的通用模型，它可以生成不同持續時間、縱橫比和分辨率的視頻和圖像，高清視頻可以達到一整分鐘。

許多以前的工作已經研究過使用各種方法來生成和建模視頻數據，包括循環網絡、生成對抗網絡、自回歸變壓器和擴散模型。這些作品通常關注小型視覺數據、短視頻或固定大小的視頻。Sora是視覺數據的通用模型，可以生成不同時長、長寬比和分辨率的視頻和圖像，最多可以達到一分鐘的高清視頻。

從訓練文本到視頻生成系統需要大量帶有相應文本字幕的視頻。我們將從DALLE3中引入的重新字幕技術應用到視頻中。首先，我們訓練一個高度描述性的字幕生成器模型，然后用它為訓練集中的所有視頻生成文本字幕。我們發現，訓練高度描述性的視頻字幕可以提高文本的保真度和視頻的整體質量。

視頻生成領域有許多技術挑戰。首先，一個好的視頻生成模型需要一個優秀的圖片生成模型，即多模態基本模型。作為基礎，這一步意味著視頻生成的門檻非常高。

在今年ChatGPT掀起的人工智能大模型熱潮中，基于語言大模型的聊天機器人成為最熱門的創業方向；在泛內容生成人工智能應用中，圖像生成是主要場景。與語言模型相比，人工智能生成視頻是一種完全不同的模型。人工智能生成視頻與人工智能生成圖片的模型有共同之處，但難度較大。從參與玩家的類型來看，大部分都是大型科技廠商，沒有文生圖模型這樣的現象。背后的原因是文生視頻門檻高。

此外，雖然Sora模型的介紹頁面提到視頻是通過文本生成的，但Sora還可以接受圖像或視頻等其他類型的輸入，以達到圖像生成視頻和視頻生成視頻的效果。這一特點使Sora能夠執行廣泛的圖像和視頻編輯任務，如制作完美循環的視頻、為靜態圖像添加動畫效果、向前或向后延伸視頻時間軸等。精品小說推薦：昔日落魄少年被逐出家族，福禍相依得神秘老者相助，從此人生路上一片青雲！我行我瀟灑，彰顯我性格！彆罵小爺拽，媳婦多了用車載！妹紙一聲好歐巴，轉手就是摸摸大！ “不要嘛！” 完整內容請點擊辣手仙醫

总2页首頁上一頁 12

上一篇：雅閣新能源的內飾設計簡潔大方
下一篇：CVT變速箱沒有檔位,所以沒有換擋過程,理論上不會有挫折感

首頁 > 新聞 > 每日熱點 / 正文

Sora文生視頻模型等視頻生成模型給視頻創作領域帶來了革命性

猜你喜歡