#wanxai
تخيل ذلك ، قم بإنشائه
#WAN هو نموذج توليد بصري متقدم وقوي تم تطويره بواسطة Tongyi Lab of Alibaba Group. يمكنه إنشاء مقاطع فيديو بناءً على النصوص والصور وإشارات التحكم الأخرى. نماذج سلسلة WAN2.1 أصبحت الآن مفتوحة بالكامل.
حركات معقدة
يتفوق على توليد مقاطع فيديو واقعية تتميز بحركات واسعة من الجسم ، وتناوبات معقدة ، وانتقالات المشهد الديناميكي ، وحركات الكاميرا السائلة.
المحاكاة الجسدية
يولد مقاطع فيديو تقوم بدقة محاكاة الفيزياء في العالم الحقيقي وتفاعلات الكائنات الواقعية.
الجودة السينمائية
يقدم صورًا تشبه الأفلام ذات القوام الغنية ومجموعة متنوعة من التأثيرات المنمسة.
تحرير يمكن التحكم فيه
يتميز بنموذج تحرير عالمي للتحرير الدقيق باستخدام مراجع الصورة أو الفيديو.
توليد النصوص المرئية
يقوم بإنشاء نصوص وتأثيرات نصوص ديناميكية في الفيديوهات مباشرةً من خلال أوامر نصية.
المؤثرات الصوتية والموسيقى
يقوم بتوليد مؤثرات صوتية وموسيقى خلفية تتماشى بشكل مثالي مع المحتوى المرئي والإيقاع.
ميزات المنتج
من خلال منتجنا، يمكنك الاستفادة بسلاسة من نماذجنا بتجربة مستخدم سهلة للوصول إلى محتوى فيديو ملهم.
مفتوح_المصدر#
في هذا المستودع، نطلق الكود والأوزان لـ **Wan2.1**، وهي مجموعة شاملة ومفتوحة المصدر من نماذج الفيديو الأساسية المصممة لدفع حدود توليد الفيديو. يتميز Wan2.1 بالعديد من الميزات الرئيسية التالية:
👍 **أداء متميز (SOTA):**
Wan2.1 يتفوق باستمرار على النماذج مفتوحة المصدر الحالية والحلول التجارية الرائدة عبر معايير متعددة.
🚀 **يدعم بطاقات الرسوميات الاستهلاكية:**
نموذج T2V-1.3B يتطلب فقط 8.19 جيجابايت من ذاكرة الفيديو (VRAM)، مما يجعله متوافقًا مع几乎所有 بطاقات الرسوميات الاستهلاكية. يمكنه توليد فيديو مدته 5 ثوانٍ بدقة 480P على بطاقة RTX 4090 في حوالي 4 دقائق (بدون استخدام تقنيات تحسين مثل التكميم). أداؤه يمكن مقارنته ببعض النماذج المغلقة المصدر.
🎉 **مهام متعددة:**
Wan2.1 يتفوق في مهام تحويل النص إلى فيديو (Text-to-Video)، تحويل الصورة إلى فيديو (Image-to-Video)، تحرير الفيديو (Video Editing)، تحويل النص إلى صورة (Text-to-Image)، وتحويل الفيديو إلى صوت (Video-to-Audio)، مما يدفع مجال توليد الفيديو إلى الأمام.
🔮 **توليد النصوص المرئية:**
Wan2.1 هو أول نموذج فيديو قادر على توليد نصوص باللغتين الصينية والإنجليزية، ويتميز بقدرات قوية في توليد النصوص مما يعزز تطبيقاته العملية.
💪 **فيديو VAE قوي:**
Wan-VAE يقدم كفاءة وأداء استثنائيين، حيث يقوم بترميز وفك ترميز فيديوهات بدقة 1080P بأي طول مع الحفاظ على المعلومات الزمنية، مما يجعله أساسًا مثاليًا لتوليد الفيديو والصورة.
Imagine It, Create It
Wan is an advanced and powerful visual generation model developed by Tongyi Lab of Alibaba Group. It can generate videos based on text, images, and other control signals. The Wan2.1 series models are now fully open-source.
Complex Motions
Excels at generating realistic videos featuring extensive body movements, complex rotations, dynamic scene transitions, and fluid camera motions.
Physical Simulation
Generates videos that accurately simulate real-world physics and realistic object interactions.
Cinematic Quality
Offers movie-like visuals with rich textures and a variety of stylized effects.
Controllable Editing
Features a universal editing model for precise edits using image or video references.
Visual Text Generation
Creates text and dynamic text effects in videos directly from text prompts.
Sound Effects & Music
Generates sound effects and background music that perfectly align with visual content and rhythm.
Product Features
Through our product, you can seamlessly leverage our models with a user-friendly experience to access inspiring video content.
#Open_Source
In this repo, we release the code and weights for the Wan2.1, a comprehensive and open suite of video foundation models designed to push the boundaries of video generation. Wan2.1 is characterized by following several key features:
👍 SOTA Performance: Wan2.1 consistently outperforms existing open-source models and state-of-the-art commercial solutions across multiple benchmarks.
🚀 Supports Consumer-grade GPUs: The T2V-1.3B model requires only 8.19 GB VRAM, making it compatible with almost all consumer-grade GPUs. It can generate a 5-second 480P video on an RTX 4090 in about 4 minutes (without optimization techniques like quantization). Its performance is even comparable to some closed-source models.
🎉 Multiple tasks: Wan2.1 excels in Text-to-Video, Image-to-Video, Video Editing, Text-to-Image, and Video-to-Audio, advancing the field of video generation.
🔮 Visual Text Generation: Wan2.1 is the first video model capable of generating both Chinese and English text, featuring robust text generation that enhances its practical applications.
💪 Powerful Video VAE: Wan-VAE delivers exceptional efficiency and performance, encoding and decoding 1080P videos of any length while preserving temporal information, making it an ideal foundation for video and image generation.
#gnutux #AI
https://wanxai.com/
https://github.com/Wan-Video