| عنوان مقاله به انگلیسی | Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله هر چیزی را دوباره اجرا کنید: انتقال حرکت ویدیویی معنایی با استفاده از وارونگی حرکت-متن |
| نویسندگان | Manuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 16 |
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Graphics,Machine Learning,چشم انداز رایانه و تشخیص الگوی , گرافیک , یادگیری ماشین , |
| توضیحات | Submitted 1 August, 2024; originally announced August 2024. , Comments: Preprint. All videos in this paper are best viewed as animations with Acrobat Reader by pressing the highlighted frame of each video , ACM Class: I.3.3; I.4 |
| توضیحات به فارسی | ارسال شده در 1 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: preprint.تمام فیلم های موجود در این مقاله با فشار دادن قاب برجسته هر ویدیو ، کلاس ACM: I.3.3 ؛i.4 |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 640,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Recent years have seen a tremendous improvement in the quality of video generation and editing approaches. While several techniques focus on editing appearance, few address motion. Current approaches using text, trajectories, or bounding boxes are limited to simple motions, so we specify motions with a single motion reference video instead. We further propose to use a pre-trained image-to-video model rather than a text-to-video model. This approach allows us to preserve the exact appearance and position of a target object or scene and helps disentangle appearance from motion. Our method, called motion-textual inversion, leverages our observation that image-to-video models extract appearance mainly from the (latent) image input, while the text/image embedding injected via cross-attention predominantly controls motion. We thus represent motion using text/image embedding tokens. By operating on an inflated motion-text embedding containing multiple text/image embedding tokens per frame, we achieve a high temporal motion granularity. Once optimized on the motion reference video, this embedding can be applied to various target images to generate videos with semantically similar motions. Our approach does not require spatial alignment between the motion reference video and target image, generalizes across various domains, and can be applied to various tasks such as full-body and face reenactment, as well as controlling the motion of inanimate objects and the camera. We empirically demonstrate the effectiveness of our method in the semantic video motion transfer task, significantly outperforming existing methods in this context.
چکیده به فارسی (ترجمه ماشینی)
سالهای اخیر شاهد پیشرفت چشمگیر در کیفیت تولید فیلم و رویکردهای ویرایش بوده است.در حالی که چندین تکنیک بر ویرایش ظاهر متمرکز است ، حرکت چند آدرس.رویکردهای فعلی با استفاده از متن ، مسیرها یا جعبه های محدود به حرکات ساده محدود می شوند ، بنابراین ما به جای آن حرکات را با یک فیلم مرجع حرکت واحد مشخص می کنیم.ما بیشتر پیشنهاد می کنیم به جای یک مدل متن به ویدئو ، از یک مدل تصویر به ویدیو از قبل آموزش داده شده استفاده کنیم.این رویکرد به ما امکان می دهد تا ظاهر و موقعیت دقیق یک هدف یا صحنه هدف را حفظ کنیم و به از بین بردن ظاهر از حرکت کمک می کند.روش ما ، به نام وارونگی متن حرکت ، از مشاهدات ما استفاده می کند که مدل های تصویر به ویدئو ظاهر را عمدتا از ورودی تصویر (نهان) استخراج می کنند ، در حالی که تعبیه متن/تصویر از طریق توجه متقابل عمدتاً کنترل حرکت را کنترل می کند.بنابراین ما حرکت را با استفاده از نشانه های جاسازی شده متن/تصویر نشان می دهیم.با کار کردن بر روی یک متن حرکتی تورم حاوی چندین نشانه تعبیه شده متن/تصویر در هر فریم ، به یک دانه حرکتی زمانی بالا می رسیم.پس از بهینه سازی در فیلم مرجع حرکتی ، این تعبیه می تواند برای تصاویر مختلف هدف برای تولید فیلم هایی با حرکات معنایی مشابه استفاده شود.رویکرد ما نیازی به تراز فضایی بین فیلم مرجع حرکت و تصویر هدف ندارد ، در حوزه های مختلف تعمیم می یابد و می تواند در کارهای مختلفی از قبیل بدن تمام بدن و صورت و همچنین کنترل حرکت اشیاء بی جان و دوربین اعمال شود.ما به صورت تجربی اثربخشی روش خود را در کار انتقال حرکت ویدیوی معنایی نشان می دهیم ، به طور قابل توجهی از روشهای موجود در این زمینه بهتر عمل می کنیم.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.