ترجمه فارسی مقاله OmniParser برای عامل رابط کاربری گرافیکی مبتنی بر Pure Vision

19,000 تومان – 560,000 تومان

نوع دانلود

شناسه محصول: نامعلوم دسته: ترجمه, مقالات

عنوان مقاله به انگلیسی	OmniParser for Pure Vision Based GUI Agent
عنوان مقاله به فارسی	ترجمه فارسی مقاله OmniParser برای عامل رابط کاربری گرافیکی مبتنی بر Pure Vision
نویسندگان	Yadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	14
دسته بندی موضوعات	Computer Vision and Pattern Recognition,Artificial Intelligence,Computation and Language,Machine Learning,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , محاسبات و زبان , یادگیری ماشین ,
توضیحات	Submitted 31 July, 2024; originally announced August 2024.
توضیحات به فارسی	ارسال 31 ژوئیه 2024 ؛در ابتدا اوت 2024 اعلام شد.

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحه‌ای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.

قیمت: 99,000 تومان

سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحه‌ای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.

قیمت: 560,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

The recent success of large vision language models shows great potential in driving the agent system operating on user interfaces. However, we argue that the power multimodal models like GPT-4V as a general agent on multiple operating systems across different applications is largely underestimated due to the lack of a robust screen parsing technique capable of: 1) reliably identifying interactable icons within the user interface, and 2) understanding the semantics of various elements in a screenshot and accurately associate the intended action with the corresponding region on the screen. To fill these gaps, we introduce textsc{OmniParser}, a comprehensive method for parsing user interface screenshots into structured elements, which significantly enhances the ability of GPT-4V to generate actions that can be accurately grounded in the corresponding regions of the interface. We first curated an interactable icon detection dataset using popular webpages and an icon description dataset. These datasets were utilized to fine-tune specialized models: a detection model to parse interactable regions on the screen and a caption model to extract the functional semantics of the detected elements. textsc{OmniParser} significantly improves GPT-4V’s performance on ScreenSpot benchmark. And on Mind2Web and AITW benchmark, textsc{OmniParser} with screenshot only input outperforms the GPT-4V baselines requiring additional information outside of screenshot.

چکیده به فارسی (ترجمه ماشینی)

موفقیت اخیر مدل های بزرگ زبان بینایی ، پتانسیل بسیار خوبی را در رانندگی سیستم عامل در رابط های کاربر نشان می دهد.با این حال ، ما استدلال می کنیم که مدل های چند حالته قدرت مانند GPT-4V به عنوان یک عامل عمومی در سیستم عامل های مختلف در برنامه های مختلف به دلیل عدم وجود یک تکنیک تجزیه صفحه نمایش قوی که قادر به: 1) با اطمینان از آیکون های قابل تعامل در رابط کاربری کاربر است ، دست کم گرفته می شود.و 2) درک معنایی عناصر مختلف در یک تصویر و ارتباط دقیق عمل مورد نظر را با منطقه مربوطه روی صفحه مرتبط می کند.برای پر کردن این شکاف ها ، ما textsc {Omniparser} را معرفی می کنیم ، یک روش جامع برای تجزیه تصاویر رابط کاربری به عناصر ساختاری ، که به طور قابل توجهی توانایی GPT-4V را در تولید اقداماتی که می توانند به طور دقیق در مناطق مربوط به رابط ایجاد شوند ، افزایش می دهد.ما ابتدا با استفاده از صفحات وب محبوب و یک مجموعه داده توضیحات نماد ، یک مجموعه داده تشخیص آیکون قابل تعامل را کنترل کردیم.این مجموعه داده ها برای تنظیم دقیق مدل های تخصصی مورد استفاده قرار گرفتند: یک مدل تشخیص برای تجزیه مناطق قابل تعامل روی صفحه و یک مدل زیرنویس برای استخراج معانی عملکردی عناصر شناسایی شده. textsc {Omniparser} عملکرد GPT-4V را به طور قابل توجهی در معیار صفحه نمایش بهبود می بخشد.و در معیار MIND2WEB و AITW ، TextSc {Omniparser} با ورود به تصویر فقط ورودی از خطوط GPT-4V است که نیاز به اطلاعات اضافی در خارج از تصویر دارد.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نوع دانلود	دانلود مقاله اصل انگلیسی, دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله, سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله OmniParser برای عامل رابط کاربری گرافیکی مبتنی بر Pure Vision”

ترجمه فارسی مقاله OmniParser برای عامل رابط کاربری گرافیکی مبتنی بر Pure Vision

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

کتاب تاریخ آسیای میانه، مجموعه 4 جلد

ترجمه فارسی مقاله یادگیری: یک زیان اینوکس برای بهینه‌سازی آنلاین قوی بی‌توجه به داده‌های پرت

ترجمه فارسی مقاله DUNE: یک رویکرد گروهی مبتنی بر یادگیری عمیق ماشینی UNet++ برای پیش‌بینی ماهانه، فصلی و سالانه آب و هوا

ترجمه فارسی مقاله توصیف کننده های مبتنی بر نمودار برای ماده چگالش