| عنوان مقاله به انگلیسی | OmniParser for Pure Vision Based GUI Agent |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله OmniParser برای عامل رابط کاربری گرافیکی مبتنی بر Pure Vision |
| نویسندگان | Yadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 14 |
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Artificial Intelligence,Computation and Language,Machine Learning,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , محاسبات و زبان , یادگیری ماشین , |
| توضیحات | Submitted 31 July, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال 31 ژوئیه 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 560,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
The recent success of large vision language models shows great potential in driving the agent system operating on user interfaces. However, we argue that the power multimodal models like GPT-4V as a general agent on multiple operating systems across different applications is largely underestimated due to the lack of a robust screen parsing technique capable of: 1) reliably identifying interactable icons within the user interface, and 2) understanding the semantics of various elements in a screenshot and accurately associate the intended action with the corresponding region on the screen. To fill these gaps, we introduce textsc{OmniParser}, a comprehensive method for parsing user interface screenshots into structured elements, which significantly enhances the ability of GPT-4V to generate actions that can be accurately grounded in the corresponding regions of the interface. We first curated an interactable icon detection dataset using popular webpages and an icon description dataset. These datasets were utilized to fine-tune specialized models: a detection model to parse interactable regions on the screen and a caption model to extract the functional semantics of the detected elements. textsc{OmniParser} significantly improves GPT-4V’s performance on ScreenSpot benchmark. And on Mind2Web and AITW benchmark, textsc{OmniParser} with screenshot only input outperforms the GPT-4V baselines requiring additional information outside of screenshot.
چکیده به فارسی (ترجمه ماشینی)
موفقیت اخیر مدل های بزرگ زبان بینایی ، پتانسیل بسیار خوبی را در رانندگی سیستم عامل در رابط های کاربر نشان می دهد.با این حال ، ما استدلال می کنیم که مدل های چند حالته قدرت مانند GPT-4V به عنوان یک عامل عمومی در سیستم عامل های مختلف در برنامه های مختلف به دلیل عدم وجود یک تکنیک تجزیه صفحه نمایش قوی که قادر به: 1) با اطمینان از آیکون های قابل تعامل در رابط کاربری کاربر است ، دست کم گرفته می شود.و 2) درک معنایی عناصر مختلف در یک تصویر و ارتباط دقیق عمل مورد نظر را با منطقه مربوطه روی صفحه مرتبط می کند.برای پر کردن این شکاف ها ، ما textsc {Omniparser} را معرفی می کنیم ، یک روش جامع برای تجزیه تصاویر رابط کاربری به عناصر ساختاری ، که به طور قابل توجهی توانایی GPT-4V را در تولید اقداماتی که می توانند به طور دقیق در مناطق مربوط به رابط ایجاد شوند ، افزایش می دهد.ما ابتدا با استفاده از صفحات وب محبوب و یک مجموعه داده توضیحات نماد ، یک مجموعه داده تشخیص آیکون قابل تعامل را کنترل کردیم.این مجموعه داده ها برای تنظیم دقیق مدل های تخصصی مورد استفاده قرار گرفتند: یک مدل تشخیص برای تجزیه مناطق قابل تعامل روی صفحه و یک مدل زیرنویس برای استخراج معانی عملکردی عناصر شناسایی شده. textsc {Omniparser} عملکرد GPT-4V را به طور قابل توجهی در معیار صفحه نمایش بهبود می بخشد.و در معیار MIND2WEB و AITW ، TextSc {Omniparser} با ورود به تصویر فقط ورودی از خطوط GPT-4V است که نیاز به اطلاعات اضافی در خارج از تصویر دارد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.