| عنوان مقاله به انگلیسی | Visual Agents as Fast and Slow Thinkers | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله عوامل بصری به عنوان متفکران سریع و کند | ||||||||
| نویسندگان | Guangyan Sun, Mingyu Jin, Zhenting Wang, Cheng-Long Wang, Siqi Ma, Qifan Wang, Ying Nian Wu, Yongfeng Zhang, Dongfang Liu | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 22 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,یادگیری ماشین , | ||||||||
| توضیحات | Submitted 6 September, 2024; v1 submitted 16 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | ارسال شده در 6 سپتامبر 2024 ؛V1 ارسال شده 16 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Achieving human-level intelligence requires refining cognitive distinctions between System 1 and System 2 thinking. While contemporary AI, driven by large language models, demonstrates human-like traits, it falls short of genuine cognition. Transitioning from structured benchmarks to real-world scenarios presents challenges for visual agents, often leading to inaccurate and overly confident responses. To address the challenge, we introduce FaST, which incorporates the Fast and Slow Thinking mechanism into visual agents. FaST employs a switch adapter to dynamically select between System 1/2 modes, tailoring the problem-solving approach to different task complexity. It tackles uncertain and unseen objects by adjusting model confidence and integrating new contextual data. With this novel design, we advocate a flexible system, hierarchical reasoning capabilities, and a transparent decision-making pipeline, all of which contribute to its ability to emulate human-like cognitive processes in visual intelligence. Empirical results demonstrate that FaST outperforms various well-known baselines, achieving 80.8% accuracy over VQA^{v2} for visual question answering and 48.7% GIoU score over ReasonSeg for reasoning segmentation, demonstrate FaST’s superior performance. Extensive testing validates the efficacy and robustness of FaST’s core components, showcasing its potential to advance the development of cognitive visual agents in AI systems. The code is available at ttps://github.com/GuangyanS/Sys2-LLaVA.
چکیده به فارسی (ترجمه ماشینی)
دستیابی به هوش سطح انسان نیاز به پالایش تمایزهای شناختی بین سیستم 1 و سیستم 2 دارد.در حالی که هوش مصنوعی معاصر ، که توسط مدلهای بزرگ زبان هدایت می شود ، صفات مانند انسان را نشان می دهد ، از شناخت واقعی کم می شود.انتقال از معیارهای ساختاری به سناریوهای دنیای واقعی چالش هایی را برای عوامل بصری ایجاد می کند ، که اغلب منجر به پاسخ های نادرست و بیش از حد با اعتماد به نفس می شود.برای پرداختن به چالش ، ما سریع معرفی می کنیم ، که مکانیسم تفکر سریع و آهسته را در عوامل بصری گنجانیده است.FAST از آداپتور سوئیچ استفاده می کند تا به صورت پویا بین حالت 1/2 سیستم انتخاب شود و رویکرد حل مسئله را به پیچیدگی کار مختلف متناسب کند.این امر با تنظیم اعتماد به نفس مدل و ادغام داده های جدید متنی ، اشیاء نامشخص و غیب را مقابله می کند.با این طراحی جدید ، ما از یک سیستم انعطاف پذیر ، قابلیت های استدلال سلسله مراتبی و یک خط لوله تصمیم گیری شفاف دفاع می کنیم که همه اینها به توانایی آن در تقلید فرآیندهای شناختی مانند انسان در هوش بصری کمک می کند.نتایج تجربی نشان می دهد که سریع تر از خطوط مختلف مشهور ، دستیابی به دقت 80.8 ٪ نسبت به VQA^{V2} برای پاسخ به سؤال بصری و 48.7 ٪ GIOU نمره GIOU نسبت به استدلال برای تقسیم بندی ، عملکرد برتر سریع را نشان می دهد.آزمایش گسترده اثربخشی و استحکام اجزای اصلی FAST را تأیید می کند و پتانسیل آن را برای پیشرفت عوامل بصری شناختی در سیستم های AI نشان می دهد.کد در ttps: //github.com/guangyans/sys2-llava در دسترس است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.