ترجمه فارسی مقاله عامل Q: استدلال و یادگیری پیشرفته برای عوامل هوش مصنوعی مستقل

880,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents
عنوان مقاله به فارسی	ترجمه فارسی مقاله عامل Q: استدلال و یادگیری پیشرفته برای عوامل هوش مصنوعی مستقل
نویسندگان	Pranav Putta, Edmund Mills, Naman Garg, Sumeet Motwani, Chelsea Finn, Divyansh Garg, Rafael Rafailov
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	22
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Artificial Intelligence,Machine Learning,هوش مصنوعی , یادگیری ماشین ,
توضیحات	Submitted 13 August, 2024; originally announced August 2024.
توضیحات به فارسی	ارسال شده در 13 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Large Language Models (LLMs) have shown remarkable capabilities in natural language tasks requiring complex reasoning, yet their application in agentic, multi-step reasoning within interactive environments remains a difficult challenge. Traditional supervised pre-training on static datasets falls short in enabling autonomous agent capabilities needed to perform complex decision-making in dynamic settings like web navigation. Previous attempts to bridge this ga-through supervised fine-tuning on curated expert demonstrations-often suffer from compounding errors and limited exploration data, resulting in sub-optimal policy outcomes. To overcome these challenges, we propose a framework that combines guided Monte Carlo Tree Search (MCTS) search with a self-critique mechanism and iterative fine-tuning on agent interactions using an off-policy variant of the Direct Preference Optimization (DPO) algorithm. Our method allows LLM agents to learn effectively from both successful and unsuccessful trajectories, thereby improving their generalization in complex, multi-step reasoning tasks. We validate our approach in the WebShop environment-a simulated e-commerce platform where it consistently outperforms behavior cloning and reinforced fine-tuning baseline, and beats average human performance when equipped with the capability to do online search. In real-world booking scenarios, our methodology boosts Llama-3 70B model’s zero-shot performance from 18.6% to 81.7% success rate (a 340% relative increase) after a single day of data collection and further to 95.4% with online search. We believe this represents a substantial leap forward in the capabilities of autonomous agents, paving the way for more sophisticated and reliable decision-making in real-world settings.

چکیده به فارسی (ترجمه ماشینی)

مدل های بزرگ زبان (LLMS) در کارهای طبیعی زبان که نیاز به استدلال پیچیده دارند ، توانایی های قابل توجهی را نشان داده اند ، اما کاربرد آنها در استدلال عامل و چند مرحله ای در محیط های تعاملی یک چالش دشوار است.پیش از نظارت سنتی در مجموعه داده های استاتیک در فعال کردن قابلیت های عامل خودمختار مورد نیاز برای انجام تصمیم گیری پیچیده در تنظیمات پویا مانند ناوبری وب کوتاه است.تلاش های قبلی برای برطرف کردن این تنظیم دقیق بر روی تظاهرات متخصص سرپرستی-که غالباً از خطاهای ترکیب و داده های اکتشافی محدود رنج می برند ، منجر به نتایج سیاست های زیر بهینه می شود.برای غلبه بر این چالش ها ، ما یک چارچوب را پیشنهاد می کنیم که ترکیبی از جستجوی مونت کارلو Search Tree (MCTS) با یک مکانیسم خود نقد و تنظیم دقیق تکراری بر روی تعامل عامل با استفاده از یک نوع خارج از سیاست از الگوریتم مستقیم بهینه سازی اولویت (DPO).روش ما به عوامل LLM اجازه می دهد تا از هر دو مسیر موفق و ناموفق به طور مؤثر یاد بگیرند ، در نتیجه تعمیم آنها را در کارهای استدلال پیچیده و چند مرحله ای بهبود بخشند.ما رویکرد خود را در محیط Webshop Anvironment-A را تأیید می کنیم که پلت فرم تجارت الکترونیکی شبیه سازی شده است که در آن به طور مداوم از کلون سازی رفتار و پایه تنظیم دقیق بهتر عمل می کند ، و عملکرد انسان را در صورت مجهز بودن به قابلیت انجام جستجوی آنلاین می کند.در سناریوهای رزرو در دنیای واقعی ، روش ما عملکرد صفر مدل Llama-3 70B را از 18.6 ٪ به 81.7 ٪ میزان موفقیت (افزایش نسبی 340 ٪) پس از یک روز جمع آوری داده ها و بیشتر با جستجوی آنلاین افزایش می دهد.ما معتقدیم که این یک جهش قابل توجه در قابلیت های عوامل خودمختار است و راه را برای تصمیم گیری پیشرفته تر و قابل اعتماد تر در تنظیمات دنیای واقعی هموار می کند.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله عامل Q: استدلال و یادگیری پیشرفته برای عوامل هوش مصنوعی مستقل”

ترجمه فارسی مقاله عامل Q: استدلال و یادگیری پیشرفته برای عوامل هوش مصنوعی مستقل

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله کالیبراسیون جبران مغناطیسی هوای مغناطیسی در سیستم های ناوبری مغناطیسی با استفاده از شبکه های زمان ثابت مایع

مقاله محافظت از آثار هنری در برابر انتقال سبک عصبی با استفاده از حمله رنگی خصمانه تطابق پذیر

مقاله مدل‌سازی عدم قطعیت در تقسیم‌بندی تصویر اولتراسوند برای اندازه‌گیری‌های بیومتریک دقیق جنین

مقاله BreastRegNet: یک چارچوب یادگیری عمیق برای ثبت نام فاکسیترون پستان و تصاویر هیستوپاتولوژی