ترجمه فارسی مقاله ارزیابی قابلیت های شات صفر LLMS برای ارزیابی اقدام در RL

600,000 تومان

عنوان مقاله به انگلیسی Assessing the Zero-Shot Capabilities of LLMs for Action Evaluation in RL
عنوان مقاله به فارسی ترجمه فارسی مقاله ارزیابی قابلیت های شات صفر LLMS برای ارزیابی اقدام در RL
نویسندگان Eduardo Pignatelli, Johan Ferret, Tim Rockäschel, Edward Grefenstette, Davide Paglieri, Samuel Coward, Laura Toni
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 30
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی ,
توضیحات Submitted 19 September, 2024; originally announced September 2024. , Comments: 9 pages
توضیحات به فارسی ارسال شده در 19 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد ، نظرات: 9 صفحه
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

The temporal credit assignment problem is a central challenge in Reinforcement Learning (RL), concerned with attributing the appropriate influence to each actions in a trajectory for their ability to achieve a goal. However, when feedback is delayed and sparse, the learning signal is poor, and action evaluation becomes harder. Canonical solutions, such as reward shaping and options, require extensive domain knowledge and manual intervention, limiting their scalability and applicability. In this work, we lay the foundations for Credit Assignment with Language Models (CALM), a novel approach that leverages Large Language Models (LLMs) to automate credit assignment via reward shaping and options discovery. CALM uses LLMs to decompose a task into elementary subgoals and assess the achievement of these subgoals in state-action transitions. Every time an option terminates, a subgoal is achieved, and CALM provides an auxiliary reward. This additional reward signal can enhance the learning process when the task reward is sparse and delayed without the need for human-designed rewards. We provide a preliminary evaluation of CALM using a dataset of human-annotated demonstrations from MiniHack, suggesting that LLMs can be effective in assigning credit in zero-shot settings, without examples or LLM fine-tuning. Our preliminary results indicate that the knowledge of LLMs is a promising prior for credit assignment in RL, facilitating the transfer of human knowledge into value functions.

چکیده به فارسی (ترجمه ماشینی)

مشکل واگذاری اعتبار زمانی یک چالش اساسی در یادگیری تقویت (RL) است که مربوط به نسبت دادن تأثیر مناسب به هر یک از اقدامات در یک مسیر برای توانایی آنها در دستیابی به یک هدف است.با این حال ، هنگامی که بازخورد به تأخیر می افتد و پراکنده می شود ، سیگنال یادگیری ضعیف است و ارزیابی عمل سخت تر می شود.راه حل های متعارف ، مانند شکل دهی پاداش و گزینه ها ، به دانش دامنه گسترده و مداخله دستی نیاز دارند و باعث محدودیت مقیاس پذیری و کاربرد آنها می شوند.در این کار ، ما پایه و اساس تکالیف اعتباری را با مدل های زبان (آرام) قرار می دهیم ، یک رویکرد جدید که از مدل های بزرگ زبان (LLM) استفاده می کند تا از طریق شکل دهی پاداش و کشف گزینه ها ، تکالیف اعتباری را خودکار کند.CALM از LLMS برای تجزیه یک کار در زیرزمین های ابتدایی و ارزیابی دستاورد این زیرگروه ها در انتقال دولت استفاده می کند.هر بار که یک گزینه خاتمه یابد ، یک زیرزمین حاصل می شود و آرامش پاداش کمکی را می دهد.این سیگنال پاداش اضافی می تواند فرایند یادگیری را افزایش دهد وقتی پاداش کار پراکنده و بدون نیاز به پاداش های طراحی شده انسان به تأخیر می افتد.ما یک ارزیابی اولیه از آرامش را با استفاده از مجموعه داده های تظاهرات با حاشیه نویسی انسانی از MiniHack ارائه می دهیم ، نشان می دهد که LLM ها می توانند در تعیین اعتبار در تنظیمات صفر ، بدون نمونه یا تنظیم دقیق LLM مؤثر باشند.نتایج اولیه ما نشان می دهد که دانش LLMS امیدوار کننده ای برای اختصاص اعتبار در RL است و انتقال دانش انسان به توابع ارزش را تسهیل می کند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله ارزیابی قابلیت های شات صفر LLMS برای ارزیابی اقدام در RL”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا