ترجمه فارسی مقاله تخمین پاداش Listwise برای یادگیری تقویتی مبتنی بر ترجیحات آفلاین

Name: ترجمه فارسی مقاله تخمین پاداش Listwise برای یادگیری تقویتی مبتنی بر ترجیحات آفلاین
SKU: 66898
Availability: InStock

19,000 تومان – 840,000 تومان

نوع دانلود

پاک کردن

شناسه محصول: نامعلوم دسته: ترجمه, مقالات

عنوان مقاله به انگلیسی	Listwise Reward Estimation for Offline Preference-based Reinforcement Learning
عنوان مقاله به فارسی	ترجمه فارسی مقاله تخمین پاداش Listwise برای یادگیری تقویتی مبتنی بر ترجیحات آفلاین
نویسندگان	Heewoong Choi, Sangwon Jung, Hongjoon Ahn, Taesup Moon
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	21
دسته بندی موضوعات	Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی ,
توضیحات	Submitted 7 August, 2024; originally announced August 2024. , Comments: 21 pages, ICML 2024
توضیحات به فارسی	ارسال شده در 7 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 21 صفحه ، ICML 2024

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

سفارش ترجمه فارسی مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش می‌دهید.

قیمت: 840,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

In Reinforcement Learning (RL), designing precise reward functions remains to be a challenge, particularly when aligning with human intent. Preference-based RL (PbRL) was introduced to address this problem by learning reward models from human feedback. However, existing PbRL methods have limitations as they often overlook the second-order preference that indicates the relative strength of preference. In this paper, we propose Listwise Reward Estimation (LiRE), a novel approach for offline PbRL that leverages second-order preference information by constructing a Ranked List of Trajectories (RLT), which can be efficiently built by using the same ternary feedback type as traditional methods. To validate the effectiveness of LiRE, we propose a new offline PbRL dataset that objectively reflects the effect of the estimated rewards. Our extensive experiments on the dataset demonstrate the superiority of LiRE, i.e., outperforming state-of-the-art baselines even with modest feedback budgets and enjoying robustness with respect to the number of feedbacks and feedback noise. Our code is available at https://github.com/chwoong/LiRE

چکیده به فارسی (ترجمه ماشینی)

در یادگیری تقویت (RL) ، طراحی توابع پاداش دقیق همچنان یک چالش است ، به ویژه هنگام هماهنگی با هدف انسان.RL مبتنی بر ترجیح (PBRL) برای رفع این مشکل با یادگیری مدل های پاداش از بازخورد انسانی معرفی شد.با این حال ، روشهای PBRL موجود محدودیت هایی دارند زیرا اغلب از اولویت مرتبه دوم غافل می شوند که نشان دهنده قدرت نسبی اولویت است.در این مقاله ، ما تخمین پاداش لیست (LIRE) را پیشنهاد می کنیم ، یک رویکرد جدید برای PBRL آفلاین که با ساختن یک لیست رتبه بندی شده از مسیرها (RLT) ، اطلاعات ترجیح مرتبه دوم را افزایش می دهد ، که می تواند با استفاده از همان نوع بازخورد سه گانه ساخته شود.روشهای سنتیبرای اعتبارسنجی اثربخشی LIRE ، ما یک مجموعه داده PBRL جدید آفلاین را پیشنهاد می کنیم که به طور عینی منعکس کننده تأثیر پاداش های تخمین زده شده است.آزمایش های گسترده ما در مورد مجموعه داده ها ، برتری لیر را نشان می دهد ، یعنی از خط مقدماتی پیشرفته حتی با بودجه بازخورد متوسط و لذت بردن از استحکام با توجه به تعداد بازخورد و سر و صدای بازخورد.کد ما در https://github.com/chwoong/lire در دسترس است

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نوع دانلود	دانلود مقاله اصل انگلیسی, سفارش ترجمه فارسی مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله تخمین پاداش Listwise برای یادگیری تقویتی مبتنی بر ترجیحات آفلاین”

ترجمه فارسی مقاله تخمین پاداش Listwise برای یادگیری تقویتی مبتنی بر ترجیحات آفلاین

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

سفارش ترجمه فارسی مقاله

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

ترجمه فارسی مقاله تقویت شناخت اقدامات انسانی و تشخیص خشونت از طریق یادگیری عمیق شنوایی و بصری

ترجمه فارسی مقاله آیا می توانیم برای تهیه برنامه های افکار طولانی به عوامل LLM اعتماد کنیم؟بیایید به عنوان نمونه Travelplanner را بگیریم

کتاب ترجمه تجربی: کار ترجمه در عصر تولید الگوریتمی (تمرین به عنوان تحقیق)

ترجمه فارسی مقاله یافتن الگوها در ابهام: آزمون استرس تفسیرپذیر در مرز تصمیم‌گیری