“مقاله همجوشی استریو چند طیفی برای بازسازی صحنه 3D hyperspectral” به سبد خرید شما اضافه شد. ادامه خرید

“مقاله فراتر از محیط های کنترل شده ارزیابی قابلیت انتقال مدل های ASROBUST NLU به کاربردهای دنیای واقعی” به سبد خرید شما اضافه شد. ادامه خرید

“مقاله طبقه بندی رادیوژیکی تومور مغزی” به سبد خرید شما اضافه شد. ادامه خرید

“مقاله پیچیدگی توزیع طیفی امواج فیبریلاسیون سطح ، عود فرسایش پس از کاتتر را در فیبریلاسیون دهلیزی مداوم پیش بینی می کند” به سبد خرید شما اضافه شد. ادامه خرید

ترجمه, مقالات

ترجمه فارسی مقاله RVI-SAC: میانگین پاداش خارج از سیاست یادگیری تقویتی عمیق

Name: ترجمه فارسی مقاله RVI-SAC: میانگین پاداش خارج از سیاست یادگیری تقویتی عمیق
SKU: 93500
Availability: InStock

19,000 تومان – 880,000 تومان

نوع دانلود

پاک کردن

شناسه محصول: نامعلوم دسته: ترجمه, مقالات

عنوان مقاله به انگلیسی	RVI-SAC: Average Reward Off-Policy Deep Reinforcement Learning
عنوان مقاله به فارسی	ترجمه فارسی مقاله RVI-SAC: میانگین پاداش خارج از سیاست یادگیری تقویتی عمیق
نویسندگان	Yukinari Hisaki, Isao Ono
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	22
دسته بندی موضوعات	Machine Learning,یادگیری ماشین ,
توضیحات	Submitted 4 August, 2024; originally announced August 2024. , Comments: Accepted at ICML 2024; Code: https://github.com/yhisaki/average-reward-drl , MSC Class: 68T05 ACM Class: I.2.6
توضیحات به فارسی	ارسال شده در 4 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: در ICML 2024 پذیرفته شده است.کد: https://github.com/yhisaki/averse-reward-drl ، MSC کلاس: 68T05 کلاس ACM: I.2.6

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحه‌ای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.

قیمت: 99,000 تومان

سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحه‌ای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.

قیمت: 880,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

In this paper, we propose an off-policy deep reinforcement learning (DRL) method utilizing the average reward criterion. While most existing DRL methods employ the discounted reward criterion, this can potentially lead to a discrepancy between the training objective and performance metrics in continuing tasks, making the average reward criterion a recommended alternative. We introduce RVI-SAC, an extension of the state-of-the-art off-policy DRL method, Soft Actor-Critic (SAC), to the average reward criterion. Our proposal consists of (1) Critic updates based on RVI Q-learning, (2) Actor updates introduced by the average reward soft policy improvement theorem, and (3) automatic adjustment of Reset Cost enabling the average reward reinforcement learning to be applied to tasks with termination. We apply our method to the Gymnasium’s Mujoco tasks, a subset of locomotion tasks, and demonstrate that RVI-SAC shows competitive performance compared to existing methods.

چکیده به فارسی (ترجمه ماشینی)

در این مقاله ، ما یک روش یادگیری تقویت کننده عمیق (DRL) خارج از سیاست را با استفاده از معیار پاداش متوسط پیشنهاد می کنیم.در حالی که بیشتر روشهای DRL موجود از معیار پاداش تخفیف استفاده می کنند ، این به طور بالقوه می تواند منجر به اختلاف بین هدف آموزش و معیارهای عملکرد در ادامه کار شود ، و این معیار متوسط پاداش را به یک جایگزین توصیه شده تبدیل می کند.ما RVI-SAC را ، گسترش روش پیشرفته DRL خارج از سیاست ، بازیگر نرم-انتقادی (SAC) ، به میانگین معیار پاداش معرفی می کنیم.پیشنهاد ما شامل (1) به روزرسانی های منتقد مبتنی بر یادگیری RVI Q ، (2) به روزرسانی های بازیگر معرفی شده توسط میانگین قضیه بهبود سیاست نرم پاداش ، و (3) تنظیم خودکار هزینه تنظیم مجدد می تواند میانگین یادگیری تقویت پاداش را برای اعمال استفاده کندوظایف با خاتمه.ما روش خود را در وظایف Mujoco Gymnasium ، زیر مجموعه ای از کارهای حرکتی اعمال می کنیم و نشان می دهیم که RVI-SAC عملکرد رقابتی را در مقایسه با روش های موجود نشان می دهد.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نوع دانلود	دانلود مقاله اصل انگلیسی, دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله, سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله RVI-SAC: میانگین پاداش خارج از سیاست یادگیری تقویتی عمیق”

ترجمه فارسی مقاله RVI-SAC: میانگین پاداش خارج از سیاست یادگیری تقویتی عمیق

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

ترجمه فارسی مقاله طراحی معکوس متامتریال‌ها با پاسخ‌های تابعی غیرخطی قابل برنامه‌ریزی در فضای گراف

ترجمه فارسی مقاله تولید گفتگوی مصنوعی بیمار-پزشک از یادداشت‌های بالینی با استفاده از LLM

ترجمه فارسی مقاله استنباط روش لحظه برای GLMS و عملکردهای دو برابر قوی تحت مجانبی متناسب

ترجمه فارسی مقاله بهبود تنوع ساختاری LLM های Blackbox از طریق زنجیره ای از مشخصات فوری