| عنوان مقاله به انگلیسی | An Efficient Continuous Control Perspective for Reinforcement-Learning-based Sequential Recommendation | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله یک دیدگاه کنترل مداوم کارآمد برای توصیه های متوالی مبتنی بر یادگیری تقویت | ||||||||
| نویسندگان | Jun Wang, Likang Wu, Qi Liu, Yu Yang | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 59 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Information Retrieval,یادگیری ماشین , بازیابی اطلاعات , | ||||||||
| توضیحات | Submitted 15 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | ارسال شده در 15 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Sequential recommendation, where user preference is dynamically inferred from sequential historical behaviors, is a critical task in recommender systems (RSs). To further optimize long-term user engagement, offline reinforcement-learning-based RSs have become a mainstream technique as they provide an additional advantage in avoiding global explorations that may harm online users’ experiences. However, previous studies mainly focus on discrete action and policy spaces, which might have difficulties in handling dramatically growing items efficiently. To mitigate this issue, in this paper, we aim to design an algorithmic framework applicable to continuous policies. To facilitate the control in the low-dimensional but dense user preference space, we propose an \underline{\textbf{E}}fficient \underline{\textbf{Co}}ntinuous \underline{\textbf{C}}ontrol framework (ECoC). Based on a statistically tested assumption, we first propose the novel unified action representation abstracted from normalized user and item spaces. Then, we develop the corresponding policy evaluation and policy improvement procedures. During this process, strategic exploration and directional control in terms of unified actions are carefully designed and crucial to final recommendation decisions. Moreover, beneficial from unified actions, the conservatism regularization for policies and value functions are combined and perfectly compatible with the continuous framework. The resulting dual regularization ensures the successful offline training of RL-based recommendation policies. Finally, we conduct extensive experiments to validate the effectiveness of our framework. The results show that compared to the discrete baselines, our ECoC is trained far more efficiently. Meanwhile, the final policies outperform baselines in both capturing the offline data and gaining long-term rewards.
چکیده به فارسی (ترجمه ماشینی)
توصیه متوالی ، در جایی که ترجیح کاربر به صورت پویا از رفتارهای تاریخی متوالی استنباط می شود ، یک کار مهم در سیستم های توصیه کننده (RSS) است.برای بهینه سازی بیشتر تعامل کاربر طولانی مدت ، RSS مبتنی بر یادگیری تقویت کننده آفلاین به یک تکنیک اصلی تبدیل شده است زیرا آنها یک مزیت اضافی در جلوگیری از اکتشافات جهانی که ممکن است به تجربیات کاربران آنلاین آسیب برساند ، ارائه می دهند.با این حال ، مطالعات قبلی عمدتاً بر روی فضاهای عمل گسسته و سیاسی متمرکز است ، که ممکن است در رسیدگی به موارد چشمگیر در حال رشد به طور مؤثر مشکل داشته باشد.برای کاهش این مسئله ، در این مقاله ، هدف ما طراحی یک چارچوب الگوریتمی قابل استفاده برای سیاست های مداوم است.برای تسهیل کنترل در فضای اولویت کاربر کم بعدی اما متراکم ، ما یک \ underline {\ textbf {e}} fffficient \ underline {\ textbf {co}} ntinuous \ underline {\ textBf {c}}}} چارچوب ontrol (چارچوب ontrol (()ECOC).بر اساس یک فرض آماری مورد آزمایش ، ابتدا نمایندگی عمل یکپارچه رمان را که از فضاهای کاربر و کالاهای عادی شده انتزاع شده است ، پیشنهاد می کنیم.سپس ، ما روشهای ارزیابی سیاست و بهبود سیاست را توسعه می دهیم.در طی این فرایند ، اکتشاف استراتژیک و کنترل جهت از نظر اقدامات یکپارچه با دقت طراحی شده و برای تصمیمات توصیه نهایی بسیار مهم است.علاوه بر این ، از اقدامات یکپارچه سودمند ، تنظیم محافظه کاری برای سیاست ها و توابع ارزش با چارچوب مداوم ترکیب و کاملاً سازگار است.تنظیم دوگانه حاصل ، آموزش آفلاین موفق سیاستهای توصیه RL مبتنی بر RL را تضمین می کند.سرانجام ، ما آزمایش های گسترده ای را برای تأیید اثربخشی چارچوب خود انجام می دهیم.نتایج نشان می دهد که در مقایسه با خطوط گسسته ، ECOC ما بسیار کارآمدتر آموزش دیده است.در همین حال ، سیاست های نهایی از خط مقدماتی در ضبط داده های آفلاین و به دست آوردن پاداش های بلند مدت بهتر است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.