| عنوان مقاله به انگلیسی | Cooperative Multi-Agent Deep Reinforcement Learning in Content Ranking Optimization |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله یادگیری تقویتی عمیق چندعاملی مشارکتی در بهینهسازی رتبهبندی محتوا |
| نویسندگان | Zhou Qin, Kai Yuan, Pratik Lahiri, Wenyang Liu |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 14 |
| دسته بندی موضوعات | Machine Learning,یادگیری ماشین , |
| توضیحات | Submitted 8 August, 2024; originally announced August 2024. , Comments: 14 pages , MSC Class: 68T07 |
| توضیحات به فارسی | ارسال شده در 8 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 14 صفحه ، کلاس MSC: 68T07 |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 560,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
In a typical e-commerce setting, Content Ranking Optimization (CRO) mechanisms are employed to surface content on the search page to fulfill customers’ shopping missions. CRO commonly utilizes models such as contextual deep bandits model to independently rank content at different positions, e.g., one optimizer dedicated to organic search results and another to sponsored results. However, this regional optimization approach does not necessarily translate to whole page optimization, e.g., maximizing revenue at the top of the page may inadvertently diminish the revenue of lower positions. In this paper, we propose a reinforcement learning based method for whole page ranking to jointly optimize across all positions by: 1) shifting from position level optimization to whole page level optimization to achieve an overall optimized ranking; 2) applying reinforcement learning to optimize for the cumulative rewards instead of the instant reward. We formulate page level CRO as a cooperative Multi-agent Markov Decision Process , and address it with the novel Multi-Agent Deep Deterministic Policy Gradient (MADDPG) model. MADDPG supports a flexible and scalable joint optimization framework by adopting a “centralized training and decentralized execution” approach. Extensive experiments demonstrate that MADDPG scales to a 2.5 billion action space in the public Mujoco environment, and outperforms the deep bandits modeling by 25.7% on the offline CRO data set from a leading e-commerce company. We foresee that this novel multi-agent optimization is applicable to similar joint optimization problems in the field of information retrieval.
چکیده به فارسی (ترجمه ماشینی)
در یک تنظیم معمولی تجارت الکترونیکی ، مکانیسم های بهینه سازی رتبه بندی محتوا (CRO) برای انجام مأموریت های خرید مشتریان برای محتوای سطح در صفحه جستجو استفاده می شود.CRO معمولاً از مدلهایی مانند مدل راهزنان عمیق متنی استفاده می کند تا به طور مستقل محتوا را در موقعیت های مختلف رتبه بندی کند ، به عنوان مثال ، یک بهینه ساز اختصاص داده شده به نتایج جستجوی ارگانیک و دیگری به نتایج حامی.با این حال ، این رویکرد بهینه سازی منطقه ای لزوماً به بهینه سازی کل صفحه ترجمه نمی شود ، به عنوان مثال ، به حداکثر رساندن درآمد در بالای صفحه ممکن است سهواً درآمد موقعیت های پایین را کاهش دهد.در این مقاله ، ما یک روش مبتنی بر یادگیری تقویت را برای رتبه بندی کل صفحه پیشنهاد می کنیم تا به طور مشترک در تمام موقعیت ها بهینه سازی شود: 1) تغییر از بهینه سازی سطح موقعیت به بهینه سازی سطح صفحه برای دستیابی به یک رتبه بندی بهینه کلی.2) استفاده از یادگیری تقویت برای بهینه سازی پاداش های تجمعی به جای پاداش فوری.ما سطح صفحه CRO را به عنوان یک فرآیند تصمیم گیری چند جانبه Markov Markov تدوین می کنیم و آن را با مدل شیب سیاست تعیین کننده عمیق چند عامل (MADDPG) جدید می پردازیم.MADDPG با اتخاذ یک رویکرد “آموزش متمرکز و اجرای غیرمتمرکز” از یک چارچوب بهینه سازی مشترک انعطاف پذیر و مقیاس پذیر پشتیبانی می کند.آزمایش های گسترده نشان می دهد که MADDPG به یک فضای اقدام 2.5 میلیارد در محیط عمومی Mujoco می پردازد و از مدل سازی راهزنان عمیق 25.7 ٪ در داده های CRO آفلاین از یک شرکت پیشرو تجارت الکترونیکی بهتر عمل می کند.ما پیش بینی می کنیم که این بهینه سازی چند عامل جدید برای مشکلات بهینه سازی مشترک مشابه در زمینه بازیابی اطلاعات قابل استفاده است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.