| عنوان مقاله به انگلیسی | Proximal Ranking Policy Optimization for Practical Safety in Counterfactual Learning to Rank | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله بهینهسازی خطمشی رتبهبندی پروگزیمال برای ایمنی عملی در یادگیری متضاد برای رتبهبندی | ||||||||
| نویسندگان | Shashank Gupta, Harrie Oosterhuis, Maarten de Rijke | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 4 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Information Retrieval,یادگیری ماشین , بازیابی اطلاعات , | ||||||||
| توضیحات | Submitted 15 September, 2024; originally announced September 2024. , Comments: Accepted at the CONSEQUENCES 2024 workshop, co-located with ACM RecSys 2024 | ||||||||
| توضیحات به فارسی | ارسال شده در 15 سپتامبر 2024 ؛در ابتدا در سپتامبر 2024 اعلام شد. ، نظرات: در کارگاه 2024 عواقب پذیرفته شده ، با ACM Recsys 2024 مستقر شده است | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Counterfactual learning to rank (CLTR) can be risky and, in various circumstances, can produce sub-optimal models that hurt performance when deployed. Safe CLTR was introduced to mitigate these risks when using inverse propensity scoring to correct for position bias. However, the existing safety measure for CLTR is not applicable to state-of-the-art CLTR methods, cannot handle trust bias, and relies on specific assumptions about user behavior. We propose a novel approach, proximal ranking policy optimization (PRPO), that provides safety in deployment without assumptions about user behavior. PRPO removes incentives for learning ranking behavior that is too dissimilar to a safe ranking model. Thereby, PRPO imposes a limit on how much learned models can degrade performance metrics, without relying on any specific user assumptions. Our experiments show that PRPO provides higher performance than the existing safe inverse propensity scoring approach. PRPO always maintains safety, even in maximally adversarial situations. By avoiding assumptions, PRPO is the first method with unconditional safety in deployment that translates to robust safety for real-world applications.
چکیده به فارسی (ترجمه ماشینی)
یادگیری ضد عملی برای رتبه بندی (CLTR) می تواند خطرناک باشد و در شرایط مختلف می تواند مدل های زیر بهینه ای تولید کند که هنگام استقرار به عملکرد آسیب برساند.CLTR ایمن برای کاهش این خطرات هنگام استفاده از امتیاز دهی معکوس برای اصلاح تعصب موقعیت معرفی شد.با این حال ، اندازه گیری ایمنی موجود برای CLTR برای روشهای پیشرفته CLTR کاربرد ندارد ، نمی تواند تعصب اعتماد را تحمل کند و به فرضیات خاص در مورد رفتار کاربر متکی است.ما یک رویکرد جدید ، بهینه سازی خط مشی رتبه بندی نزدیک (PRPO) را پیشنهاد می کنیم ، که ایمنی در استقرار بدون فرضیه در مورد رفتار کاربر را فراهم می کند.PRPO مشوق هایی را برای یادگیری رفتار رتبه بندی که بیش از حد با یک مدل رتبه بندی ایمن متفاوت است ، حذف می کند.بدین ترتیب ، PRPO محدودیتی را در مورد میزان مدل های آموخته شده می تواند معیارهای عملکرد را تخریب کند ، بدون اینکه به فرضیات خاص کاربر متکی باشد.آزمایشات ما نشان می دهد که PRPO عملکرد بالاتری را نسبت به رویکرد امتیاز دهی معکوس معکوس موجود فراهم می کند.PRPO همیشه ایمنی را حفظ می کند ، حتی در شرایط حداکثر مخالف.با جلوگیری از فرضیات ، PRPO اولین روش با ایمنی بی قید و شرط در استقرار است که به ایمنی قوی برای برنامه های دنیای واقعی ترجمه می شود.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.