ترجمه فارسی مقاله بهینه‌سازی خط‌مشی رتبه‌بندی پروگزیمال برای ایمنی عملی در یادگیری متضاد برای رتبه‌بندی

80,000 تومان

عنوان مقاله به انگلیسی Proximal Ranking Policy Optimization for Practical Safety in Counterfactual Learning to Rank
عنوان مقاله به فارسی ترجمه فارسی مقاله بهینه‌سازی خط‌مشی رتبه‌بندی پروگزیمال برای ایمنی عملی در یادگیری متضاد برای رتبه‌بندی
نویسندگان Shashank Gupta, Harrie Oosterhuis, Maarten de Rijke
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 4
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,Information Retrieval,یادگیری ماشین , بازیابی اطلاعات ,
توضیحات Submitted 15 September, 2024; originally announced September 2024. , Comments: Accepted at the CONSEQUENCES 2024 workshop, co-located with ACM RecSys 2024
توضیحات به فارسی ارسال شده در 15 سپتامبر 2024 ؛در ابتدا در سپتامبر 2024 اعلام شد. ، نظرات: در کارگاه 2024 عواقب پذیرفته شده ، با ACM Recsys 2024 مستقر شده است
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Counterfactual learning to rank (CLTR) can be risky and, in various circumstances, can produce sub-optimal models that hurt performance when deployed. Safe CLTR was introduced to mitigate these risks when using inverse propensity scoring to correct for position bias. However, the existing safety measure for CLTR is not applicable to state-of-the-art CLTR methods, cannot handle trust bias, and relies on specific assumptions about user behavior. We propose a novel approach, proximal ranking policy optimization (PRPO), that provides safety in deployment without assumptions about user behavior. PRPO removes incentives for learning ranking behavior that is too dissimilar to a safe ranking model. Thereby, PRPO imposes a limit on how much learned models can degrade performance metrics, without relying on any specific user assumptions. Our experiments show that PRPO provides higher performance than the existing safe inverse propensity scoring approach. PRPO always maintains safety, even in maximally adversarial situations. By avoiding assumptions, PRPO is the first method with unconditional safety in deployment that translates to robust safety for real-world applications.

چکیده به فارسی (ترجمه ماشینی)

یادگیری ضد عملی برای رتبه بندی (CLTR) می تواند خطرناک باشد و در شرایط مختلف می تواند مدل های زیر بهینه ای تولید کند که هنگام استقرار به عملکرد آسیب برساند.CLTR ایمن برای کاهش این خطرات هنگام استفاده از امتیاز دهی معکوس برای اصلاح تعصب موقعیت معرفی شد.با این حال ، اندازه گیری ایمنی موجود برای CLTR برای روشهای پیشرفته CLTR کاربرد ندارد ، نمی تواند تعصب اعتماد را تحمل کند و به فرضیات خاص در مورد رفتار کاربر متکی است.ما یک رویکرد جدید ، بهینه سازی خط مشی رتبه بندی نزدیک (PRPO) را پیشنهاد می کنیم ، که ایمنی در استقرار بدون فرضیه در مورد رفتار کاربر را فراهم می کند.PRPO مشوق هایی را برای یادگیری رفتار رتبه بندی که بیش از حد با یک مدل رتبه بندی ایمن متفاوت است ، حذف می کند.بدین ترتیب ، PRPO محدودیتی را در مورد میزان مدل های آموخته شده می تواند معیارهای عملکرد را تخریب کند ، بدون اینکه به فرضیات خاص کاربر متکی باشد.آزمایشات ما نشان می دهد که PRPO عملکرد بالاتری را نسبت به رویکرد امتیاز دهی معکوس معکوس موجود فراهم می کند.PRPO همیشه ایمنی را حفظ می کند ، حتی در شرایط حداکثر مخالف.با جلوگیری از فرضیات ، PRPO اولین روش با ایمنی بی قید و شرط در استقرار است که به ایمنی قوی برای برنامه های دنیای واقعی ترجمه می شود.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله بهینه‌سازی خط‌مشی رتبه‌بندی پروگزیمال برای ایمنی عملی در یادگیری متضاد برای رتبه‌بندی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا