| عنوان مقاله به انگلیسی | When is Off-Policy Evaluation Useful? A Data-Centric Perspective |
| عنوان مقاله به فارسی | مقاله چه زمانی ارزیابی خارج از سیاست مفید است؟یک دیدگاه داده محور |
| نویسندگان | Hao Sun, Alex J. Chan, Nabeel Seedat, Alihan Hüyük, Mihaela van der Schaar |
| زبان مقاله | انگلیسی |
| فرمت مقاله: | |
| تعداد صفحات | 0 |
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی , |
| توضیحات | Submitted 23 November, 2023; originally announced November 2023. , Comments: Off-Policy Evaluation, Data-Centric AI, Data-Centric Reinforcement Learning, Reinforcement Learning |
| توضیحات به فارسی | ارسال شده 23 نوامبر 2023 ؛در ابتدا نوامبر 2023 اعلام شد ، نظرات: ارزیابی خارج از سیاست ، هوش مصنوعی داده محور ، یادگیری تقویت شده داده محور ، یادگیری تقویت |
چکیده
Evaluating the value of a hypothetical target policy with only a logged dataset is important but challenging. On the one hand, it brings opportunities for safe policy improvement under high-stakes scenarios like clinical guidelines. On the other hand, such opportunities raise a need for precise off-policy evaluation (OPE). While previous work on OPE focused on improving the algorithm in value estimation, in this work, we emphasize the importance of the offline dataset, hence putting forward a data-centric framework for evaluating OPE problems. We propose DataCOPE, a data-centric framework for evaluating OPE, that answers the questions of whether and to what extent we can evaluate a target policy given a dataset. DataCOPE (1) forecasts the overall performance of OPE algorithms without access to the environment, which is especially useful before real-world deployment where evaluating OPE is impossible; (2) identifies the sub-group in the dataset where OPE can be inaccurate; (3) permits evaluations of datasets or data-collection strategies for OPE problems. Our empirical analysis of DataCOPE in the logged contextual bandit settings using healthcare datasets confirms its ability to evaluate both machine-learning and human expert policies like clinical guidelines.
چکیده به فارسی (ترجمه ماشینی)
ارزیابی ارزش یک سیاست هدف فرضی با تنها یک مجموعه داده وارد شده مهم است اما چالش برانگیز است.از یک طرف ، این فرصت ها را برای بهبود سیاست ایمن تحت سناریوهای پر مسائل مانند دستورالعمل های بالینی به ارمغان می آورد.از طرف دیگر ، چنین فرصتهایی نیاز به ارزیابی دقیق خارج از سیاست (OPE) را افزایش می دهد.در حالی که کار قبلی در مورد OPE بر بهبود الگوریتم در تخمین ارزش متمرکز بود ، در این کار ، ما بر اهمیت مجموعه داده های آفلاین تأکید می کنیم ، از این رو یک چارچوب داده محور برای ارزیابی مشکلات OPE را ارائه می دهیم.ما DataCope ، یک چارچوب داده محور برای ارزیابی OPE را پیشنهاد می کنیم ، که به سؤالات مربوط به اینکه آیا و تا چه اندازه می توانیم یک خط مشی هدف را با توجه به یک مجموعه داده ارزیابی کنیم ، پاسخ می دهد.DataCope (1) عملکرد کلی الگوریتم های OPE را بدون دسترسی به محیط زیست پیش بینی می کند ، که به ویژه قبل از استقرار در دنیای واقعی مفید است که در آن ارزیابی OPE غیرممکن است.(2) زیر گروه را در مجموعه داده هایی که OPE می تواند نادرست باشد مشخص می کند.(3) ارزیابی مجموعه داده ها یا استراتژی های جمع آوری داده ها برای مشکلات OPE.تجزیه و تحلیل تجربی ما از DataCope در تنظیمات راهزن متنی وارد شده با استفاده از مجموعه داده های بهداشت و درمان ، توانایی آن در ارزیابی هر دو یادگیری ماشین و سیاست های متخصص انسانی مانند دستورالعمل های بالینی را تأیید می کند.
| توجه کنید این مقاله به زبان انگلیسی است. |
|
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|


نقد و بررسیها
هنوز بررسیای ثبت نشده است.