| عنوان مقاله به انگلیسی | Online Learning with Unknown Constraints | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله یادگیری آنلاین با محدودیت های ناشناخته | ||||||||
| نویسندگان | Karthik Sridharan, Seung Won Wilson Yoo | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 33 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,Statistics Theory,Machine Learning,یادگیری ماشین , هوش مصنوعی , تئوری آمار , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 6 March, 2024; originally announced March 2024. | ||||||||
| توضیحات به فارسی | ارسال 6 مارس 2024 ؛در ابتدا مارس 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
We consider the problem of online learning where the sequence of actions played by the learner must adhere to an unknown safety constraint at every round. The goal is to minimize regret with respect to the best safe action in hindsight while simultaneously satisfying the safety constraint with high probability on each round. We provide a general meta-algorithm that leverages an online regression oracle to estimate the unknown safety constraint, and converts the predictions of an online learning oracle to predictions that adhere to the unknown safety constraint. On the theoretical side, our algorithm’s regret can be bounded by the regret of the online regression and online learning oracles, the eluder dimension of the model class containing the unknown safety constraint, and a novel complexity measure that captures the difficulty of safe learning. We complement our result with an asymptotic lower bound that shows that the aforementioned complexity measure is necessary. When the constraints are linear, we instantiate our result to provide a concrete algorithm with $\sqrt{T}$ regret using a scaling transformation that balances optimistic exploration with pessimistic constraint satisfaction.
چکیده به فارسی (ترجمه ماشینی)
ما مشکل یادگیری آنلاین را در نظر می گیریم که توالی اقدامات انجام شده توسط یادگیرنده باید در هر دور از محدودیت ایمنی ناشناخته پیروی کند.هدف این است که با توجه به بهترین اقدام ایمن در ضمن احساس ، پشیمانی را به حداقل برسانیم و همزمان محدودیت ایمنی را با احتمال زیاد در هر دور برآورده کنیم.ما یک متائولیتم کلی ارائه می دهیم که از یک اوراکل رگرسیون آنلاین برای برآورد محدودیت ایمنی ناشناخته استفاده می کند ، و پیش بینی های یک اوراکل یادگیری آنلاین را به پیش بینی هایی تبدیل می کند که به محدودیت ایمنی ناشناخته پایبند هستند.از طرف نظری ، پشیمانی الگوریتم ما می تواند با پشیمانی از رگرسیون آنلاین و اوراکل های یادگیری آنلاین ، ابعاد Eluder کلاس مدل حاوی محدودیت ایمنی ناشناخته و یک اندازه پیچیدگی جدید که مشکل یادگیری ایمن را به خود جلب می کند ، محدود شود.ما نتیجه خود را با یک محدوده پایین بدون علامت تکمیل می کنیم که نشان می دهد اندازه گیری پیچیدگی فوق الذکر ضروری است.هنگامی که محدودیت ها خطی هستند ، ما نتیجه خود را برای ارائه یک الگوریتم بتونی با $ \ sqrt {t} $ پشیمان می کنیم که با استفاده از یک تحول مقیاس پذیر که اکتشاف خوش بینانه را با رضایت محدودیت بدبینانه تعادل برقرار می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.