| عنوان مقاله به انگلیسی | An End-to-End Reinforcement Learning Based Approach for Micro-View Order-Dispatching in Ride-Hailing | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله یک رویکرد مبتنی بر یادگیری تقویتی پایان به انتها برای ارسال سفارش با نمایش میکرو در سواری-هیلینگ | ||||||||
| نویسندگان | Xinlang Yue, Yiran Liu, Fangzhou Shi, Sihong Luo, Chen Zhong, Min Lu, Zhe Xu | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 8 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی , | ||||||||
| توضیحات | Submitted 19 August, 2024; originally announced August 2024. , Comments: 8 pages, 4 figures | ||||||||
| توضیحات به فارسی | ارسال شده در 19 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 8 صفحه ، 4 شکل | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Assigning orders to drivers under localized spatiotemporal context (micro-view order-dispatching) is a major task in Didi, as it influences ride-hailing service experience. Existing industrial solutions mainly follow a two-stage pattern that incorporate heuristic or learning-based algorithms with naive combinatorial methods, tackling the uncertainty of both sides’ behaviors, including emerging timings, spatial relationships, and travel duration, etc. In this paper, we propose a one-stage end-to-end reinforcement learning based order-dispatching approach that solves behavior prediction and combinatorial optimization uniformly in a sequential decision-making manner. Specifically, we employ a two-layer Markov Decision Process framework to model this problem, and present \underline{D}eep \underline{D}ouble \underline{S}calable \underline{N}etwork (D2SN), an encoder-decoder structure network to generate order-driver assignments directly and stop assignments accordingly. Besides, by leveraging contextual dynamics, our approach can adapt to the behavioral patterns for better performance. Extensive experiments on Didi’s real-world benchmarks justify that the proposed approach significantly outperforms competitive baselines in optimizing matching efficiency and user experience tasks. In addition, we evaluate the deployment outline and discuss the gains and experiences obtained during the deployment tests from the view of large-scale engineering implementation.
چکیده به فارسی (ترجمه ماشینی)
اختصاص سفارشات به رانندگان تحت زمینه مکانی محلی محلی (سفارش میکرو-نمای) یک کار مهم در DIDI است ، زیرا این امر بر تجربه خدمات تگرگ سواری تأثیر می گذارد.راه حل های صنعتی موجود عمدتاً از الگوی دو مرحله ای پیروی می کند که الگوریتم های اکتشافی یا مبتنی بر یادگیری را با روشهای ترکیبی ساده لوحانه ، مقابله با عدم اطمینان از رفتارهای هر دو طرف ، از جمله زمان های نوظهور ، روابط مکانی و مدت زمان سفر و غیره در این مقاله ، ما در این مقاله ، مقابله با عدم اطمینان از رفتارهای هر دو طرف ، از جمله زمان های نوظهور ، روابط مکانی و مدت زمان سفر و غیره را شامل می شود.یک رویکرد تقویت کننده سفارش مبتنی بر یادگیری مبتنی بر یادگیری یک مرحله ای را پیشنهاد کنید که پیش بینی رفتار و بهینه سازی ترکیبی را به طور یکنواخت به روش تصمیم گیری پی در پی حل می کند.به طور خاص ، ما از یک چارچوب فرآیند تصمیم گیری مارکوف دو لایه برای مدل سازی این مشکل استفاده می کنیم ، و \ underline {d} eep \ underline {d} underline {s} calable \ underline {n} etwork (d2sn) ، رمزگذارشبکه ساختار رمزگشایی برای تولید تکالیف درایور سفارش مستقیم و متوقف کردن تکالیف بر این اساس.علاوه بر این ، با استفاده از پویایی متنی ، رویکرد ما می تواند برای عملکرد بهتر با الگوهای رفتاری سازگار شود.آزمایش های گسترده در مورد معیارهای دنیای واقعی Didi توجیه می کند که رویکرد پیشنهادی به طور قابل توجهی از خطوط رقابتی در بهینه سازی کارآیی تطبیق و وظایف تجربه کاربر بهتر عمل می کند.علاوه بر این ، ما طرح استقرار را ارزیابی می کنیم و در مورد سود و تجربیات به دست آمده در تست های استقرار از نظر اجرای مهندسی در مقیاس بزرگ بحث می کنیم.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.