| عنوان مقاله به انگلیسی | Retrieval-augmented code completion for local projects using large language models |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله تکمیل کد با بازیابی افزوده برای پروژههای محلی با استفاده از مدلهای زبانی بزرگ |
| نویسندگان | Marko Hostnik, Marko Robnik-Šikonja |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 28 |
| دسته بندی موضوعات | Software Engineering,Machine Learning,مهندسی نرم افزار , یادگیری ماشین , |
| توضیحات | Submitted 9 August, 2024; originally announced August 2024. , Comments: 28 pages, 14 figures , MSC Class: 68T07; 68T50 |
| توضیحات به فارسی | ارسال شده در 9 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 28 صفحه ، 14 شکل ، کلاس MSC: 68T07 ؛68T50 |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 1,120,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
The use of large language models (LLMs) is becoming increasingly widespread among software developers. However, privacy and computational requirements are problematic with commercial solutions and the use of LLMs. In this work, we focus on using LLMs with around 160 million parameters that are suitable for local execution and augmentation with retrieval from local projects. We train two models based on the transformer architecture, the generative model GPT-2 and the retrieval-adapted RETRO model, on open-source Python files, and empirically evaluate and compare them, confirming the benefits of vector embedding based retrieval. Further, we improve our models’ performance with In-context retrieval-augmented generation, which retrieves code snippets based on the Jaccard similarity of tokens. We evaluate In-context retrieval-augmented generation on larger models and conclude that, despite its simplicity, the approach is more suitable than using the RETRO architecture. We highlight the key role of proper tokenization in achieving the full potential of LLMs in code completion.
چکیده به فارسی (ترجمه ماشینی)
استفاده از مدل های بزرگ زبان (LLMS) در بین توسعه دهندگان نرم افزار به طور فزاینده ای گسترده می شود.با این حال ، حریم خصوصی و الزامات محاسباتی با راه حل های تجاری و استفاده از LLMS مشکل ساز است.در این کار ، ما بر استفاده از LLM ها با حدود 160 میلیون پارامتر که برای اجرای محلی و تقویت با بازیابی از پروژه های محلی مناسب هستند ، تمرکز می کنیم.ما دو مدل را بر اساس معماری ترانسفورماتور ، مدل تولیدی GPT-2 و مدل یکپارچهسازی با سیستمعامل با یکپارچهسازی با سیستمعامل بازیابی ، در پرونده های پایتون منبع باز آموزش می دهیم و آنها را به صورت تجربی ارزیابی و مقایسه می کنیم و مزایای بازیابی مبتنی بر تعبیه شده را تأیید می کنیم.علاوه بر این ، ما عملکرد مدل های خود را با نسل بازیابی درج شده در سیستم ، که قطعه های کد را بر اساس شباهت جاکارد نشانه ها بازیابی می کند ، بهبود می بخشیم.ما نسل بازیابی درون متن را بر روی مدل های بزرگتر ارزیابی می کنیم و نتیجه می گیریم که ، با وجود سادگی آن ، این رویکرد مناسب تر از استفاده از معماری یکپارچهسازی با سیستمعامل است.ما نقش اصلی توکن سازی مناسب را در دستیابی به پتانسیل کامل LLMS در تکمیل کد برجسته می کنیم.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.