| عنوان مقاله به انگلیسی | Large Language Models for cross-language code clone detection |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله مدلهای زبان بزرگ برای تشخیص کلون کد بین زبانی |
| نویسندگان | Micheline Bénédicte Moumoula, Abdoul Kader Kabore, Jacques Klein, Tegawendé Bissyande |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 12 |
| دسته بندی موضوعات | Software Engineering,Artificial Intelligence,Machine Learning,مهندسی نرم افزار , هوش مصنوعی , یادگیری ماشین , |
| توضیحات | Submitted 8 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال شده در 8 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 480,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
With the involvement of multiple programming languages in modern software development, cross-lingual code clone detection has gained traction with the software engineering community. Numerous studies have explored this topic, proposing various promising approaches. Inspired by the significant advances in machine learning in recent years, particularly Large Language Models (LLMs), which have demonstrated their ability to tackle various tasks, this paper revisits cross-lingual code clone detection. We investigate the capabilities of four (04) LLMs and eight (08) prompts for the identification of cross-lingual code clones. Additionally, we evaluate a pre-trained embedding model to assess the effectiveness of the generated representations for classifying clone and non-clone pairs. Both studies (based on LLMs and Embedding models) are evaluated using two widely used cross-lingual datasets, XLCoST and CodeNet. Our results show that LLMs can achieve high F1 scores, up to 0.98, for straightforward programming examples (e.g., from XLCoST). However, they not only perform less well on programs associated with complex programming challenges but also do not necessarily understand the meaning of code clones in a cross-lingual setting. We show that embedding models used to represent code fragments from different programming languages in the same representation space enable the training of a basic classifier that outperforms all LLMs by ~2 and ~24 percentage points on the XLCoST and CodeNet datasets, respectively. This finding suggests that, despite the apparent capabilities of LLMs, embeddings provided by embedding models offer suitable representations to achieve state-of-the-art performance in cross-lingual code clone detection.
چکیده به فارسی (ترجمه ماشینی)
با درگیری چندین زبان برنامه نویسی در توسعه نرم افزار مدرن ، تشخیص کلون کد متقابل با زبانی با جامعه مهندسی نرم افزار به خود جلب کرده است.مطالعات بی شماری این موضوع را مورد بررسی قرار داده است و رویکردهای مختلف امیدوارکننده ای را ارائه می دهد.این مقاله با الهام از پیشرفت های چشمگیر در یادگیری ماشین در سالهای اخیر ، به ویژه مدلهای بزرگ زبان (LLM) ، که توانایی آنها در مقابله با کارهای مختلف را نشان داده اند ، این مقاله را مجدداً تشخیص کلون کد زبانی را مورد بررسی قرار می دهد.ما قابلیت های چهار (04) LLMS و هشت (08) را برای شناسایی کلون های کد متقابل زبانی بررسی می کنیم.علاوه بر این ، ما یک مدل تعبیه از پیش آموزش داده شده را برای ارزیابی اثربخشی بازنمودهای تولید شده برای طبقه بندی جفت های کلون و غیر کلون ارزیابی می کنیم.هر دو مطالعه (بر اساس LLMS و مدل های تعبیه شده) با استفاده از دو مجموعه داده متقاطع که به طور گسترده استفاده می شوند ، XLCOST و CODENET ارزیابی می شوند.نتایج ما نشان می دهد که LLM ها می توانند برای نمونه های برنامه نویسی ساده (به عنوان مثال ، از XLCOST) به نمرات F1 بالا ، تا 0.98 دست یابند.با این حال ، آنها نه تنها در برنامه های مرتبط با چالش های برنامه نویسی پیچیده عملکرد کمتری دارند بلکه لزوماً معنای کلون های کد را در یک محیط متقابل نمی فهمند.ما نشان می دهیم که مدل های تعبیه شده برای نشان دادن قطعات کد از زبانهای مختلف برنامه نویسی در همان فضای بازنمایی ، آموزش یک طبقه بندی اساسی را امکان پذیر می کنند که به ترتیب از همه LLM ها با 2 ~ 2 و 24 درصد امتیاز در مجموعه داده های XLCOST و CODENET استفاده می کنند.این یافته نشان می دهد که ، با وجود قابلیت های ظاهری LLMS ، تعبیه های ارائه شده توسط مدل های جاسازی ، بازنمودهای مناسبی را برای دستیابی به عملکرد پیشرفته در تشخیص کلون کد متقابل ارائه می دهند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.