عنوان مقاله به انگلیسی | Design Proteins Using Large Language Models: Enhancements and Comparative Analyses | ||||||||
عنوان مقاله به فارسی | ترجمه فارسی مقاله پروتئین ها را با استفاده از مدلهای بزرگ زبان طراحی کنید: پیشرفت ها و تجزیه و تحلیل های مقایسه ای | ||||||||
نویسندگان | Kamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori | ||||||||
فرمت مقاله انگلیسی | |||||||||
زبان مقاله تحویلی | ترجمه فارسی | ||||||||
فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
تعداد صفحات | 14 | ||||||||
لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
دسته بندی موضوعات | Quantitative Methods,Artificial Intelligence,Machine Learning,روشهای کمی , هوش مصنوعی , یادگیری ماشین , | ||||||||
توضیحات | Submitted 12 August, 2024; originally announced August 2024. , Comments: This paper has been accepted for presentation at Language and Molecules ACL 2024 | ||||||||
توضیحات به فارسی | ارائه شده 12 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: این مقاله برای ارائه در زبان و مولکول ACL 2024 پذیرفته شده است | ||||||||
اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Pre-trained LLMs have demonstrated substantial capabilities across a range of conventional natural language processing (NLP) tasks, such as summarization and entity recognition. In this paper, we explore the application of LLMs in the generation of high-quality protein sequences. Specifically, we adopt a suite of pre-trained LLMs, including Mistral-7B1, Llama-2-7B2, Llama-3-8B3, and gemma-7B4, to produce valid protein sequences. All of these models are publicly available.5 Unlike previous work in this field, our approach utilizes a relatively small dataset comprising 42,000 distinct human protein sequences. We retrain these models to process protein-related data, ensuring the generation of biologically feasible protein structures. Our findings demonstrate that even with limited data, the adapted models exhibit efficiency comparable to established protein-focused models such as ProGen varieties, ProtGPT2, and ProLLaMA, which were trained on millions of protein sequences. To validate and quantify the performance of our models, we conduct comparative analyses employing standard metrics such as pLDDT, RMSD, TM-score, and REU. Furthermore, we commit to making the trained versions of all four models publicly available, fostering greater transparency and collaboration in the field of computational biology.
چکیده به فارسی (ترجمه ماشینی)
LLM های قبل از آموزش ، توانایی های قابل توجهی را در طیف وسیعی از کارهای پردازش زبان طبیعی معمولی (NLP) مانند خلاصه و شناخت موجودیت نشان داده اند.در این مقاله ، ما به بررسی کاربرد LLM ها در تولید توالی پروتئین با کیفیت بالا می پردازیم.به طور خاص ، ما مجموعه ای از LLM های از قبل آموزش دیده ، از جمله MISTRAL-7B1 ، LLAMA-2-7B2 ، LLAMA-3-8B3 و GEMMA-7B4 را برای تولید توالی پروتئین معتبر اتخاذ می کنیم.همه این مدل ها در دسترس عموم هستند .5 بر خلاف کار قبلی در این زمینه ، رویکرد ما از یک مجموعه داده نسبتاً کوچک متشکل از 42000 توالی پروتئین انسانی مجزا استفاده می کند.ما این مدل ها را برای پردازش داده های مرتبط با پروتئین ، اطمینان از تولید ساختارهای پروتئین زیست شناختی امکان پذیر می کنیم.یافته های ما نشان می دهد که حتی با داده های محدود ، مدل های اقتباس شده ، بهره وری را با مدلهای پروتئین متمرکز مانند انواع فرزندان ، ProtGPT2 و Prollama که در میلیون ها توالی پروتئین آموزش دیده بودند ، نشان می دهند.برای اعتبارسنجی و کمیت عملکرد مدل های خود ، ما تجزیه و تحلیل های مقایسه ای را با استفاده از معیارهای استاندارد مانند PLDDT ، RMSD ، TM-Score و REU انجام می دهیم.علاوه بر این ، ما متعهد می شویم نسخه های آموزش دیده هر چهار مدل را در دسترس عموم قرار دهیم و شفافیت و همکاری بیشتری را در زمینه زیست شناسی محاسباتی تقویت کنیم.
فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
نقد و بررسیها
هنوز بررسیای ثبت نشده است.