,

ترجمه فارسی مقاله انتقال واژگان بین زبانی و توکن‌سازی: تطبیق زبان LLMها برای پردازش زبان طبیعی کم‌منبع

19,000 تومان1,120,000 تومان

شناسه محصول: نامعلوم دسته: ,
عنوان مقاله به انگلیسی Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP
عنوان مقاله به فارسی ترجمه فارسی مقاله انتقال واژگان بین زبانی و توکن‌سازی: تطبیق زبان LLMها برای پردازش زبان طبیعی کم‌منبع
نویسندگان François Remy, Pieter Delobelle, Hayastan Avetisyan, Alfiya Khabibullina, Miryam de Lhoneux, Thomas Demeester
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 28
دسته بندی موضوعات Computation and Language,Machine Learning,محاسبه و زبان , یادگیری ماشین ,
توضیحات Submitted 8 August, 2024; originally announced August 2024. , Comments: Accepted at COLM 2024
توضیحات به فارسی ارسال شده در 8 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: پذیرفته شده در Colm 2024

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

سفارش ترجمه فارسی مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش می‌دهید.

قیمت: 1,120,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

The development of monolingual language models for low and mid-resource languages continues to be hindered by the difficulty in sourcing high-quality training data. In this study, we present a novel cross-lingual vocabulary transfer strategy, trans-tokenization, designed to tackle this challenge and enable more efficient language adaptation. Our approach focuses on adapting a high-resource monolingual LLM to an unseen target language by initializing the token embeddings of the target language using a weighted average of semantically similar token embeddings from the source language. For this, we leverage a translation resource covering both the source and target languages. We validate our method with the Tweeties, a series of trans-tokenized LLMs, and demonstrate their competitive performance on various downstream tasks across a small but diverse set of languages. Additionally, we introduce Hydra LLMs, models with multiple swappable language modeling heads and embedding tables, which further extend the capabilities of our trans-tokenization strategy. By designing a Hydra LLM based on the multilingual model TowerInstruct, we developed a state-of-the-art machine translation model for Tatar, in a zero-shot manner, completely bypassing the need for high-quality parallel data. This breakthrough is particularly significant for low-resource languages like Tatar, where high-quality parallel data is hard to come by. By lowering the data and time requirements for training high-quality models, our trans-tokenization strategy allows for the development of LLMs for a wider range of languages, especially those with limited resources. We hope that our work will inspire further research and collaboration in the field of cross-lingual vocabulary transfer and contribute to the empowerment of languages on a global scale.

چکیده به فارسی (ترجمه ماشینی)

توسعه مدل های زبانی یک زبانه برای زبانهای کم و متوسط ​​منبع همچنان با مشکل در تهیه داده های آموزش با کیفیت بالا مانع می شود.در این مطالعه ، ما یک استراتژی انتقال واژگان متقاطع رمان ، ترانسپرکن سازی ، طراحی شده برای مقابله با این چالش و امکان سازگاری کارآمدتر زبان ارائه می دهیم.رویکرد ما بر تطبیق یک LLM یک زبانه با منبع بالا با یک زبان هدف غیب با شروع نشانه های تعبیه شده از زبان هدف با استفاده از میانگین وزنی از تعبیه های معنایی مشابه از زبان منبع متمرکز است.برای این کار ، ما از یک منبع ترجمه استفاده می کنیم که هر دو منبع و زبانهای هدف را پوشش می دهد.ما روش خود را با توییت ها ، مجموعه ای از LLM های ترانس شده ، تأیید می کنیم و عملکرد رقابتی آنها را در کارهای مختلف پایین دست در یک مجموعه کوچک اما متنوع از زبان نشان می دهیم.علاوه بر این ، ما Hydra LLMS را معرفی می کنیم ، مدلهایی با سرهای مدل سازی زبان قابل تعویض و جداول تعبیه شده ، که بیشتر قابلیت های استراتژی فراملی ما را گسترش می دهد.ما با طراحی یک هیدرا LLM بر اساس TowerInstruct مدل چند زبانه ، ما یک مدل ترجمه ماشین پیشرفته برای تاتار ، با روشی صفر ، ایجاد کردیم و به طور کامل نیاز به داده های موازی با کیفیت بالا را دور زدیم.این دستیابی به موفقیت به ویژه برای زبانهای کم منبع مانند تاتار ، که در آن داده های موازی با کیفیت بالا دشوار است ، قابل توجه است.با پایین آمدن داده ها و الزامات زمان برای آموزش مدلهای با کیفیت بالا ، استراتژی فراملی ما امکان توسعه LLM ها را برای طیف وسیع تری از زبان ها ، به ویژه آنهایی که منابع محدود دارند ، فراهم می کند.ما امیدواریم که کار ما الهام بخش تحقیقات و همکاری بیشتر در زمینه انتقال واژگان متقابل باشد و به توانمندسازی زبانها در مقیاس جهانی کمک کند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.
نوع دانلود

دانلود مقاله اصل انگلیسی, سفارش ترجمه فارسی مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله انتقال واژگان بین زبانی و توکن‌سازی: تطبیق زبان LLMها برای پردازش زبان طبیعی کم‌منبع”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا