ترجمه فارسی مقاله LongWriter: آزادسازی بیش از 10000 کلمه از LLMهای Long Context

680,000 تومان

عنوان مقاله به انگلیسی LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs
عنوان مقاله به فارسی ترجمه فارسی مقاله LongWriter: آزادسازی بیش از 10000 کلمه از LLMهای Long Context
نویسندگان Yushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 17
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Computation and Language,Machine Learning,محاسبه و زبان , یادگیری ماشین ,
توضیحات Submitted 13 August, 2024; originally announced August 2024.
توضیحات به فارسی ارسال شده در 13 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Current long context large language models (LLMs) can process inputs up to 100,000 tokens, yet struggle to generate outputs exceeding even a modest length of 2,000 words. Through controlled experiments, we find that the model’s effective generation length is inherently bounded by the sample it has seen during supervised fine-tuning (SFT). In other words, their output limitation is due to the scarcity of long-output examples in existing SFT datasets. To address this, we introduce AgentWrite, an agent-based pipeline that decomposes ultra-long generation tasks into subtasks, enabling off-the-shelf LLMs to generate coherent outputs exceeding 20,000 words. Leveraging AgentWrite, we construct LongWriter-6k, a dataset containing 6,000 SFT data with output lengths ranging from 2k to 32k words. By incorporating this dataset into model training, we successfully scale the output length of existing models to over 10,000 words while maintaining output quality. We also develop LongBench-Write, a comprehensive benchmark for evaluating ultra-long generation capabilities. Our 9B parameter model, further improved through DPO, achieves state-of-the-art performance on this benchmark, surpassing even much larger proprietary models. In general, our work demonstrates that existing long context LLM already possesses the potential for a larger output window–all you need is data with extended output during model alignment to unlock this capability. Our code & models are at: https://github.com/THUDM/LongWriter.

چکیده به فارسی (ترجمه ماشینی)

زمینه های طولانی کنونی مدل های بزرگ زبان (LLMS) می توانند ورودی ها را تا 100،000 توکن پردازش کنند ، اما در عین حال تلاش برای تولید خروجی بیش از حتی طول متوسط ​​2000 کلمه.از طریق آزمایش های کنترل شده ، می فهمیم که طول تولید موثر مدل ذاتاً توسط نمونه ای که در هنگام تنظیم دقیق (SFT) مشاهده شده است محدود می شود.به عبارت دیگر ، محدودیت خروجی آنها به دلیل کمبود نمونه های خروجی طولانی در مجموعه داده های SFT موجود است.برای پرداختن به این موضوع ، ما AgentWrite را معرفی می کنیم ، یک خط لوله مبتنی بر عامل که کارهای نسل فوق العاده طولانی را به زیر مجموعه ها تجزیه می کند ، LLM های خارج از قفسه را قادر می سازد تا خروجی های منسجم را بیش از 20،000 کلمه تولید کنند.با استفاده از AgentWrite ، ما LongWriter-6K را می سازیم ، یک مجموعه داده حاوی 6000 داده SFT با طول خروجی از 2K تا 32K کلمات.با درج این مجموعه داده در آموزش مدل ، ما با موفقیت در ضمن حفظ کیفیت خروجی ، طول خروجی مدل های موجود را به بیش از 10،000 کلمه مقیاس می دهیم.ما همچنین Longbench-Write را توسعه می دهیم ، یک معیار جامع برای ارزیابی قابلیت های تولید فوق العاده طولانی.مدل پارامتر 9B ما ، که بیشتر از طریق DPO بهبود یافته است ، به عملکرد پیشرفته در این معیار می رسد و از مدلهای اختصاصی بسیار بزرگتر نیز فراتر می رود.به طور کلی ، کار ما نشان می دهد که LLM Context Long موجود در حال حاضر پتانسیل یک پنجره خروجی بزرگتر را دارد-همه شما به داده های دارای خروجی گسترده در طول تراز مدل برای باز کردن این توانایی است.کد و مدل های ما در: https://github.com/thudm/longwriter است.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله LongWriter: آزادسازی بیش از 10000 کلمه از LLMهای Long Context”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا