| عنوان مقاله به انگلیسی | Causal Language Modeling Can Elicit Search and Reasoning Capabilities on Logic Puzzles | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله مدلسازی علّی زبان میتواند قابلیتهای جستجو و استدلال را در پازلهای منطقی ایجاد کند | ||||||||
| نویسندگان | Kulin Shah, Nishanth Dikkala, Xin Wang, Rina Panigrahy | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 26 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Computation and Language,یادگیری ماشین , محاسبه و زبان , | ||||||||
| توضیحات | Submitted 16 September, 2024; originally announced September 2024. , Comments: 26 pages | ||||||||
| توضیحات به فارسی | ارائه شده 16 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد ، نظرات: 26 صفحه | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Causal language modeling using the Transformer architecture has yielded remarkable capabilities in Large Language Models (LLMs) over the last few years. However, the extent to which fundamental search and reasoning capabilities emerged within LLMs remains a topic of ongoing debate. In this work, we study if causal language modeling can learn a complex task such as solving Sudoku puzzles. To solve a Sudoku, the model is first required to search over all empty cells of the puzzle to decide on a cell to fill and then apply an appropriate strategy to fill the decided cell. Sometimes, the application of a strategy only results in thinning down the possible values in a cell rather than concluding the exact value of the cell. In such cases, multiple strategies are applied one after the other to fill a single cell. We observe that Transformer models trained on this synthetic task can indeed learn to solve Sudokus (our model solves $94.21\%$ of the puzzles fully correctly) when trained on a logical sequence of steps taken by a solver. We find that training Transformers with the logical sequence of steps is necessary and without such training, they fail to learn Sudoku. We also extend our analysis to Zebra puzzles (known as Einstein puzzles) and show that the model solves $92.04 \%$ of the puzzles fully correctly. In addition, we study the internal representations of the trained Transformer and find that through linear probing, we can decode information about the set of possible values in any given cell from them, pointing to the presence of a strong reasoning engine implicit in the Transformer weights.
چکیده به فارسی (ترجمه ماشینی)
مدل سازی زبان علی با استفاده از معماری ترانسفورماتور در چند سال گذشته قابلیت های قابل توجهی در مدل های بزرگ زبان (LLMS) به همراه داشته است.با این حال ، میزان ظهور قابلیت های جستجوی و استدلال در LLMS تا چه اندازه موضوع بحث و گفتگو در حال انجام است.در این کار ، ما مطالعه می کنیم که آیا مدل سازی زبان علی می تواند یک کار پیچیده مانند حل معماهای سودوکو را بیاموزد.برای حل یک سودوکو ، ابتدا مدل لازم است تا تمام سلولهای خالی پازل را جستجو کند تا در مورد یک سلول تصمیم بگیرد و سپس یک استراتژی مناسب را برای پر کردن سلول تصمیم گیری اعمال کند.بعضی اوقات ، استفاده از یک استراتژی فقط منجر به کم کردن مقادیر ممکن در یک سلول می شود تا نتیجه گیری از مقدار دقیق سلول.در چنین مواردی ، استراتژی های متعدد یکی پس از دیگری برای پر کردن یک سلول واحد اعمال می شود.ما مشاهده می کنیم که مدل های ترانسفورماتور آموزش دیده بر روی این کار مصنوعی می توانند در واقع بتوانند سودوکو را حل کنند (مدل ما 94.21 \ ٪ $ از معماها را به طور کامل درست) حل می کند.ما می دانیم که ترانسفورماتورهای آموزش با دنباله منطقی مراحل ضروری است و بدون چنین آموزش ، آنها نمی توانند سودوکو را بیاموزند.ما همچنین تجزیه و تحلیل خود را به پازل های گورخر (معروف به پازل انیشتین) گسترش می دهیم و نشان می دهیم که این مدل 92.04 $ \ $ از معماها را به طور کامل حل می کند.علاوه بر این ، ما بازنمودهای داخلی ترانسفورماتور آموزش دیده را مطالعه می کنیم و می دانیم که از طریق کاوش خطی ، می توانیم اطلاعات مربوط به مجموعه مقادیر ممکن را در هر سلول معین از آنها رمزگشایی کنیم و به وجود یک موتور استدلال قوی که در وزن ترانسفورماتور ضمنی استبشر
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.