| عنوان مقاله به انگلیسی | Towards Realistic Synthetic User-Generated Content: A Scaffolding Approach to Generating Online Discussions | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله به سوی محتوای مصنوعی واقعی تولید شده توسط کاربر: رویکردی داربستی برای ایجاد بحث های آنلاین | ||||||||
| نویسندگان | Krisztian Balog, John Palowitch, Barbara Ikica, Filip Radlinski, Hamidreza Alvari, Mehdi Manshadi | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 13 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Computation and Language,Information Retrieval,Machine Learning,محاسبه و زبان , بازیابی اطلاعات , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 15 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | ارسال شده در 15 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
The emergence of synthetic data represents a pivotal shift in modern machine learning, offering a solution to satisfy the need for large volumes of data in domains where real data is scarce, highly private, or difficult to obtain. We investigate the feasibility of creating realistic, large-scale synthetic datasets of user-generated content, noting that such content is increasingly prevalent and a source of frequently sought information. Large language models (LLMs) offer a starting point for generating synthetic social media discussion threads, due to their ability to produce diverse responses that typify online interactions. However, as we demonstrate, straightforward application of LLMs yields limited success in capturing the complex structure of online discussions, and standard prompting mechanisms lack sufficient control. We therefore propose a multi-step generation process, predicated on the idea of creating compact representations of discussion threads, referred to as scaffolds. Our framework is generic yet adaptable to the unique characteristics of specific social media platforms. We demonstrate its feasibility using data from two distinct online discussion platforms. To address the fundamental challenge of ensuring the representativeness and realism of synthetic data, we propose a portfolio of evaluation measures to compare various instantiations of our framework.
چکیده به فارسی (ترجمه ماشینی)
ظهور داده های مصنوعی نشان دهنده تغییر محوری در یادگیری ماشین مدرن است و راه حلی برای برآورده کردن نیاز به حجم زیادی از داده ها در حوزه هایی که داده های واقعی کمیاب ، بسیار خصوصی یا دستیابی به آن دشوار است ، ارائه می دهد.ما امکان ایجاد مجموعه داده های مصنوعی واقع بینانه و در مقیاس بزرگ محتوای تولید شده توسط کاربر را بررسی می کنیم ، و خاطرنشان می کنیم که چنین محتوا به طور فزاینده ای شیوع دارد و منبع اطلاعاتی که اغلب به دنبال آن هستند.مدل های بزرگ زبان (LLMS) به دلیل توانایی آنها در تولید پاسخ های متنوعی که تعامل آنلاین را تایپ می کنند ، نقطه شروع برای تولید موضوعات بحث در رسانه های اجتماعی مصنوعی را ارائه می دهند.با این حال ، همانطور که نشان می دهیم ، کاربرد مستقیم LLMS موفقیت محدودی در ضبط ساختار پیچیده مباحث آنلاین دارد ، و مکانیسم های فرکانس استاندارد فاقد کنترل کافی است.بنابراین ما یک فرآیند تولید چند مرحله ای را پیشنهاد می کنیم ، که در مورد ایده ایجاد بازنمایی های جمع و جور از موضوعات بحث و گفتگو ، که به آن داربست گفته می شود ، پیش بینی می کنیم.چارچوب ما عمومی است اما با ویژگی های منحصر به فرد سیستم عامل های خاص رسانه های اجتماعی سازگار است.ما امکان سنجی آن را با استفاده از داده های دو سیستم عامل بحث و گفتگو آنلاین نشان می دهیم.برای پرداختن به چالش اساسی برای اطمینان از نمایندگی و واقع گرایی داده های مصنوعی ، ما یک نمونه کارها از اقدامات ارزیابی را برای مقایسه فوری های مختلف چارچوب خود پیشنهاد می کنیم.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.