,

مقاله پتریکا: مجموعه‌داده‌های خام و متوازن روزنامه‌های بنگالی با هشت موضوع و پنج ویژگی به همراه PDF فارسی + پادکست صوتی فارسی + ویدیو آموزشی فارسی

150,000 تومان

📚 مقاله علمی

عنوان فارسی مقاله پتریکا: مجموعه‌داده‌های خام و متوازن روزنامه‌های بنگالی با هشت موضوع و پنج ویژگی
نویسندگان Istiak Ahmad, Fahad AlQurashi, Rashid Mehmood
دسته‌بندی علمی Computation and Language,Artificial Intelligence

📘 محتوای این مقاله آموزشی

  • شامل فایل اصلی مقاله (PDF انگلیسی)
  • به همراه فایل PDF توضیح فارسی با بیان ساده و روان
  • دارای پادکست صوتی فارسی توضیح کامل مقاله
  • به همراه ویدیو آموزشی فارسی برای درک عمیق‌تر مفاهیم مقاله

🎯 همه‌ی فایل‌ها با هدف درک آسان و سریع مفاهیم علمی این مقاله تهیه شده‌اند.

چنانچه در دانلود فایل‌ها با مشکلی مواجه شدید، لطفاً از طریق واتس‌اپ با شماره 09395106248 یا از طریق آیدی تلگرام @ma_limbs پیام دهید تا لینک‌ها فوراً برایتان مجدداً ارسال شوند.

پتریکا: مجموعه‌داده‌های خام و متوازن روزنامه‌های بنگالی با هشت موضوع و پنج ویژگی

در عصر حاضر، دانش به عنوان سنگ بنای پیشرفت‌های بشری و علمی شناخته می‌شود. پردازش زبان طبیعی (NLP)، با فراهم آوردن امکان تحلیل و تولید خودکار دانش، نقش مهمی در این پیشرفت ایفا می‌کند. داده‌ها، به عنوان ماده اولیه اصلی، در قلب پردازش زبان طبیعی و یادگیری ماشین قرار دارند. کمبود مجموعه‌داده‌های باز و قابل دسترس، چالشی مهم در تحقیقات یادگیری ماشین و یادگیری عمیق است. این مشکل، به ویژه در مورد مجموعه‌داده‌های متنی پردازش زبان طبیعی در زبان انگلیسی و سایر زبان‌های اصلی دنیا، نمود بیشتری دارد. اما در مورد زبان بنگالی، این وضعیت به مراتب دشوارتر بوده و تعداد مجموعه‌داده‌های بزرگ برای تحقیقات پردازش زبان طبیعی تقریباً ناچیز است.

معرفی مقاله و اهمیت آن

مقاله حاضر با عنوان “پتریکا: مجموعه‌داده‌های خام و متوازن روزنامه‌های بنگالی با هشت موضوع و پنج ویژگی“، گامی مهم در راستای رفع این کمبود به شمار می‌رود. این مقاله، مجموعه‌داده‌ای بزرگ و تک‌برچسبی از مقالات خبری زبان بنگالی را ارائه می‌دهد که برای تحقیقات پردازش زبان طبیعی گردآوری شده است. این مجموعه‌داده، از شش پورتال خبری آنلاین محبوب در بنگلادش (Jugantor, Jaijaidin, Ittefaq, Kaler Kontho, Inqilab, and Somoyer Alo) و در بازه زمانی 2014-2020 جمع‌آوری شده است.

اهمیت این مقاله در چند جنبه قابل بررسی است:

  • رفع کمبود داده: این مقاله، یکی از بزرگترین مجموعه‌داده‌های موجود برای زبان بنگالی در زمینه پردازش زبان طبیعی را ارائه می‌کند.
  • تنوع موضوعی: مقالات خبری این مجموعه‌داده، در هشت دسته متمایز طبقه‌بندی شده‌اند که شامل موضوعاتی همچون ملی، ورزشی، بین‌المللی، سرگرمی، اقتصادی، آموزشی، سیاسی و علم و فناوری می‌شود.
  • ارائه داده‌های متوازن: علاوه بر مجموعه‌داده خام، یک مجموعه‌داده متوازن نیز ارائه شده است که تعداد مقالات در هر دسته موضوعی یکسان است. این امر، امکان انجام تحقیقات دقیق‌تر و عادلانه‌تر را فراهم می‌سازد.
  • پنج ویژگی مهم: هر مقاله خبری در این مجموعه‌داده، دارای پنج ویژگی کلیدی است که شامل متن مقاله، دسته، عنوان، تاریخ انتشار و منبع روزنامه می‌شود.

نویسندگان و زمینه تحقیق

این مقاله توسط ایستیاک احمد، فهد القرشی و رشید محمود به رشته تحریر درآمده است. زمینه تحقیقاتی این نویسندگان، محاسبات و زبان و هوش مصنوعی است. تخصص این نویسندگان در این حوزه‌ها، به آنها این امکان را داده است که با درک عمیق از چالش‌های موجود در پردازش زبان طبیعی، به ارائه یک مجموعه‌داده با کیفیت و کارآمد بپردازند.

چکیده و خلاصه محتوا

چکیده مقاله به این صورت است: دانش، محور توسعه انسانی و علمی است. پردازش زبان طبیعی (NLP) امکان تحلیل و ایجاد خودکار دانش را فراهم می‌کند. داده‌ها، جزء حیاتی NLP و یادگیری ماشین هستند. کمبود مجموعه‌داده‌های باز، یک مشکل شناخته شده در تحقیقات یادگیری ماشین و یادگیری عمیق است. این امر در مورد مجموعه‌داده‌های متنی NLP در زبان انگلیسی و سایر زبان‌های اصلی جهان بسیار صادق است. برای زبان بنگالی، وضعیت حتی چالش برانگیزتر است و تعداد مجموعه‌داده‌های بزرگ برای تحقیقات NLP عملاً صفر است. ما در اینجا پتریکا را ارائه می‌دهیم، یک مجموعه داده متنی بزرگ از مقالات خبری بنگلادشی با برچسب واحد که برای تحقیقات NLP از شش پورتال خبری آنلاین محبوب در بنگلادش (Jugantor, Jaijaidin, Ittefaq, Kaler Kontho, Inqilab, and Somoyer Alo) برای دوره 2014-2020 جمع‌آوری شده است. مقالات در هشت دسته متمایز (ملی، ورزشی، بین‌المللی، سرگرمی، اقتصاد، آموزش، سیاست و علم و فناوری) با ارائه پنج ویژگی (مقاله خبری، دسته، عنوان، تاریخ انتشار و منبع روزنامه) طبقه‌بندی شده‌اند. مجموعه داده خام شامل 185.51 میلیون کلمه و 12.57 میلیون جمله است که در 664880 مقاله خبری وجود دارد. علاوه بر این، با استفاده از تکنیک‌های افزایش NLP، ما از مجموعه داده خام (نامتعادل) یک مجموعه داده (متعادل) دیگر ایجاد می‌کنیم که شامل 320000 مقاله خبری با 40000 مقاله در هر یک از هشت دسته خبری است. پتریکا شامل هر دو مجموعه داده (خام و متعادل) برای تناسب با طیف گسترده‌ای از تحقیقات NLP است. تا جایی که ما می‌دانیم، پتریکا بزرگترین و گسترده‌ترین مجموعه داده برای طبقه‌بندی اخبار است.

به طور خلاصه، مقاله “پتریکا” یک مجموعه‌داده جامع و ارزشمند برای محققان پردازش زبان طبیعی در حوزه زبان بنگالی ارائه می‌دهد. این مجموعه‌داده، شامل مقالات خبری طبقه‌بندی شده در هشت دسته موضوعی مختلف با پنج ویژگی مهم است. علاوه بر این، دو نسخه خام و متوازن از این مجموعه‌داده ارائه شده است که امکان انجام تحقیقات متنوع و دقیق را فراهم می‌کند.

روش‌شناسی تحقیق

روش‌شناسی مورد استفاده در این تحقیق، شامل مراحل زیر است:

  • گردآوری داده: جمع‌آوری مقالات خبری از شش پورتال خبری آنلاین محبوب در بنگلادش در بازه زمانی 2014-2020.
  • طبقه‌بندی موضوعی: طبقه‌بندی مقالات خبری در هشت دسته موضوعی متمایز (ملی، ورزشی، بین‌المللی، سرگرمی، اقتصادی، آموزشی، سیاسی و علم و فناوری).
  • استخراج ویژگی‌ها: استخراج پنج ویژگی کلیدی از هر مقاله خبری (متن مقاله، دسته، عنوان، تاریخ انتشار و منبع روزنامه).
  • ایجاد مجموعه‌داده خام: ایجاد یک مجموعه‌داده خام شامل تمامی مقالات خبری جمع‌آوری شده.
  • ایجاد مجموعه‌داده متوازن: استفاده از تکنیک‌های افزایش پردازش زبان طبیعی (NLP) برای ایجاد یک مجموعه‌داده متوازن که در آن تعداد مقالات در هر دسته موضوعی یکسان است.

تکنیک‌های افزایش NLP مورد استفاده در ایجاد مجموعه‌داده متوازن، می‌توانند شامل روش‌هایی مانند ترجمه معکوس، جایگزینی مترادف‌ها و تولید متن با استفاده از مدل‌های زبانی باشند. هدف از این تکنیک‌ها، تولید مقالات خبری جدید با حفظ معنای اصلی و ایجاد تعادل در تعداد مقالات در هر دسته موضوعی است.

یافته‌های کلیدی

یافته‌های کلیدی این تحقیق را می‌توان به صورت زیر خلاصه کرد:

  • مجموعه‌داده خام “پتریکا” شامل 185.51 میلیون کلمه و 12.57 میلیون جمله در 664880 مقاله خبری است.
  • مجموعه‌داده متوازن “پتریکا” شامل 320000 مقاله خبری است که 40000 مقاله در هر یک از هشت دسته خبری قرار دارد.
  • “پتریکا” بزرگترین و گسترده‌ترین مجموعه‌داده موجود برای طبقه‌بندی اخبار به زبان بنگالی است.

این یافته‌ها نشان می‌دهند که “پتریکا” منبعی ارزشمند برای محققان پردازش زبان طبیعی در حوزه زبان بنگالی است و می‌تواند در انجام طیف گسترده‌ای از تحقیقات، از جمله طبقه‌بندی متن، خلاصه سازی متن، ترجمه ماشینی و تحلیل احساسات، مورد استفاده قرار گیرد.

کاربردها و دستاوردها

مجموعه‌داده “پتریکا” دارای کاربردهای گسترده‌ای در زمینه پردازش زبان طبیعی و یادگیری ماشین است. برخی از این کاربردها عبارتند از:

  • طبقه‌بندی متن: آموزش مدل‌های طبقه‌بندی متن برای تشخیص موضوعات مختلف مقالات خبری.
  • خلاصه سازی متن: آموزش مدل‌هایی برای خلاصه سازی خودکار مقالات خبری و ارائه خلاصه‌های کوتاه و مفید.
  • ترجمه ماشینی: استفاده از این مجموعه‌داده برای بهبود کیفیت ترجمه ماشینی از زبان بنگالی به سایر زبان‌ها.
  • تحلیل احساسات: بررسی و تحلیل احساسات موجود در مقالات خبری و درک نگرش عمومی نسبت به موضوعات مختلف.
  • توسعه سیستم‌های توصیه خبر: ایجاد سیستم‌هایی که مقالات خبری مرتبط با علایق کاربران را به آنها توصیه می‌کنند.

دستاورد اصلی این مقاله، ارائه یک منبع داده‌ای ارزشمند و در دسترس برای جامعه تحقیقاتی پردازش زبان طبیعی در حوزه زبان بنگالی است. این مجموعه‌داده، می‌تواند به پیشرفت تحقیقات در این زمینه کمک کرده و منجر به توسعه برنامه‌های کاربردی جدید و نوآورانه شود.

نتیجه‌گیری

مقاله “پتریکا: مجموعه‌داده‌های خام و متوازن روزنامه‌های بنگالی با هشت موضوع و پنج ویژگی” یک گام مهم در جهت رفع کمبود داده در زمینه پردازش زبان طبیعی زبان بنگالی به شمار می‌رود. این مقاله با ارائه یک مجموعه‌داده بزرگ، متنوع و متوازن از مقالات خبری، امکان انجام تحقیقات دقیق‌تر و پیشرفته‌تر در این زمینه را فراهم می‌کند. این مجموعه‌داده، دارای کاربردهای گسترده‌ای در زمینه‌های مختلف پردازش زبان طبیعی و یادگیری ماشین است و می‌تواند به توسعه برنامه‌های کاربردی جدید و نوآورانه کمک کند. محققان و توسعه‌دهندگان می‌توانند با استفاده از “پتریکا”، به بررسی و تحلیل متون بنگالی پرداخته و به نتایج ارزشمندی دست یابند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “مقاله پتریکا: مجموعه‌داده‌های خام و متوازن روزنامه‌های بنگالی با هشت موضوع و پنج ویژگی به همراه PDF فارسی + پادکست صوتی فارسی + ویدیو آموزشی فارسی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا