📚 مقاله علمی
| عنوان فارسی مقاله | مجموعهداده متنی بنگلا و تحلیل اکتشافی برای شناسایی آزار و اذیت آنلاین |
|---|---|
| نویسندگان | Md Faisal Ahmed, Zalish Mahmud, Zarin Tasnim Biash, Ahmed Ann Noor Ryen, Arman Hossain, Faisal Bin Ashraf |
| دستهبندی علمی | Computation and Language,Information Retrieval |
📘 محتوای این مقاله آموزشی
- شامل فایل اصلی مقاله (PDF انگلیسی)
- به همراه فایل PDF توضیح فارسی با بیان ساده و روان
- دارای پادکست صوتی فارسی توضیح کامل مقاله
- به همراه ویدیو آموزشی فارسی برای درک عمیقتر مفاهیم مقاله
🎯 همهی فایلها با هدف درک آسان و سریع مفاهیم علمی این مقاله تهیه شدهاند.
چنانچه در دانلود فایلها با مشکلی مواجه شدید، لطفاً از طریق واتساپ با شماره 09395106248 یا از طریق آیدی تلگرام @ma_limbs پیام دهید تا لینکها فوراً برایتان مجدداً ارسال شوند.
مجموعهداده متنی بنگلا و تحلیل اکتشافی برای شناسایی آزار و اذیت آنلاین
با گسترش روزافزون استفاده از اینترنت و شبکههای اجتماعی، مسئله آزار و اذیت آنلاین به یک چالش جدی تبدیل شده است. شناسایی و مقابله با این نوع آزارها، به ویژه در زبانهای مختلف، از اهمیت ویژهای برخوردار است. مقاله حاضر با عنوان “مجموعهداده متنی بنگلا و تحلیل اکتشافی برای شناسایی آزار و اذیت آنلاین” به بررسی این موضوع در زبان بنگالی میپردازد و تلاش میکند تا ابزاری برای شناسایی و کاهش آزار و اذیت در فضای آنلاین ارائه دهد.
نویسندگان و زمینه تحقیق
این مقاله توسط تیمی از محققان به نامهای Md Faisal Ahmed, Zalish Mahmud, Zarin Tasnim Biash, Ahmed Ann Noor Ryen, Arman Hossain, Faisal Bin Ashraf ارائه شده است. زمینه اصلی تحقیق آنها در حوزه پردازش زبان طبیعی (Natural Language Processing) و بازیابی اطلاعات (Information Retrieval) است. تمرکز این تیم بر روی استفاده از تکنیکهای هوش مصنوعی برای شناسایی الگوهای آزار و اذیت در متون بنگالی است. با توجه به کمبود منابع و دادهها در این زمینه برای زبان بنگالی، این تحقیق گامی مهم در جهت رفع این کمبود و ارتقای امنیت آنلاین برای کاربران بنگالی زبان به شمار میرود.
چکیده و خلاصه محتوا
این مقاله به جمعآوری و تحلیل یک مجموعهداده متنی بزرگ از نظرات کاربران بنگالیزبان در شبکههای اجتماعی، به ویژه فیسبوک، میپردازد. هدف اصلی این تحقیق، توسعه سیستمی است که بتواند به طور خودکار نظرات توهینآمیز و آزاردهنده را شناسایی کند. نویسندگان با جمعآوری بیش از ۴۴۰۰۰ نظر از صفحات عمومی افراد مشهور، مقامات دولتی و ورزشکاران، یک مجموعهداده ارزشمند ایجاد کردهاند. این نظرات بر اساس نوع آزار و اذیت (مانند توهین، نژادپرستی، تهدید و غیره) دستهبندی شدهاند. علاوه بر جمعآوری دادهها، مقاله به تحلیل اکتشافی دادهها نیز میپردازد تا الگوها و ویژگیهای کلیدی آزار و اذیت آنلاین در زبان بنگالی را شناسایی کند. این تحلیل شامل بررسی توزیع انواع مختلف آزار و اذیت، شناسایی کلمات کلیدی و عبارات توهینآمیز، و تحلیل روابط بین نویسندگان و قربانیان آزار و اذیت است.
روششناسی تحقیق
روششناسی تحقیق شامل چندین مرحله کلیدی است:
- جمعآوری دادهها: جمعآوری نظرات از صفحات عمومی فیسبوک افراد مشهور و مقامات.
- دستهبندی دادهها: برچسبگذاری نظرات بر اساس نوع آزار و اذیت (توهین، تهدید، نژادپرستی و غیره). این مرحله توسط متخصصان زبان و فرهنگ بنگالی انجام شده است تا دقت برچسبگذاری تضمین شود.
- پیشپردازش دادهها: پاکسازی دادهها از حروف و علائم غیرضروری، تبدیل حروف بزرگ به کوچک، و انجام عملیات توکنایزیشن (تبدیل متن به واحدهای کوچکتر مانند کلمات).
- تحلیل اکتشافی دادهها: بررسی توزیع انواع آزار و اذیت، شناسایی کلمات کلیدی، و تحلیل روابط بین نویسندگان و قربانیان. از تکنیکهای آماری و مصورسازی دادهها برای این منظور استفاده شده است.
- آموزش مدلهای یادگیری ماشین: استفاده از الگوریتمهای یادگیری ماشین برای آموزش مدلی که بتواند به طور خودکار نظرات توهینآمیز را شناسایی کند. الگوریتمهای مختلفی مانند ماشینهای بردار پشتیبان (Support Vector Machines – SVM)، شبکههای عصبی مصنوعی (Artificial Neural Networks – ANN) و رگرسیون لجستیک (Logistic Regression) برای این منظور مورد استفاده قرار گرفتهاند.
- ارزیابی مدلها: ارزیابی عملکرد مدلهای آموزشدیده با استفاده از معیارهای مختلف مانند دقت (Accuracy)، صحت (Precision)، فراخوانی (Recall) و امتیاز اف-یک (F1-score).
یافتههای کلیدی
یافتههای کلیدی این تحقیق شامل موارد زیر است:
- شناسایی انواع مختلف آزار و اذیت آنلاین در زبان بنگالی و توزیع آنها. به عنوان مثال، مشخص شد که توهین و تحقیر شایعترین نوع آزار و اذیت در این مجموعه داده است.
- شناسایی کلمات کلیدی و عبارات توهینآمیز که به طور مکرر در نظرات آزاردهنده استفاده میشوند. این کلمات میتوانند به عنوان ویژگیهای مهم برای شناسایی آزار و اذیت توسط مدلهای یادگیری ماشین مورد استفاده قرار گیرند.
- ارائه یک مجموعهداده برچسبگذاری شده و با کیفیت بالا که میتواند برای آموزش و ارزیابی مدلهای شناسایی آزار و اذیت آنلاین مورد استفاده قرار گیرد. این مجموعهداده به عنوان یک منبع ارزشمند برای محققان در این زمینه عمل میکند.
- ارائه یک تحلیل اکتشافی دقیق از ویژگیهای آزار و اذیت آنلاین در زبان بنگالی که میتواند به درک بهتر این پدیده و طراحی راهکارهای مؤثرتر برای مقابله با آن کمک کند.
کاربردها و دستاوردها
این تحقیق دارای کاربردها و دستاوردهای متعددی است:
- توسعه ابزارهای خودکار برای شناسایی آزار و اذیت آنلاین: نتایج این تحقیق میتواند برای توسعه سیستمهای خودکار شناسایی آزار و اذیت آنلاین در شبکههای اجتماعی و سایر پلتفرمهای آنلاین مورد استفاده قرار گیرد. این سیستمها میتوانند به طور خودکار نظرات توهینآمیز را شناسایی و حذف کنند، و از این طریق به ایجاد یک فضای آنلاین امنتر کمک کنند.
- بهبود کیفیت محتوای آنلاین: با شناسایی و حذف نظرات توهینآمیز، میتوان به بهبود کیفیت محتوای آنلاین و ارتقای بحثهای سازنده و محترمانه کمک کرد.
- افزایش آگاهی عمومی: نتایج این تحقیق میتواند برای افزایش آگاهی عمومی در مورد آزار و اذیت آنلاین و تاثیرات منفی آن مورد استفاده قرار گیرد.
- ارائه یک منبع داده ارزشمند برای تحقیقات بیشتر: مجموعهداده ایجاد شده در این تحقیق به عنوان یک منبع ارزشمند برای محققانی که در زمینه پردازش زبان طبیعی و شناسایی آزار و اذیت آنلاین فعالیت میکنند، عمل میکند. این محققان میتوانند از این دادهها برای آموزش و ارزیابی مدلهای خود استفاده کنند و به پیشرفت دانش در این زمینه کمک کنند.
- کمک به سیاستگذاران: یافتههای این پژوهش میتواند به سیاستگذاران کمک کند تا با دید بهتری نسبت به فضای مجازی سیاستگذاری کنند و قوانین مناسبی را برای مقابله با آزار و اذیت آنلاین وضع کنند.
نتیجهگیری
مقاله “مجموعهداده متنی بنگلا و تحلیل اکتشافی برای شناسایی آزار و اذیت آنلاین” یک گام مهم در جهت مقابله با آزار و اذیت آنلاین در زبان بنگالی است. این تحقیق با ارائه یک مجموعهداده با کیفیت بالا و یک تحلیل اکتشافی دقیق، به محققان و توسعهدهندگان این امکان را میدهد تا ابزارهای مؤثرتری برای شناسایی و کاهش آزار و اذیت آنلاین ایجاد کنند. با توجه به اهمیت روزافزون این موضوع، انتظار میرود که این تحقیق نقش مهمی در ارتقای امنیت و کیفیت فضای آنلاین برای کاربران بنگالی زبان ایفا کند. این مقاله در دسترس عموم قرار دارد و در https://data.mendeley.com/datasets/9xjx8twk8p قابل دسترسی است. دسترسی آزاد به این مجموعه داده، خود کمک شایانی به جامعه علمی در زمینه پردازش زبانهای کممنبع میکند.


نقد و بررسیها
هنوز بررسیای ثبت نشده است.