| عنوان مقاله به انگلیسی | Building Trust in Mental Health Chatbots: Safety Metrics and LLM-Based Evaluation Tools |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله ایجاد اعتماد در چتباتهای سلامت روان: معیارهای ایمنی و ابزارهای ارزیابی مبتنی بر LLM |
| نویسندگان | Jung In Park, Mahyar Abbasian, Iman Azimi, Dawn Bounds, Angela Jun, Jaesu Han, Robert McCarron, Jessica Borelli, Jia Li, Mona Mahmoudi, Carmen Wiedenhoeft, Amir Rahmani |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 24 |
| دسته بندی موضوعات | Computation and Language,Artificial Intelligence,Human-Computer Interaction,Machine Learning,محاسبات و زبان , هوش مصنوعی , تعامل انسان و رایانه , یادگیری ماشین , |
| توضیحات | Submitted 3 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال شده در 3 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 960,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Objective: This study aims to develop and validate an evaluation framework to ensure the safety and reliability of mental health chatbots, which are increasingly popular due to their accessibility, human-like interactions, and context-aware support. Materials and Methods: We created an evaluation framework with 100 benchmark questions and ideal responses, and five guideline questions for chatbot responses. This framework, validated by mental health experts, was tested on a GPT-3.5-turbo-based chatbot. Automated evaluation methods explored included large language model (LLM)-based scoring, an agentic approach using real-time data, and embedding models to compare chatbot responses against ground truth standards. Results: The results highlight the importance of guidelines and ground truth for improving LLM evaluation accuracy. The agentic method, dynamically accessing reliable information, demonstrated the best alignment with human assessments. Adherence to a standardized, expert-validated framework significantly enhanced chatbot response safety and reliability. Discussion: Our findings emphasize the need for comprehensive, expert-tailored safety evaluation metrics for mental health chatbots. While LLMs have significant potential, careful implementation is necessary to mitigate risks. The superior performance of the agentic approach underscores the importance of real-time data access in enhancing chatbot reliability. Conclusion: The study validated an evaluation framework for mental health chatbots, proving its effectiveness in improving safety and reliability. Future work should extend evaluations to accuracy, bias, empathy, and privacy to ensure holistic assessment and responsible integration into healthcare. Standardized evaluations will build trust among users and professionals, facilitating broader adoption and improved mental health support through technology.
چکیده به فارسی (ترجمه ماشینی)
هدف: این مطالعه با هدف توسعه و اعتبارسنجی یک چارچوب ارزیابی برای اطمینان از ایمنی و قابلیت اطمینان از سلامت روان ، که به دلیل دسترسی ، تعامل شبیه انسان و پشتیبانی از متن ، به طور فزاینده ای محبوب هستند.مواد و روش ها: ما یک چارچوب ارزیابی با 100 سؤال معیار و پاسخ های ایده آل و پنج سؤال راهنمایی برای پاسخ های chatbot ایجاد کردیم.این چارچوب که توسط کارشناسان بهداشت روان تأیید شده است ، بر روی یک چت بابات مبتنی بر GPT-5.5 توربو مورد آزمایش قرار گرفت.روشهای ارزیابی خودکار مورد بررسی شامل امتیاز دهی مبتنی بر مدل زبان بزرگ (LLM) ، یک رویکرد عامل با استفاده از داده های زمان واقعی و تعبیه مدل ها برای مقایسه پاسخ های chatbot در برابر استانداردهای حقیقت زمین است.نتایج: نتایج اهمیت دستورالعمل ها و حقیقت زمینی را برای بهبود دقت ارزیابی LLM برجسته می کند.روش عامل ، با دسترسی پویا به اطلاعات قابل اعتماد ، بهترین تراز با ارزیابی های انسانی را نشان داد.پایبندی به یک چارچوب استاندارد و معتبر معتبر به طور قابل توجهی ایمنی و قابلیت اطمینان پاسخ چت بابات را افزایش می دهد.بحث و گفتگو: یافته های ما بر لزوم معیارهای جامع و ارزیابی ایمنی با کارشناس برای چت های سلامت روان تأکید می کند.در حالی که LLM ها از پتانسیل قابل توجهی برخوردار هستند ، برای کاهش خطرات ، اجرای دقیق لازم است.عملکرد برتر رویکرد عامل بر اهمیت دسترسی به داده های زمان واقعی در افزایش قابلیت اطمینان Chatbot تأکید می کند.نتیجه گیری: این مطالعه یک چارچوب ارزیابی برای چت های سلامت روان را تأیید کرده و اثربخشی آن در بهبود ایمنی و قابلیت اطمینان را اثبات می کند.کار آینده باید ارزیابی ها را به صحت ، تعصب ، همدلی و حریم خصوصی گسترش دهد تا از ارزیابی جامع و ادغام مسئول در مراقبت های بهداشتی اطمینان حاصل شود.ارزیابی های استاندارد باعث ایجاد اعتماد در بین کاربران و متخصصان ، تسهیل پذیرش گسترده تر و بهبود پشتیبانی سلامت روان از طریق فناوری می شود.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.