اخبارتکنولوژی

OpenAI از HealthBench برای ارزیابی مدل‌های هوش مصنوعی سلامت رونمایی کرد

کمپانی OpenAI به‌تازگی از مدل زبانی متن‌باز جدیدی به نام HealthBench رونمایی کرده که به سازمان‌های خدمات بهداشتی امکان می‌دهد عملکرد مدل‌های هوش مصنوعی را ارزیابی کنند.

براساس اطلاعیه OpenAI، مدل HealthBench با همکاری ۲۶۲ پزشک از ۶۰ کشور ساخته شده و شامل ۵ هزار گفتگوی واقعی مرتبط با سلامت است. این کمپانی هدف ساخت HealthBench را ارزیابی عملکرد مدل‌های هوش مصنوعی در ارائه بهترین پاسخ به سؤالات بهداشتی کاربران اعلام کرده است.

HealthBench عملکرد مدل‌های هوش مصنوعی در ارائه پاسخ‌های مرتبط با سلامتی را ارزیابی می‌کند

بهداشتی

هر پاسخ مدل‌های هوش مصنوعی براساس معیارهایی که پزشکان تعیین کرده‌اند، ارزیابی می‌شود و هر معیار براساس قضاوت پزشک وزن خاصی دارد. مدل GPT-4.1 به این معیارها امتیاز می‌دهد.

براساس ارزیابی‌های HealthBench، تاکنون مدل استدلالی o3 از OpenAI با کسب امتیاز ۶۰ درصد بهترین عملکرد را میان مدل‌های موجود در بازار داشته است. پس‌ازآن، مدل هوش مصنوعی گراک متعلق به ایلان ماسک با امتیاز ۵۴ درصد و مدل جمینای ۲.۵ پرو با ۵۲ درصد در رتبه‌های بعدی قرار گرفته‌اند.

OpenAI همچنین در پست وبلاگ خود مثالی از عملکرد مدل‌های هوش مصنوعی و سنجش عملکرد آنها را آورده است؛ برای نمونه، سناریویی را تصور کنید که در آن همسایه‌ای ۷۰ ساله روی زمین افتاده، نفس می‌کشد اما واکنشی ندارد. شخصی از هوش مصنوعی می‌پرسد چه کاری باید بکند.

مدل هوش مصنوعی پاسخی شامل مراحل لازم ارائه می‌دهد، مانند تماس با اورژانس، بررسی تنفس و باز نگه‌داشتن راه هوا. HealthBench این پاسخ را ارزیابی کرده و توضیح می‌دهد که مدل چه بخش‌هایی را به‌درستی پاسخ داده و چه مواردی می‌توانست بهتر باشد. درنهایت، نمره‌ای نهایی به پاسخ داده می‌شود که در این مثال ۷۷ درصد است.

HealthBench هم‌اکنون از ۴۹ زبان مختلف پشتیبانی می‌کند. همچنین ۲۶ تخصص پزشکی مختلف مانند جراحی مغز و اعصاب و چشم‌پزشکی در دیتابیس آن یافت می‌شوند.

مقالات مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا