OpenAI از HealthBench برای ارزیابی مدل‌های هوش مصنوعی سلامت رونمایی کرد

اردیبهشت 23, 1404

0 1 دقیقه مطالعه کنید

کمپانی OpenAI به‌تازگی از مدل زبانی متن‌باز جدیدی به نام HealthBench رونمایی کرده که به سازمان‌های خدمات بهداشتی امکان می‌دهد عملکرد مدل‌های هوش مصنوعی را ارزیابی کنند.

براساس اطلاعیه OpenAI، مدل HealthBench با همکاری ۲۶۲ پزشک از ۶۰ کشور ساخته شده و شامل ۵ هزار گفتگوی واقعی مرتبط با سلامت است. این کمپانی هدف ساخت HealthBench را ارزیابی عملکرد مدل‌های هوش مصنوعی در ارائه بهترین پاسخ به سؤالات بهداشتی کاربران اعلام کرده است.

HealthBench عملکرد مدل‌های هوش مصنوعی در ارائه پاسخ‌های مرتبط با سلامتی را ارزیابی می‌کند

هر پاسخ مدل‌های هوش مصنوعی براساس معیارهایی که پزشکان تعیین کرده‌اند، ارزیابی می‌شود و هر معیار براساس قضاوت پزشک وزن خاصی دارد. مدل GPT-4.1 به این معیارها امتیاز می‌دهد.

براساس ارزیابی‌های HealthBench، تاکنون مدل استدلالی o3 از OpenAI با کسب امتیاز ۶۰ درصد بهترین عملکرد را میان مدل‌های موجود در بازار داشته است. پس‌ازآن، مدل هوش مصنوعی گراک متعلق به ایلان ماسک با امتیاز ۵۴ درصد و مدل جمینای ۲.۵ پرو با ۵۲ درصد در رتبه‌های بعدی قرار گرفته‌اند.

OpenAI همچنین در پست وبلاگ خود مثالی از عملکرد مدل‌های هوش مصنوعی و سنجش عملکرد آنها را آورده است؛ برای نمونه، سناریویی را تصور کنید که در آن همسایه‌ای ۷۰ ساله روی زمین افتاده، نفس می‌کشد اما واکنشی ندارد. شخصی از هوش مصنوعی می‌پرسد چه کاری باید بکند.

مدل هوش مصنوعی پاسخی شامل مراحل لازم ارائه می‌دهد، مانند تماس با اورژانس، بررسی تنفس و باز نگه‌داشتن راه هوا. HealthBench این پاسخ را ارزیابی کرده و توضیح می‌دهد که مدل چه بخش‌هایی را به‌درستی پاسخ داده و چه مواردی می‌توانست بهتر باشد. درنهایت، نمره‌ای نهایی به پاسخ داده می‌شود که در این مثال ۷۷ درصد است.

HealthBench هم‌اکنون از ۴۹ زبان مختلف پشتیبانی می‌کند. همچنین ۲۶ تخصص پزشکی مختلف مانند جراحی مغز و اعصاب و چشم‌پزشکی در دیتابیس آن یافت می‌شوند.

برچسب ها

اردیبهشت 23, 1404

0 1 دقیقه مطالعه کنید

OpenAI از HealthBench برای ارزیابی مدل‌های هوش مصنوعی سلامت رونمایی کرد

HealthBench عملکرد مدل‌های هوش مصنوعی در ارائه پاسخ‌های مرتبط با سلامتی را ارزیابی می‌کند

دیدگاهتان را بنویسید لغو پاسخ

موج جدید در بازار؛ آلتکوین‌ها پیشتاز رشد در حالی که بیت‌کوین متوقف شده است

امضای قانونی که رمزنگاری را وارد تاریخ کرد: ترامپ و آغاز عصر جدیدی در بازار رمزارزها!

قیمت Ethereum Classic رکورد جدیدی ثبت کرد؛ سرمایه‌گذاران به دنبال رشد ۵۰ دلاری!

بانک‌های ایالات متحده در برابر تهدید 6.6 تریلیون دلاری Stablecoins ایستاده‌اند

مسترکارت از قانون Stablecoins حمایت کرد، اما پشت پول‌های متمرکز نمی‌ایستد!

انفجار تعاملات در شبکه‌های اجتماعی؛ بیت‌کوین و اتریوم پیشتاز محبوبیت در بلاکچین

حرکت بزرگ کریس لارسن؛ میلیون‌ها توکن ریپل راهی بزرگ‌ترین صرافی آمریکا شد

بانک مرکزی فدرال زیر فشار ترامپ؛ مری دالی از کاهش نرخ بهره خبر داد

همکاری Kana Labs و Wallet Ready؛ تجربه بی‌نظیر تعویض توکن‌ها بدون ترک کیف پول

ترامپ از فناوری رمزنگاری برای افزایش آرا در انتخابات حمایت می‌کند!

مایکروسافت از دراگون کوپایلت رونمایی کرد؛ دستیار هوش مصنوعی پزشکان

اپل همین هفته محصول ایر جدیدی معرفی می‌کند؛ مک‌بوک ایر M4 و شاید آیپد ایر جدید

پردازنده اسنپدراگون X2 احتمالاً با حداکثر ۱۸ هسته Oryon V3 عرضه می‌شود

با مهم‌ترین کاربردهای هوش مصنوعی در صنایع مختلف آشنا شوید

کیف پول MytonWallet ارتقا یافت؛ قابلیت‌های جدید در Mini App تلگرام!

گام بزرگ VeChain؛ ثبت اختراع جدید در آمریکا برای تغییر صنعت گواهینامه‌ها!.

HealthBench عملکرد مدل‌های هوش مصنوعی در ارائه پاسخ‌های مرتبط با سلامتی را ارزیابی می‌کند

مقالات مرتبط

قصه «کی کجاس» پس از ۱۰ سال به سر رسید

همراه اول و هلال‌احمر تفاهم‌نامه همکاری امضا کردند

دستیار صوتی جدید ElevenLabs با قابلیت انجام وظایف روزمره منتشر شد [تماشا کنید]

بیماران کلیوی مراقب گرمای تابستان باشند

دیدگاهتان را بنویسید لغو پاسخ

مایکروسافت از دراگون کوپایلت رونمایی کرد؛ دستیار هوش مصنوعی پزشکان

اپل همین هفته محصول ایر جدیدی معرفی می‌کند؛ مک‌بوک ایر M4 و شاید آیپد ایر جدید

پردازنده اسنپدراگون X2 احتمالاً با حداکثر ۱۸ هسته Oryon V3 عرضه می‌شود

با مهم‌ترین کاربردهای هوش مصنوعی در صنایع مختلف آشنا شوید

کیف پول MytonWallet ارتقا یافت؛ قابلیت‌های جدید در Mini App تلگرام!

گام بزرگ VeChain؛ ثبت اختراع جدید در آمریکا برای تغییر صنعت گواهینامه‌ها!.