اخبار

هشدار OpenAI: هوش مصنوعی هنوز شغل شما را نگرفته، اما داده‌ها می‌گویند به‌زودی این اتفاق می‌افتد

یک معیار (Benchmark) جدید از OpenAI نشان می‌دهد که مدل‌هایی مانند Claude و GPT-5 در انجام وظایف شغلی واقعی، با متخصصان انسانی برابری می‌کنند. بخش نگران‌کننده‌تر ماجرا کجاست؟ این مدل‌ها تنها در ۱۵ ماه، ۳۰۰ درصد بهبود یافته‌اند.

نکات کلیدی مقاله

  • معیار جدید OpenAI با نام GDPval، مشاغل واقعی مانند تهیه پیش‌نویس‌های حقوقی، کدنویسی و گزارش‌نویسی را مورد آزمایش قرار داد و دریافت که هوش مصنوعی با سرعتی سرسام‌آور در حال رسیدن به سطح متخصصان انسانی است.
  • مدل‌های Claude و GPT-5 در ۴۴ حوزه شغلی، عملکردی بهتر از متخصصان باتجربه داشتند و تنها در کمی بیش از یک سال، سه برابر بهبود یافته‌اند.
  • این مطالعه نشان می‌دهد که موج اول تحولات ناشی از هوش مصنوعی، مشاغل دفتری و مبتنی بر دانش را هدف قرار خواهد داد؛ از برنامه‌نویسان و وکلا گرفته تا روزنامه‌نگاران.

شرکت OpenAI روز پنجشنبه از GDPval رونمایی کرد؛ معیاری که تلاش می‌کند به‌صورت کیفی ارزیابی کند آیا هوش مصنوعی قادر به انجام شغل واقعی شما هست یا خیر.

این ارزیابی‌ها دیگر سوالات امتحانی فرضی نیستند، بلکه شامل خروجی‌های کاری واقعی می‌شوند: پیش‌نویس‌های حقوقی، طرح‌های مهندسی، برنامه‌های مراقبت پرستاری، گزارش‌های مالی — همان کارهایی که با درآمدشان هزینه‌های زندگی پرداخت می‌شود. محققان به‌طور عمدی بر مشاغلی تمرکز کرده‌اند که حداقل ۶۰٪ از وظایف آن‌ها مبتنی بر کامپیوتر است؛ نقش‌هایی که آن‌ها را «عمدتاً دیجیتال» توصیف می‌کنند.

این محدوده شامل خدمات حرفه‌ای مانند توسعه‌دهندگان نرم‌افزار، وکلا، حسابداران و مدیران پروژه می‌شود. همچنین موقعیت‌های مالی و بیمه مانند تحلیلگران و نمایندگان خدمات مشتریان؛ و مشاغل حوزه اطلاعات از روزنامه‌نگاران و ویراستاران گرفته تا تهیه‌کنندگان و تکنسین‌های صوتی-تصویری را در بر می‌گیرد. مدیریت خدمات درمانی، مشاغل یقه سفید در بخش تولید و مدیران فروش یا املاک و مستغلات نیز به‌طور برجسته‌ای در این لیست حضور دارند.

کدام مشاغل بیشتر در معرض خطر هستند؟

در میان این مجموعه، مشاغلی که بیشترین آسیب‌پذیری را در برابر هوش مصنوعی دارند، با فعالیت‌های دیجیتال و دانش‌محوری که مدل‌های زبانی بزرگ (LLMs) در حال حاضر به‌خوبی از عهده آن‌ها برمی‌آیند، هم‌پوشانی دارند:

  • توسعه نرم‌افزار، که بزرگ‌ترین بخش از دستمزدها را در این مجموعه داده به خود اختصاص می‌دهد، به‌عنوان حوزه‌ای به‌شدت آسیب‌پذیر برجسته شده است.
  • مشاغل حقوقی و حسابداری، با اتکای سنگین به اسناد و استدلال‌های ساختاریافته، نیز در بالای این فهرست قرار دارند؛ همانند تحلیلگران مالی و نمایندگان خدمات مشتریان.
  • نقش‌های تولید محتوا — ویراستاران، روزنامه‌نگاران و سایر فعالان رسانه‌ای — با توجه به تسلط روزافزون هوش مصنوعی بر زبان و تولید محتوای چندرسانه‌ای، با فشارهای مشابهی روبرو هستند.

غیبت مشاغل دستی و فیزیکی در این مطالعه، مرزهای آن را مشخص می‌کند: GDPval برای اندازه‌گیری میزان آسیب‌پذیری در حوزه‌هایی مانند ساخت‌وساز، نگهداری و تعمیرات یا کشاورزی طراحی نشده است. در عوض، این نکته را برجسته می‌کند که موج اول تحولات disruptive احتمالاً مشاغل یقه سفید و دفتری را هدف قرار خواهد داد — همان مشاغلی که زمانی تصور می‌شد بیشترین مصونیت را در برابر اتوماسیون دارند.

سرعت پیشرفت: بخش نگران‌کننده ماجرا

این گزارش بر پایه مطالعه دو سال پیش OpenAI و دانشگاه پنسیلوانیا بنا شده است که ادعا می‌کرد تا ۸۰٪ از کارگران آمریکایی ممکن است شاهد تأثیر مدل‌های زبانی بزرگ بر حداقل ۱۰٪ از وظایف خود باشند و حدود ۱۹٪ از کارگران نیز ممکن است تأثیر آن را بر حداقل ۵۰٪ از وظایف خود ببینند. مشاغلی که بیشترین تهدید (یا تحول) را تجربه می‌کنند، مشاغل یقه سفید و دانش‌محور هستند — به‌ویژه در حوزه‌های حقوق، نویسندگی، تحلیل و تعامل با مشتری.

اما بخش نگران‌کننده، آمارهای امروز نیست، بلکه مسیر حرکت و سرعت پیشرفت است. آمارها نشان می‌دهند که با این سرعت، هوش مصنوعی می‌تواند تا سال ۲۰۲۷ در تمام زمینه‌ها با متخصصان انسانی برابری کند. این پیش‌بینی بسیار به استانداردهای هوش مصنوعی عمومی (AGI) نزدیک است و می‌تواند به این معنا باشد که حتی وظایفی که برای اتوماسیون، غیرایمن یا بیش از حد تخصصی تلقی می‌شدند، به‌زودی در دسترس ماشین‌ها قرار خواهند گرفت و تحولات سریع در محیط کار را تهدید می‌کنند.

جزئیات معیار GDPval

OpenAI تعداد ۱۳۲۰ وظیفه را در ۴۴ شغل مورد آزمایش قرار داد — نه مشاغل تصادفی، بلکه نقش‌هایی در ۹ بخشی که بیشترین سهم را در تولید ناخالص داخلی آمریکا دارند. توسعه‌دهندگان نرم‌افزار، وکلا، پرستاران، تحلیلگران مالی، روزنامه‌نگاران، مهندسان: همان افرادی که فکر می‌کردند مدارک تحصیلی‌شان آن‌ها را از اتوماسیون مصون نگه می‌دارد.

هر وظیفه از سوی متخصصانی با میانگین ۱۴ سال سابقه کار ارائه شده بود — نه کارآموزان یا فارغ‌التحصیلان جدید، بلکه متخصصان باتجربه‌ای که حرفه خود را به‌خوبی می‌شناسند. این وظایف ساده هم نبودند و به‌طور متوسط به هفت ساعت کار نیاز داشتند و برخی از آن‌ها هفته‌ها طول می‌کشیدند.

طبق گفته OpenAI، مدل‌ها این وظایف را تا ۱۰۰ برابر سریع‌تر و به‌طور قابل توجهی ارزان‌تر از انسان‌ها در برخی وظایف مبتنی بر API انجام دادند — که البته امری قابل انتظار است و دهه‌هاست که چنین بوده. در وظایف تخصصی‌تر، بهبود کندتر اما همچنان محسوس بود.

حتی با در نظر گرفتن زمان بازبینی و تکرار کار در مواردی که هوش مصنوعی دچار توهم (Hallucination) می‌شد و خروجی‌های عجیب تولید می‌کرد، محاسبات اقتصادی به‌شدت به نفع اتوماسیون سنگینی می‌کند.

آیا باید نگران بود؟

اما شاید جای امیدواری باشد: صرفاً به این دلیل که یک شغل در معرض تغییر قرار دارد، به معنای ناپدید شدن آن نیست. ممکن است این مشاغل تقویت شوند (Augmented) نه اینکه جایگزین شوند. برای مثال، وکلا و روزنامه‌نگاران از مدل‌های زبانی بزرگ برای نوشتن سریع‌تر استفاده می‌کنند.

و با تمام پیشرفت‌های هوش مصنوعی، توهم یا Hallucination همچنان یک مشکل بزرگ برای کسب‌وکارهاست. این تحقیق نشان می‌دهد که هوش مصنوعی اغلب در پیروی از دستورالعمل‌ها شکست می‌خورد — ۳۵٪ از شکست‌های GPT-5 ناشی از درک نکردن کامل درخواست بوده است. خطاهای قالب‌بندی (Formatting) نیز عامل ۴۰٪ دیگر از شکست‌ها بودند.

مدل‌ها همچنین با همکاری، تعامل با مشتری و هر چیزی که نیازمند پاسخگویی واقعی باشد، مشکل داشتند؛ مواردی که OpenAI آن‌ها را از مطالعه خود حذف کرد. هنوز هیچ‌کس یک هوش مصنوعی را به دلیل قصور حرفه‌ای تحت پیگرد قانونی قرار نداده است. اما برای خروجی‌های دیجیتال فردی — گزارش‌ها، ارائه‌ها و تحلیل‌هایی که بخش عمده‌ای از روز کاری کارکنان دانشی را تشکیل می‌دهند — شکاف به‌سرعت در حال بسته شدن است.

محدودیت‌ها و چشم‌انداز آینده

OpenAI اذعان می‌کند که GDPval امروز تنها تعداد بسیار محدودی از وظایفی را که افراد در مشاغل واقعی خود انجام می‌دهند، پوشش می‌دهد. این معیار نمی‌تواند مهارت‌های بین‌فردی، حضور فیزیکی یا هزاران تصمیم کوچکی را که ارزش یک فرد را فراتر از خروجی‌های کاری‌اش مشخص می‌کند، اندازه‌گیری کند.

با این حال، وقتی بانک‌های سرمایه‌گذاری شروع به مقایسه تحلیل‌های رقابتی تولیدشده توسط هوش مصنوعی با تحلیل‌های تحلیلگران انسانی می‌کنند، وقتی بیمارستان‌ها برنامه‌های مراقبت پرستاری هوش مصنوعی را در برابر برنامه‌های پرستاران باتجربه ارزیابی می‌کنند، و زمانی که شرکت‌های حقوقی پیش‌نویس‌های حقوقی هوش مصنوعی را در مقابل کار دستیاران خود می‌سنجند — این دیگر یک گمانه‌زنی نیست. این یک اندازه‌گیری واقعی است.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا