هشدار OpenAI: هوش مصنوعی هنوز شغل شما را نگرفته، اما دادهها میگویند بهزودی این اتفاق میافتد

یک معیار (Benchmark) جدید از OpenAI نشان میدهد که مدلهایی مانند Claude و GPT-5 در انجام وظایف شغلی واقعی، با متخصصان انسانی برابری میکنند. بخش نگرانکنندهتر ماجرا کجاست؟ این مدلها تنها در ۱۵ ماه، ۳۰۰ درصد بهبود یافتهاند.
نکات کلیدی مقاله
- معیار جدید OpenAI با نام GDPval، مشاغل واقعی مانند تهیه پیشنویسهای حقوقی، کدنویسی و گزارشنویسی را مورد آزمایش قرار داد و دریافت که هوش مصنوعی با سرعتی سرسامآور در حال رسیدن به سطح متخصصان انسانی است.
- مدلهای Claude و GPT-5 در ۴۴ حوزه شغلی، عملکردی بهتر از متخصصان باتجربه داشتند و تنها در کمی بیش از یک سال، سه برابر بهبود یافتهاند.
- این مطالعه نشان میدهد که موج اول تحولات ناشی از هوش مصنوعی، مشاغل دفتری و مبتنی بر دانش را هدف قرار خواهد داد؛ از برنامهنویسان و وکلا گرفته تا روزنامهنگاران.
شرکت OpenAI روز پنجشنبه از GDPval رونمایی کرد؛ معیاری که تلاش میکند بهصورت کیفی ارزیابی کند آیا هوش مصنوعی قادر به انجام شغل واقعی شما هست یا خیر.
این ارزیابیها دیگر سوالات امتحانی فرضی نیستند، بلکه شامل خروجیهای کاری واقعی میشوند: پیشنویسهای حقوقی، طرحهای مهندسی، برنامههای مراقبت پرستاری، گزارشهای مالی — همان کارهایی که با درآمدشان هزینههای زندگی پرداخت میشود. محققان بهطور عمدی بر مشاغلی تمرکز کردهاند که حداقل ۶۰٪ از وظایف آنها مبتنی بر کامپیوتر است؛ نقشهایی که آنها را «عمدتاً دیجیتال» توصیف میکنند.
این محدوده شامل خدمات حرفهای مانند توسعهدهندگان نرمافزار، وکلا، حسابداران و مدیران پروژه میشود. همچنین موقعیتهای مالی و بیمه مانند تحلیلگران و نمایندگان خدمات مشتریان؛ و مشاغل حوزه اطلاعات از روزنامهنگاران و ویراستاران گرفته تا تهیهکنندگان و تکنسینهای صوتی-تصویری را در بر میگیرد. مدیریت خدمات درمانی، مشاغل یقه سفید در بخش تولید و مدیران فروش یا املاک و مستغلات نیز بهطور برجستهای در این لیست حضور دارند.
کدام مشاغل بیشتر در معرض خطر هستند؟
در میان این مجموعه، مشاغلی که بیشترین آسیبپذیری را در برابر هوش مصنوعی دارند، با فعالیتهای دیجیتال و دانشمحوری که مدلهای زبانی بزرگ (LLMs) در حال حاضر بهخوبی از عهده آنها برمیآیند، همپوشانی دارند:
- توسعه نرمافزار، که بزرگترین بخش از دستمزدها را در این مجموعه داده به خود اختصاص میدهد، بهعنوان حوزهای بهشدت آسیبپذیر برجسته شده است.
- مشاغل حقوقی و حسابداری، با اتکای سنگین به اسناد و استدلالهای ساختاریافته، نیز در بالای این فهرست قرار دارند؛ همانند تحلیلگران مالی و نمایندگان خدمات مشتریان.
- نقشهای تولید محتوا — ویراستاران، روزنامهنگاران و سایر فعالان رسانهای — با توجه به تسلط روزافزون هوش مصنوعی بر زبان و تولید محتوای چندرسانهای، با فشارهای مشابهی روبرو هستند.
غیبت مشاغل دستی و فیزیکی در این مطالعه، مرزهای آن را مشخص میکند: GDPval برای اندازهگیری میزان آسیبپذیری در حوزههایی مانند ساختوساز، نگهداری و تعمیرات یا کشاورزی طراحی نشده است. در عوض، این نکته را برجسته میکند که موج اول تحولات disruptive احتمالاً مشاغل یقه سفید و دفتری را هدف قرار خواهد داد — همان مشاغلی که زمانی تصور میشد بیشترین مصونیت را در برابر اتوماسیون دارند.
سرعت پیشرفت: بخش نگرانکننده ماجرا
این گزارش بر پایه مطالعه دو سال پیش OpenAI و دانشگاه پنسیلوانیا بنا شده است که ادعا میکرد تا ۸۰٪ از کارگران آمریکایی ممکن است شاهد تأثیر مدلهای زبانی بزرگ بر حداقل ۱۰٪ از وظایف خود باشند و حدود ۱۹٪ از کارگران نیز ممکن است تأثیر آن را بر حداقل ۵۰٪ از وظایف خود ببینند. مشاغلی که بیشترین تهدید (یا تحول) را تجربه میکنند، مشاغل یقه سفید و دانشمحور هستند — بهویژه در حوزههای حقوق، نویسندگی، تحلیل و تعامل با مشتری.
اما بخش نگرانکننده، آمارهای امروز نیست، بلکه مسیر حرکت و سرعت پیشرفت است. آمارها نشان میدهند که با این سرعت، هوش مصنوعی میتواند تا سال ۲۰۲۷ در تمام زمینهها با متخصصان انسانی برابری کند. این پیشبینی بسیار به استانداردهای هوش مصنوعی عمومی (AGI) نزدیک است و میتواند به این معنا باشد که حتی وظایفی که برای اتوماسیون، غیرایمن یا بیش از حد تخصصی تلقی میشدند، بهزودی در دسترس ماشینها قرار خواهند گرفت و تحولات سریع در محیط کار را تهدید میکنند.
جزئیات معیار GDPval
OpenAI تعداد ۱۳۲۰ وظیفه را در ۴۴ شغل مورد آزمایش قرار داد — نه مشاغل تصادفی، بلکه نقشهایی در ۹ بخشی که بیشترین سهم را در تولید ناخالص داخلی آمریکا دارند. توسعهدهندگان نرمافزار، وکلا، پرستاران، تحلیلگران مالی، روزنامهنگاران، مهندسان: همان افرادی که فکر میکردند مدارک تحصیلیشان آنها را از اتوماسیون مصون نگه میدارد.
هر وظیفه از سوی متخصصانی با میانگین ۱۴ سال سابقه کار ارائه شده بود — نه کارآموزان یا فارغالتحصیلان جدید، بلکه متخصصان باتجربهای که حرفه خود را بهخوبی میشناسند. این وظایف ساده هم نبودند و بهطور متوسط به هفت ساعت کار نیاز داشتند و برخی از آنها هفتهها طول میکشیدند.
طبق گفته OpenAI، مدلها این وظایف را تا ۱۰۰ برابر سریعتر و بهطور قابل توجهی ارزانتر از انسانها در برخی وظایف مبتنی بر API انجام دادند — که البته امری قابل انتظار است و دهههاست که چنین بوده. در وظایف تخصصیتر، بهبود کندتر اما همچنان محسوس بود.
حتی با در نظر گرفتن زمان بازبینی و تکرار کار در مواردی که هوش مصنوعی دچار توهم (Hallucination) میشد و خروجیهای عجیب تولید میکرد، محاسبات اقتصادی بهشدت به نفع اتوماسیون سنگینی میکند.
آیا باید نگران بود؟
اما شاید جای امیدواری باشد: صرفاً به این دلیل که یک شغل در معرض تغییر قرار دارد، به معنای ناپدید شدن آن نیست. ممکن است این مشاغل تقویت شوند (Augmented) نه اینکه جایگزین شوند. برای مثال، وکلا و روزنامهنگاران از مدلهای زبانی بزرگ برای نوشتن سریعتر استفاده میکنند.
و با تمام پیشرفتهای هوش مصنوعی، توهم یا Hallucination همچنان یک مشکل بزرگ برای کسبوکارهاست. این تحقیق نشان میدهد که هوش مصنوعی اغلب در پیروی از دستورالعملها شکست میخورد — ۳۵٪ از شکستهای GPT-5 ناشی از درک نکردن کامل درخواست بوده است. خطاهای قالببندی (Formatting) نیز عامل ۴۰٪ دیگر از شکستها بودند.
مدلها همچنین با همکاری، تعامل با مشتری و هر چیزی که نیازمند پاسخگویی واقعی باشد، مشکل داشتند؛ مواردی که OpenAI آنها را از مطالعه خود حذف کرد. هنوز هیچکس یک هوش مصنوعی را به دلیل قصور حرفهای تحت پیگرد قانونی قرار نداده است. اما برای خروجیهای دیجیتال فردی — گزارشها، ارائهها و تحلیلهایی که بخش عمدهای از روز کاری کارکنان دانشی را تشکیل میدهند — شکاف بهسرعت در حال بسته شدن است.
محدودیتها و چشمانداز آینده
OpenAI اذعان میکند که GDPval امروز تنها تعداد بسیار محدودی از وظایفی را که افراد در مشاغل واقعی خود انجام میدهند، پوشش میدهد. این معیار نمیتواند مهارتهای بینفردی، حضور فیزیکی یا هزاران تصمیم کوچکی را که ارزش یک فرد را فراتر از خروجیهای کاریاش مشخص میکند، اندازهگیری کند.
با این حال، وقتی بانکهای سرمایهگذاری شروع به مقایسه تحلیلهای رقابتی تولیدشده توسط هوش مصنوعی با تحلیلهای تحلیلگران انسانی میکنند، وقتی بیمارستانها برنامههای مراقبت پرستاری هوش مصنوعی را در برابر برنامههای پرستاران باتجربه ارزیابی میکنند، و زمانی که شرکتهای حقوقی پیشنویسهای حقوقی هوش مصنوعی را در مقابل کار دستیاران خود میسنجند — این دیگر یک گمانهزنی نیست. این یک اندازهگیری واقعی است.



