OpenAI, Bazı İşlerde İnsan ve Yapay Zekâ Performansını Kıyasladı: Bazı Sektörler Risk Altında!

Yapay zekâ sektörünün öncü isimlerinden OpenAI, yapay zekâ modellerini gerçek dünyadaki mesleklerle kıyaslamak için GDPval adını verdiği yeni bir değerlendirme sistemi geliştirdi. Bu sistem, yazılım mühendisliğinden pazarlamaya kadar farklı alanlarda görevleri test ederek yapay zekânın insan uzmanlarla ne kadar rekabet edebildiğini ortaya koyuyor.

OpenAI’ın yayımladığı makale, GDPval ile gerçekleştirilen ilk testlerin oldukça çarpıcı olduğunu gözler önüne seriyor. Çünkü elde edilen sonuçlara göre yapay zekâ teknolojileri, bazı sektörlerde insanlara yetişti. Bazılarında ise insanların geride kalmaya başladığını görüyoruz.

Sonuçlara geçmeden önce: GDPval nedir ve nasıl çalışıyor?

Başlıksız-1

GDPval, adını Gayri Safi Yurtiçi Hasıla (GDP) kavramından alıyor ve temel amacı, yapay zekâ modellerinin ekonomik değeri olan görevlerdeki performansını ölçmek. Sistem, farklı sektörlerden seçilen 44 meslek ve toplam 1.320 görev üzerine kurulmuş durumda. Hâl böyle olunca GDPval için oldukça kapsamlı bir çalışma diyebiliriz.

Test, modellerin ürettiği çıktılar aynı meslekten deneyimli uzmanların işleriyle karşılaştırılıyor. Uzman hakemler de elde edilen bulguları daha iyi, eşit ya da daha kötü şeklinde puanlıyor. Böylece modellerin yalnızca teorik değil, gerçek iş dünyasında da insan performansına ne kadar yaklaştığı ölçülmüş oluyor.

Gelelim sonuçlara: Yapay zekâ hangi alanlarda insanlara yetişti veya geçti?

Başlıksız-1

GDPval erken sonuçlarına göre yapay zekâ özellikle yazılım mühendisliği, iş analizi ve pazarlama içerikleri gibi alanlarda dikkat çekici bir performans sergiledi. Kod hatalarının tespiti, yazılım planlaması veya rapor hazırlama gibi teknik görevlerde insan mühendislerle neredeyse aynı seviyede sonuçlar verdi.

Ayrıca pazarlama metinleri, sunum slaytları veya müşteri iletişim senaryolarında çoğu zaman insanın ürettiği içeriklerle yarıştı. Bazı örneklerde daha hızlı ve uygun maliyetli çıktılar sundu. Bu durum, yapay zekânın yalnızca hız değil, kalite açısından da rekabetçi bir seviyeye ulaştığı olarak yorumlandı.

Başlıksız-1

Ancak yapay zekâ, kritik alanlarda hâlâ güven vermiyor. Özellikle tıp ve sağlık hizmetleri, insan hayatını doğrudan etkilediği için yüksek hassasiyet gerektiriyor. Yapay zekânın burada yaptığı en ufak hata bile ciddi sonuçlar doğurabileceğinden, modellerin bağımsız olarak kullanılmaları mümkün değil.

Öte yandan, mühendislikte güvenlik odaklı işler ya da yüksek riskli hukuki kararlar gibi alanlarda da yapay zekâ hâlâ geri planda. GDPval testleri, bu görevlerde insan uzmanların çok daha tutarlı, güvenilir ve bağlama uygun çıktılar üretebildiğini ortaya koyuyor.

Başlıksız-1

GDPval, yapay zekânın yalnızca laboratuvar ortamında değil, gerçek dünyada da insan performansına yaklaşmaya başladığını ortaya koydu. Ancak bu demek olmuyor ki yapay zekâ, çok yakında insanları işsiz bırakacak. Özellikle de sağlık, hukuk ve güvenlik kritik işler söz konusu olduğunda insanlar, iş dünyası için vazgeçilmez.

OpenAI’dan Yeni Sabah Asistanı: ChatGPT Pulse Tanıtıldı

Sonuçlara geçmeden önce: GDPval nedir ve nasıl çalışıyor?

Gelelim sonuçlara: Yapay zekâ hangi alanlarda insanlara yetişti veya geçti?

Dijital medyanın tüm alanlarında uzman ekibimizle yanınızdayız. Sky Yapım: İşinizi gökyüzüne çıkaran ajans!

Sayfalar

Sosyal Medya