Öz
Amaç
Bu çalışma, Türkiye genelinde yapılan oftalmoloji asistan eğitim sınavlarında ChatGPT’nin yıl bazında gösterdiği başarı değişimini, aynı dönemde asistanların gösterdiği başarı değişimiyle karşılaştırmayı amaçlamaktadır.
Gereç ve Yöntem
Bu gözlemsel çalışmaya, Türk Oftalmoloji Yeterlilik Kurulu tarafından 2023 ve 2024 yıllarında düzenlenen Uzmanlık Eğitim Gelişim Sınavı’na her iki yılda da katılan oftalmoloji asistanları dâhil edilmiştir. 2023 sınavı 69 tek doğru yanıtlı çoktan seçmeli sorudan oluşmakta olup ChatGPT-3.5’e sorulmuştur. 2024 sınavı ise 72 sorudan oluşmakta olup ChatGPT-4o’ya sorulmuştur. Her iki sınava katılan asistanlar ile ChatGPT’nin başarı yüzdeleri karşılaştırılmıştır.
Bulgular
ChatGPT’nin doğruluk oranı 2023’te %53,6 iken 2024’te %84,7’ye yükselmiştir. Her iki yılda da sınava katılan toplam 501 asistanın ortalama puanı %48,2’den %53,1’e çıkmıştır. ChatGPT, 2023 yılında 292. sırada yer alırken 2024’te birinci olmuştur. Başarı yüzdesindeki artışa göre sıralandığında ChatGPT-4o genel sıralamada 8. olmuştur. ChatGPT açısından en büyük gelişim şaşılık(%75 artış), nöro-oftalmoloji (%40 artış) ve optik (%40 artış) alanlarında görülmüştür. Asistanlar arasında en fazla gelişim oküloplasti alanında (%33,5 artış) olurken, kornea ve oküler yüzey alanında %4,1 oranında bir düşüş gözlenmiştir.
Sonuç
ChatGPT-4o, selefiyle karşılaştırıldığında oftalmoloji sorularında belirgin bir başarı artışı göstermiştir; buna karşın, asistanların öğrenme süreci daha kademeli ilerlemiştir. ChatGPT’deki bu hızlı gelişim, yapay öğrenmenin belirli sınırlar içinde çok hızlı ilerleyebileceğini ortaya koymaktadır. Buna karşılık insan öğrenmesi daha derinlikli ve zaman gerektiren bir süreçtir. Elde edilen sonuçlar, gelişen büyük dil modellerinin tıp eğitimi ve klinik karar destek sistemlerinde giderek daha önemli roller üstleneceğini göstermektedir.
Giriş
OpenAI tarafından geliştirilen ChatGPT gibi büyük dil modelleri, insan benzeri yanıtlar üretebilme yeteneğine sahip, ileri düzey yapay zekâ sistemleridir ve doğal dil işleme tekniklerini temel alarak çalışmaktadır. Bu modeller, üretici ön eğitimli dönüştürücü (“Generative Pre-trained Transformer”; GPT) mimarisi üzerine inşa edilmiş olup, oldukça geniş ve çeşitli metin veri kümeleri üzerinde eğitilerek bağlamsal olarak tutarlı ve anlamlı yanıtlar üretebilme kapasitesine ulaşmışlardır. ChatGPT-3.5 ve ChatGPT-4.0 gibi önceki sürümler, doğal dil anlama alanında önemli ilerlemeler sağlamış olsa da, 13 Mayıs 2024 tarihinde kullanıma sunulan ChatGPT-4o, dilsel doğruluk ve etkileşimsel performans açısından önceki sürümlere kıyasla kayda değer bir gelişim göstermektedir.1 Tıbbi, eğitsel ve akademik bağlamlardaki yetkinliklerinin artmasıyla birlikte ChatGPT, yüksek doğruluk ve yanıt verebilirlik düzeyi sergilemektedir.2 Bununla birlikte, özellikle tıp alanındaki yanıtlarının, hem sağlık profesyonelleri hem de hastalar açısından klinik güvenilirliğinin sağlanabilmesi için sürekli olarak değerlendirilmesi gerekmektedir.
Tıp alanında ChatGPT’nin hızla artan popülaritesi, sağlıkla ilişkili çeşitli görevlerdeki işlevselliğini değerlendirme yönünde artan bir ilgiye yol açmıştır. Oftalmoloji alanında yapılan araştırmalar, ChatGPT’nin alt uzmanlık alanlarına yönelik sorulara verdiği yanıtların doğruluğunu inceleyerek, bu yapay zekâ modelinin tamamlayıcı bir eğitim aracı olarak kullanılabileceğine dair önemli bulgular sunmuştur.3, 4, 5 Ayrıca, kornea ülseri, katarakt yönetimi ve retinal patolojiler gibi klinik senaryolarda oftalmolojik durumları yorumlama ve yönetme yeteneği de araştırılmıştır.6, 7, 8 ChatGPT, yalnızca tanı koymada değil, aynı zamanda tıbbi raporların hazırlanması gibi belgeleme süreçlerinde ve karmaşık oftalmolojik bilgilerin daha anlaşılır ve erişilebilir eğitim içeriklerine dönüştürülmesinde de yardımcı olabilecek bir araç olarak dikkat çekmektedir.9
Bu çalışmada, art arda iki yıl benzer formatta uygulanan asistanlara yönelik oftalmoloji sınavında hem iki yıl üst üste sınava giren asistanların hem de ChatGPT’nin bilgi düzeyi ve performansını değerlendirmeyi; ayrıca iki grubun başarı değişimlerini birbirleriyle karşılaştırmayı amaçladık.
Gereç ve Yöntem
26 Mayıs 2023 tarihinde, Türk Oftalmoloji Derneği Yeterlik Kurulu tarafından “Uzmanlık Eğitimi Gelişim Sınavı”nın üçüncüsü gerçekleştirildi. Önceki çalışmamızda, bu sınavın sorularını ChatGPT’nin önceki sürümü olan ChatGPT-3.5’e yanıtlatmış ve performansını sınava ülke çapında katılan oftalmoloji asistanlarının sonuçlarıyla karşılaştırmıştık.10 Bir yıl sonra, 31 Mayıs 2024 tarihinde “Asistan Eğitimi Gelişim Sınavı”nın dördüncüsü gerçekleştirildi. Türkiye genelindeki 80 eğitim merkezinden toplam 1.013 oftalmoloji asistanı bu sınava katıldı. Sınav soruları, ChatGPT’nin en güncel sürümü olan ChatGPT-4o’ya soruldu. Önceki yıl yapılan sınavla karşılaştırma yapılabilmesini sağlamak amacıyla, çalışmaya yalnızca her iki yıl da sınava katılmış olan asistanlar dahil edildi. Asistanlar, 2024 sınav tarihi itibarıyla eğitim sürelerine göre yıllara ayrılarak gruplandırıldı.
Her iki sınav, Türk Oftalmoloji Derneği Yeterlik Kurulu tarafından aynı alt uzmanlık alanlarını kapsayacak şekilde ve benzer bilişsel zorluk düzeyinde hazırlanmıştır. Her sınavda toplam 75 soru yer almış; her iki yılda da tek bir doğru cevabı çoktan seçmeli sorular dışındaki sorular çalışma dışında bırakılmıştır. Böylece değerlendirme 2023 yılı için 69, 2024 yılı için 72 geçerli soru üzerinden yapılmıştır. 2023 ve 2024 yıllarında sorulan soruların branşlara göre dağılımı sırasıyla Tablo 1 ve Tablo 2’de verilmiştir.
Sorular İngilizce’ye çevrildikten sonra, ChatGPT-4o’nun (model tanımlayıcısı: gpt-4o-2024-05-13) internet sitesindeki (https://chat.openai.com) resmî web arayüzü kullanılarak 21 Mart 2025 tarihinde bireysel oturumlarda yöneltildi. Her soru için sistem geçmişi sıfırlandı. Görsel veya grafiksel içerik içeren soru bulunmadığından, ek bir metinleştirme ya da tanımlama süreci uygulanmamıştır. Büyük dil modellerinin sürekli güncellenen yapısının sonuçlar üzerindeki etkisini önlemek amacıyla, her soruya şu yönerge eşlik etti: “Answer the following question using the knowledge available as of May 31, 2024.”
ChatGPT-4o’nun her bir soru için verdiği yanıtlar ve açıklamalar kaydedildi. Her bir yanıt, önceden belirlenmiş cevap anahtarına göre doğru ya da yanlış olarak değerlendirildi. Hem asistanlar hem de ChatGPT-4o, doğru yanıt sayısına göre 100 üzerinden puanlandırıldı. Ayrıca, doğru yanıt sayısına göre bir sıralama oluşturuldu. Hem her iki yıl da sınava giren asistanlar hem de ChatGPT için genel ve yan dal bazında performans değişimleri analiz edildi. ChatGPT ve asistanlar arasında sıralama yapılırken her yılın kendi katılımcı popülasyonu temelinde hesaplama yapıldı. Yıllar arası performans farkları, her iki sınava da katılan 501 asistanın ortalama doğruluk oranları üzerinden değerlendirilmiştir.
Katılımcı bilgileri anonimleştirildiği ve herhangi bir kişisel veri kullanılmadığı için etik kurul onayı alınmadı.
İstatistiksel Analiz
İstatistiksel analizler SPSS Version 26 (IBM, Armonk, NY, ABD) programı kullanılarak gerçekleştirildi. Verilerin dağılımını ve normalliğini değerlendirmek için Kolmogorov-Smirnov testi uygulandı. Asistanlara ait veriler bireysel bazda değil, 501 asistanın ortalama doğruluk oranı üzerinden değerlendirilmiştir. ChatGPT ile asistan grubu arasındaki karşılaştırmalar istatistiksel test düzeyinde değil, tanımlayıcı olarak yapılmıştır. ChatGPT tek bir model çıktısı sunduğundan varyasyon hesaplanmamış, farklar yalnızca yüzdelik doğruluk oranları üzerinden karşılaştırılmıştır. Sürekli değişkenler, ortalama ± standart sapma ve minimum-maksimum değerler şeklinde sunuldu. Asistanların 2023 ve 2024 sınavları arasındaki genel ve yan dal bazlı doğru cevap yüzdelerindeki değişimi analiz etmek için Wilcoxon işaretli sıralar testi kullanıldı. Asistan katılımcı grubuna ve ChatGPT modellerine ait doğruluk oranları için %95 güven aralıkları (GA) hesaplandı. Yan dallara ait karşılaştırmalarda tip I hata olasılığını azaltmak amacıyla Bonferroni düzeltmesi yapıldı ve anlamlılık düzeyi p<0,005 olarak belirlendi.
Bulgular
Her iki yıl da sınava katılan toplam asistan sayısı 501 idi. 2024 yılı itibarıyla eğitim süresine göre dağılım incelendiğinde, 249 asistanın 12 ila 23 ay, 132 asistanın 24 ila 35 ay ve 120 asistanın 36 ay ve üzeri deneyime sahip olduğu görüldü. Asistanların ortalama eğitim süresi 28,4±10,6 ay (13-64 ay aralığında) olarak hesaplandı. 2024 sınavında her iki yıl da sınava katılan asistanlar, 72 sorudan ortalama 38,2±8,5’ini doğru yanıtlayarak %53,1’lik (%95 GA: %52,2-%54,0) bir başarı oranı elde etti. İkinci yıl asistanları ortalama 35,1±7,1 doğru cevapla %48,8 (95% GA: %47,5-%50,1), üçüncü yıl asistanları 39,4±8,9 doğru cevapla %54,8 (%95 GA: %53,3-%56,3) ve dördüncü yıl asistanları ise 43,3±7,8 doğru cevapla %60,1 (%95 GA: %58,7-%61,5) başarı oranına ulaştı. Buna karşılık, ChatGPT-4o 72 sorunun 61’ine doğru yanıt vererek %84,7 (%95 GA: %74,7-%91,3) doğruluk oranı elde etti. 2023 sınavında ChatGPT-3.5, doğru cevap sayısına göre 292. sırada yer alırken; 2024 sınavında ChatGPT-4o, tüm asistanlardan daha yüksek bir puan elde etti. Her iki yıl da sınava katılan asistanların ve ChatGPT-3.5’in 2023 yılına ait alt uzmanlık alanlarına göre ortalama doğru cevap sayıları Tablo 1’de, aynı asistanların ve ChatGPT-4o’nun 2024 yılına ait ortalamaları ise Tablo 2’de sunulmuştur.
Asistanlar, önceki yıla kıyasla çoğu yan dalda doğru cevap yüzdelerinde genel bir artış göstermiş olsa da bu artış nöro-oftalmoloji alanında istatistiksel olarak anlamlı bulunmamıştır (p=0,655). Asistanların performansının azaldığı tek yan dal kornea ve oküler yüzey hastalıkları olup, bu düşüş istatistiksel olarak anlamlıydı (p<0,001). Buna karşılık, ChatGPT tüm yan dallarda doğru cevap yüzdesini artırmıştır. Önceki yıla göre ChatGPT’nin doğru cevap yüzdesi %30,4 oranında artış göstermiştir. İki yıl da sınava giren tüm asistanlar ve ChatGPT, doğru cevap yüzdesindeki artışa göre sıralandığında, ChatGPT listenin 8. sırasında yer almıştır. İki sınav arasındaki doğru cevap yüzdesindeki değişimler Tablo 3’te özetlenmiştir.
Tartışma
Bu çalışma, Türkiye’de art arda iki yıl ulusal düzeyde gerçekleştirilen asistanlık eğitim sınavları temelinde, oftalmoloji asistanları ile bir büyük dil modelinin yıl bazında performans değişimini ve başarı düzeylerindeki ilerlemeyi değerlendirmeyi amaçlamıştır. Bu yönüyle, doğal öğrenme ile yapay öğrenme arasındaki karşılaştırmayı ortaya koymayı hedeflemiştir. Bulgularımız, 2023 ile 2024 yılları arasında asistanların ortalama performansının çoğu yan dalda artış gösterdiğini; buna karşın ChatGPT-4o’nun, selefi ChatGPT-3.5’e kıyasla tüm alanlarda tutarlı bir gelişim sergilediğini ve 2024 sınavında tüm insan katılımcıların üzerinde bir başarı elde ettiğini ortaya koymaktadır.
Sağlık alanında yapay zekânın yaygın şekilde benimsenmesi hem hastalar hem de sağlık profesyonelleri arasında bu araçlara tıbbi bilgi edinme ve eğitim desteği sağlama amacıyla artan bir yönelime yol açmıştır.11, 12 Kullanımları özellikle ChatGPT-4o gibi ileri düzey büyük dil modelleri aracılığıyla giderek yaygınlaştıkça, bu sistemlerin ürettiği yanıtların güvenilirliğini ve bilimsel doğruluğunu değerlendirmek her zamankinden daha önemli hale gelmektedir. Hızlı ve erişilebilir bilgi sunma avantajına sahip olsalar da, klinik karar verme süreçleri ve tıp eğitimi üzerindeki potansiyel etkileri, bu sistemlerin alanına özgü, kanıta dayalı sorulara verdikleri yanıtların titizlikle değerlendirilmesini gerekli kılmaktadır.
Yapay zekâ, sürekli gelişen ve öğrenen bir yapıya sahiptir. Göz içi lenslerle ilgili aynı sorular ChatGPT-4.0’a altı ay arayla sorulduğunda, yanıtlarının doğruluk oranının arttığı bildirilmiştir.13 Tıbbi soruların sorulduğu bir başka çalışmada ise, ChatGPT tarafından başlangıçta yanlış yanıtlanan sorular belirli bir süre sonra tekrar sorulduğunda, modelin bu soruların çoğuna doğru yanıt verdiği bildirilmiştir.14
İnsan öğrenmesi deneyim, düşünme ve bağlamla şekillenen kademeli bir süreçken; ChatGPT gibi büyük dil modelleri, bilgiyi dönemsel olarak gerçekleştirilen geniş ölçekli yeniden eğitim döngüleri aracılığıyla edinir.15 ChatGPT-4o gibi her yeni sürüm, giderek daha çeşitli, güncel ve alana özgü veri setlerinden elde edilen bilgilerle geliştirilen aşamalı bir ilerlemeyi yansıtır. Bu süreç, bilgi doğruluğu ve işlevsel başarı açısından hızlı ve etkili gelişmelere olanak tanır. Ancak bu gelişim, insan öğrenmesinde yer alan süreklilik, etik muhakeme ve deneyime dayalı derinlik gibi özellikleri taşımaz.16 Buna karşılık, insanlar daha yavaş fakat çok daha bütüncül bir öğrenme sürecinden geçer. Bilgi yalnızca biçimsel eğitimle edinilmez; aynı zamanda deneme-yanılma, duygusal bağlam ve sosyal etkileşim yoluyla da şekillenir.17 Özellikle tıp eğitiminde, bu tür öğrenme süreci klinik yargı, empati ve uyum yeteneği gibi nitelikleri geliştirir; bu özellikler ise günümüzdeki yapay zekâ sistemlerinin erişemediği alanlar arasında yer almaktadır.18
Büyük dil modelleri ile insanların oftalmolojiyle ilgili sorulardaki performansı, daha önce yapılan çalışmalarda da karşılaştırılmıştır.19, 20 2020 ile 2023 yılları arasındaki oftalmoloji uzmanlık sınavı sorularının kullanıldığı başka bir çalışmada, büyük dil modellerinin doğruluk oranlarının dört yıl boyunca anlamlı bir değişim göstermediği bildirilmiştir.21 Soruların büyük dil modellerine ne zaman yöneltildiği tam olarak belirtilmemiş olsa da, eğer tüm sorular yaklaşık olarak aynı dönemde sorulduysa, sınav yılları farklı olsa bile doğruluk oranlarının benzer kalması beklenir.21 Taloni ve ark.22 tarafından yapılan ve Amerikan Oftalmoloji Akademisi’ne ait BCSC soru setinden alınan 1.023 sorunun kullanıldığı çalışmada, ChatGPT-4.0 selefi ChatGPT-3.5’ten daha iyi performans göstermiştir. İnsan katılımcılar ise genel performans sıralamasında ikinci sırada yer almıştır. Benzer şekilde, Maino ve ark.23 tarafından yapılan bir çalışmada, Avrupa Oftalmoloji Boardu Diploma Sınavı’nda daha önce uygulanmış 440 çoktan seçmeli soru değerlendirilmiş ve oftalmoloji asistanlarının ChatGPT-3.5’e kıyasla daha yüksek performans gösterdiği, ancak ChatGPT-4o’nun asistanlara kıyasla daha yüksek doğruluk oranı gösterdiği bildirilmiştir.
Bulgularımız genel olarak bu çalışmalarla uyumlu olmakla birlikte, önemli bir fark çalışma dizaynında ortaya çıkmaktadır. Önceki çalışmalar kesitsel bir değerlendirme yaklaşımı benimserken, bizim çalışmamız aynı asistan grubuna bir yıl arayla uygulanan benzer formatta iki ulusal sınav üzerinden yürütülmüş ve böylece zaman içindeki değişimi gözlemleme olanağı sağlamıştır. Ayrıca, yalnızca insan öğrenmesinin zaman içindeki gelişimini değil, aynı büyük dil modelinin ardışık sürümleri arasındaki performans değişimini de değerlendirdik. Bildiğimiz kadarıyla çalışmamız hem insan hem de yapay öğrenmenin zaman içindeki ilerleyişine paralel bir bakış sunan ilk çalışma olma özelliğini taşımaktadır.
Asistanların puanlarındaki genel artış, zaman içinde eğitimin verimliliğini gösteren olumlu bir göstergedir ve klinik deneyimle birlikte yapılandırılmış eğitim programlarının bilgi düzeyinin kalıcılığına katkı sağladığını düşündürmektedir. Dikkat çekici bir şekilde, istatistiksel olarak anlamlı bir gelişme gözlenmeyen tek yan dal nöro-oftalmoloji oldu. Bu alan, multidisipliner yapısı ve birçok eğitim merkezinde sınırlı klinik karşılaşma imkânı sunmasıyla bilinmektedir.24 Ayrıca, asistanların performansının anlamlı düzeyde azaldığı tek alan kornea ve oküler yüzey hastalıkları oldu. Bu durum, eğitim müfredatında bu yan dala yeterince vurgu yapılmaması ya da klinik olgu sayısının yetersizliği gibi etkenlere işaret edebilir. Bu bulgular, özellikle güçlendirilmesi gereken alanları belirleyerek asistanlık eğitim programlarında gelecekte yapılacak düzenlemelere yön verebilir. Buna karşılık, ChatGPT-4o tüm yan dallarda güçlü bir performans sergilemiş ve ChatGPT-3.5’e kıyasla anlamlı düzeyde gelişim göstermiştir. Genel doğruluk oranı %84,7 olan ChatGPT-4o, asistan grubuna göre daha yüksek doğruluk ve tutarlılık düzeyi göstermiştir; ancak yıl bazındaki performans artışı açısından değerlendirildiğinde 8. sırada yer almıştır. Bu durum, büyük dil modellerinin tıp eğitiminde, özellikle sınav hazırlığı ve teorik bilgi desteği açısından, eğitim aracı olarak artan potansiyelini pekiştirmektedir. Ancak, bu modellerin tıbbi uygulamada önemli olan bağlamsal incelik, klinik yargı ve uygulamalı beceriler gibi unsurları içermediği göz önünde bulundurulmalıdır. Bu nedenle, bu tür yapay zekâ araçları geleneksel tıp eğitiminin yerini almaktan ziyade, onu destekleyici ve tamamlayıcı bir unsur olarak değerlendirilmelidir.
Çalışmanın Kısıtlılıkları
Çalışmamızda belirtilmesi gereken bazı kısıtlılıklar bulunmaktadır. İlk olarak, her ne kadar zamana dayalı bir karşılaştırma yapılmış olsa da bireysel öğrenme ortamları, klinik deneyim düzeyi ve çalışma alışkanlıkları gibi değişkenlerin etkisi bilinememektedir. Her iki sınav içerik ve yapı açısından büyük ölçüde benzer olmakla birlikte, madde düzeyinde psikometrik eşitleme yapılmamıştır. Bu nedenle çalışma, yıllar arasındaki farkları mutlak değil, benzer koşullar altındaki göreceli başarı değişimi olarak değerlendirmektedir. Web tabanlı arayüz, uygulama sürümlerine kıyasla yanıt uzunluğu ve bağlam belleği üzerinde sınırlı kontrol sunmaktadır. Bu durum yanıt biçiminde küçük farklılıklara yol açabilmekte olup, metodolojik bir sınırlılık olarak dikkate alınmıştır. Her iki sınava da katılan asistanların seçilmesi, daha motive veya akademik eğilimli bireyleri içerebileceğinden olası bir seçilim yanlılığı oluşturabilir. Soru sayısının sınırlı olması ve çalışmanın tek bir ülkenin ulusal sınavına dayanması, bulguların farklı eğitim sistemlerine genellenebilirliğini kısıtlayabilir.
Sonuç
Sonuç olarak, çalışmamız ChatGPT-4o’nun önceki sürümü olan ChatGPT-3.5’e kıyasla üstün bir performans sergilediğini ve 2024 ulusal oftalmoloji sınavında asistan grubuna kıyasla daha yüksek bir performans düzeyi gösterdiği ortaya konmuştur. Asistanlar zaman içinde kademeli bir gelişim göstermiş olsa da, ChatGPT-4o’nun tutarlı ilerleyişi büyük dil modellerinin gelişen yeteneklerini gözler önüne sermektedir. Bununla birlikte, doğruluk oranı yüksek olsa da bu modellerin zaman zaman hatalı veya yanıltıcı yanıtlar verebileceği unutulmamalıdır. Bu nedenle, tıp eğitimindeki rolleri tamamlayıcı nitelikte olmalı; insan eğitimiyle gelişen eleştirel düşünme ve deneyim temelli bilgilerin yerini almak yerine, onları destekleyici bir araç olarak değerlendirilmelidir.


