Öz
Amaç
Refraktif cerrahi ile ilgili sıkça sorulan sorulara (SSS) büyük dil modeli (BDM) sohbet robotlarının verdiği cevapların uygunluğunu ve okunabilirliğini değerlendirmek.
Gereç ve Yöntem
Yaygın olarak kullanılan 4 BDM sohbet robotuna hastalar tarafından sıkça sorulan refraktif cerrahi ile ilgili 40 soru soruldu. Cevapların uygunluğu, deneyimli 2 refraktif cerrah tarafından değerlendirildi. Okunabilirlik ise 5 farklı indeks ile değerlendirildi.
Bulgular
BDM sohbet robotları tarafından üretilen cevaplara dayanarak, ChatGPT 3.5 tarafından verilen cevapların %45’i (n=18) doğruyken, ChatGPT 4.0’ın %52,5’i (n=21), Gemini’nin %87,5’i (n=35) ve Copilot’un %60’ı (n=24) doğruydu. Okunabilirlik açısından, tüm BDM sohbet robotlarının çok zor okunduğu ve yanıtların üniversite düzeyinde olduğu gözlemlendi.
Sonuç
Günlük yaşamımızda yer edinmeye başlayan bu BDM sohbet robotları nadiren uygunsuz cevaplar verebilmektedir. Aynı zamanda okunması oldukça zor olan bu BDM sohbet robotları arasında, uygun cevap üretmede en başarılı olanı Gemini olup, okunabilirlik açısından diğerlerine göre göreceli olarak daha iyi bulunmuştur.
Giriş
Yapay zekanın (“artificial intelligence”, AI) sağlık hizmetlerine hızlı entegrasyonu, hasta katılımını ve bilgi yayılımında dönüşüme neden olmuştur. AI modelleri giderek primer tıbbi bilgi kaynağı haline geldiğinden, tıbbi sorulara verdikleri yanıtların fizibilitesini ve doğruluğunu değerlendirmek önemlidir.1, 2 Doğal dil işlemedeki gelişmelerin yönlendirdiği konuşan robotlarının yükselişi, sağlık sektöründe umut verici yeni bir döneme işaret ediyor. Bu robotlar, hastalıkları önleme, tanı, tedavi, izlem ve hasta desteği gibi çeşitli tıbbi alanlarda dikkate değer bir potansiyel göstermektedir.3
OpenAI’nın ChatGPT, Google’ın Gemini ve Microsoft’un Copilot gibi büyük dil modeli (BDM) sohbet robotları, AI teknolojisinde önemli bir sıçramayı temsil etmektedir. Bu modeller, büyük eğitim veriler setleri ve sofistike algoritmalardan yararlanarak çeşitli metin tabanlı sorgulara insan benzeri yanıtlar üretmek için tasarlanmıştır.4 Kendinden denetimli öğrenme ve geniş metinsel verilerle eğitim ile karakterize BDM sohbet robotlarının evrimi, insan etkileşimlerini yakından taklit eden yanıtlar üretmelerini sağlamıştır. Ayrıntılı ve konu ile ilgili bilgi sağlayabilmeleri, onları tıbbi uygulamalar için özellikle değerli kılar.5, 6
Oftalmoloji alanında, özellikle refraktif cerrahide, hastalar durumları ve tedavi seçenekleri hakkında bilgi edinmek için sıklıkla internete başvurmaktadır. Bu bilgilerin kalitesi ve okunabilirliği, hastanın konuyu kavrayışını ve karar vermelerini doğrudan etkilediği için çok önemlidir. BDM sohbet robotlarının tıbbi tavsiyelerde bulunmak açısından olası yararlarına rağmen, doğru ve anlaşılır bilgi sunmadaki etkinlikleri hala kapsamlı bir değerlendirme gerektirmektedir.
Bu çalışmada, refraktif cerrahi hakkında güvenilir ve erişilebilir bilgi sağlamada farklı BDM sohbet robotlatının güçlü yönlerini ve kısıtlılıklarının araştırılması amaçlamıştır. Bu araştırma, yanıtlarının uygunluğunu ve okunabilirliğini değerlendirerek, AI odaklı hasta eğitimini geliştirmeyi ve böylece hastaların göz sağlığı hakkında bilinçli kararlar vermeleri için doğru ve anlaşılır bilgiler almasını sağlamayı amaçlamaktadır.
Gereç ve Yöntem
Çalışmamıza herhangi bir hasta dahil edilmediğinden etik kurul onayı gerekmemiştir.
Bu çalışma, BDM sohbet robotları tarafından sağlanan bilgilerin uygunluğunu ve okunabilirliğini araştırmak için tasarlanmıştır. Çalışma için yeni geliştirilen ve sık kullanılan dört BDM sohbet robotu (ChatGPT 3.5, ChatGPT 4.0, Google Gemini ve Microsoft Copilot) seçildi. Refraktif cerrahlardan, hastaların refraktif cerrahi ile ilgili sıklıkla hasta portalı üzerinden veya klinikte sordukları 40 sorudan oluşan bir liste hazırlamaları istendi. Bu sorular daha sonra 3 Temmuz 2024’te BDM sohbet robotları tarafından yanıtlandı. Cevaplar iki deneyimli refraktif cerrah (Y.Y., B.K.Y.) tarafından uygunluk ve yeterlilik açısından değerlendirildi. Cevaplar “uygun”,“ eksik” ve “uygunsuz” olarak kategorize edildi. Uygun bir yanıt, yanıtları değerlendiren hekimin hastalara vereceği önerilere benzer doğru bir yanıt olarak tanımlandı. Uygunsuz bir yanıt ya yanlıştı ya da klinik açıdan yanıtları değerlendiren hekimin önerisinden farklıydı. Eksik bir yanıt konu ile ilgili ve doğruydu, ancak yeterli bilgi içermiyordu.
Ortalama bir bireyin her bir cevabı okuma kolaylığını değerlendirmek için, cevaplar Readable adlı çevrimiçi bir okunabilirlik uygulamasına girildi (https://app.readable.com/text/).7 Çalışmada kullandığımız okunabilirlik ve anlaşılabilirlik kriterleri ve standardizasyon İngilizce temelliydi. Çalışmamızda soruları İngilizce olarak sorduk ve cevapları İngilizce olarak aldık. Her cevabın okunabilirliğini değerlendirmek için beş farklı endeks kullanıldı. Bu endeksler Gunning Fog Endeksi, Coleman-Liau Endeksi, Flesch Okuma Kolaylığı Skoru, Flesch-Kincaid Sınıf Düzeyi ve SMOG Endeksi (“Simple Measure of Gobbledygook”) idi.8 Flesch okuma testinde kullanılan matematiksel formüller kelime karmaşıklığı ve cümle uzunluğuna dayanmaktadır. Flesch Okuma Kolaylığı skoru 1 ile 100 arasında sayısal bir değerdir. Skorun büyük olmasını okunabilirliğin yüksek olduğunu gösterir ve 70 ile 80 arasındaki bir skor 8. sınıf seviyesine karşılık gelir.7 Gunning Fog Endeksi, ortalama cümle uzunluğu ile birlikte çok heceli kelimelerin sıklığını değerlendirir.9 Endeks skoru 0 ile 20 arasında değişir ve metnin basitliği ve anlaşılırlığını derecelendirir.7 Coleman-Liau Endeksi, tıbbi verilerin değerlendirilmesine yardımcı olur ve tipik olarak diğer endekslerle birlikte kullanılır.1 Ortalama cümle uzunluğuna ve her yüz kelimedeki ortalama harf sayısına odaklanır.9 SMOG Endeksi, cümle örneklerinde çok heceli kelimelerin sıklığını kullanır.9 Yaygın olarak kullanılmasına rağmen, SMOG en sık sağlık hizmetlerinde tercih edilmektedir.10 Son üç endeksin sonuçları, bir öğrencinin yazılı materyali anlamak için Amerika Birleşik Devletleri’nde okuması gereken sınıf seviyesine karşılık gelir. Bu nedenle, Gunning Fog, Coleman-Liau ve SMOG endex değerleri daha düşük olan metinlerin okunması ve anlaşılması daha kolay olmalıdır.11
İstatistiksel Analiz
İstatistiksel analizler SPSS programı (IBM SPSS Statistics, sürüm 25; IBM Corp., Armonk, NY, ABD) kullanılarak yapıldı. Tanımlayıcı analizler yapıldı ve normal dağılıma uygunluk (Shapiro-Wilk) test edildi. Verilerin normal dağılım göstermediği göz önüne alınarak, dört BDM sohbet robotunun ortalama puanlarını karşılaştırmak için parametrik olmayan bir Kruskal-Wallis testi ve Bonferroni düzeltmesi yapıldı. İstatistiksel açıdan düzeltilmiş p değerinin 0,05’ten küçük olması anlamlı kabul edildi.
Bulgular
Uygunluk
BDM sohbet robotları tarafından oluşturulan cevaplar değerlendirildiğinde ChatGPT 3.5 tarafından verilen cevapların %45’i (n=18) doğru iken, ChatGPT 4.0’ın %52,5’i (n=21), Gemini’nin %87,5’i (n=35) ve Copilot cevaplarının %60’ı (n=24) doğruydu. ChatGPT 3.5, ChatGPT 4.0 ve Copilot’tan her biri bir soruya uygunsuz cevaplar verirken, Gemini hiçbir soruya uygunsuz cevap vermedi (Şekil 1).
BDM sohbet robotları uygunluk açısından karşılaştırıldığında istatistiksel olarak anlamlı farklılık olduğu bulundu (p=0,001). Alt grup analizi yapıldığında Gemini ile ChatGPT 3.5 ve 4.0 arasında bu fark gözlendi (sırasıyla p=0,001, p=0,008) (Tablo 1).
Okunabilirlik
Okunabilirlik endeksleri Tablo 2’de özetlenmiştir. Flesch-Kincaid Sınıf Düzeyi’ne göre karşılaştırıldığında BDM sohbet robotları arasında anlamlı farklılık gözlendi (p=0,003). İkili karşılaştırmalarda, bu farkın ChatGPT 3.5 ile Gemini ve ChatGPT 3.5 ile Copilot arasında olduğu ve ChatGPT 3.5’in değerlerinin anlamlı düzeyde daha yüksek olduğu bulundu (sırasıyla p=0,017 ve p=0,008; Şekil 2a). Diğer sohbet robotları arasında anlamlı bir fark izlenmedi. Sohbet robotları arasında Flesch Okuma Kolaylığı skorları (p=0,534; Şekil 2b) veya Coleman-Liau skoru (p=0,867; Şekil 2c) açısından anlamlı bir fark yoktu. SMOG endeksi sonuçları karşılaştırıldığında sohbet robotları arasında anlamlı fark gözlendi (p=0,012). Bu farkın, Copilot SMOG skorunun ChatGPT 3.5’e kıyasla anlamlı düzeyde düşük olmasından kaynaklandığı bulundu (Şekil 2d). Gunning Fog skorları değerlendirildiğinde yine gruplar arasında anlamlı fark gözlendi (p=0,001). İkili karşılaştırmalar, Copilot skorlarının hem ChatGPT 3.5 hem de ChatGPT 4.0’dan anlamlı düzeyde düşük olduğunu gösterdi (sırasıyla p=0,003 ve 0,021) (Şekil 2e).
Kelime ve karakter sayıları karşılaştırıldığında, Gemini’nin diğer BDM sohbet robotlarından anlamlı düzeyde daha uzun yanıtlar verdiği görüldü (her ikisi için de p<0,001). Gemini’nin verdiği yanıtların kelime ve karakter sayıları, Copilot’a (her ikisi için de p=0,001) ve ChatGPT 3.5 ve 4.0’a kıyasla (hepsi için p<0,001) anlamlı düzeyde daha yüksekti. ChatGPT sürümlerinin verdiği yanıtların kelime ve karakter sayıları benzerdi (Tablo 1).
Tartışma
AI kullanımı dünya çapında giderek yaygınlaşmaktadır. Kullanımın artması ile birçok yeni AI modeli geliştirilmektedir. Bu modeller arasında, öğrenilen verileri kullanarak internette gezinen ve sohbet robotu konuşmalarında anında yanıtlar üreten eğitilmiş dil modelleri yer alır.12 Bu makale, bu varyasyonun BDM sohbet robot performansını ve yanıt kalitesini nasıl etkilediğine dair derinlemesine bir analiz sunarak, farklı BDM sohbet robotlarının yanıtları arasındaki farklılıkların esas olarak kullanılan algoritmalardaki farklılıklardan kaynaklandığını vurgulamaktadır.
Günümüzde birçok kişi BDM sohbet robotlarını çeşitli amaçlarla kullanmaktadır. Bunlardan biri sağlık hakkındaki sorularına cevap almaktır. Ancak, sağlıkla ilgili bilgi edinmek için AI’yı kullanmak bazı sorunlar neden olabilir. Bu sorunlar arasında, güncel olmayan veya yanlış bilgilerin elde edilmesi ve karmaşık bir şekilde sunulan doğru bilgilerin yanlış anlaşılması yer alır. Bu nedenle bu bilgilerin hem doğru hem de herkes tarafından anlaşılır olması çok önemlidir.
Çalışmamızda, sohbet robotların yanıtlarının uygunluğu değerlendirildiğinde, Gemini’nin soruları diğer BDM sohbet robotlarına göre anlamlı derecede daha yüksek oranda doğru yanıtladığı görüldü. Bulgularımızın aksine Tepe ve Emekli13 ChatGPT 4.0, Gemini ve Copilot’u karşılaştırdıkları bir çalışmada meme görüntüleme ile ilgili sorulara en uygun cevapları ChatGPT 4.0’ın verdiğini bildirmişlerdir. Başka bir çalışmada Lee ve ark.14, hipertansiyon eğitimi için kaynak olarak Gemini ve ChatGPT 3.5’i karşılaştırmış ve benzer sonuçlar elde edildiğini belirlemişlerdir.
Çalışmamızda, kapsamlı sonuçlar elde etmek için beş farklı geçerliliği kabul edilen okunabilirlik endeksi kullanılmıştır. Bu endekslere göre, BDM sohbet robotlarının ürettiği yanıtlar düşük okunabilirlik skorlarına sahipti. Flesch Okuma Kolaylığı skorları 30 ila 50 arasında değişirken Gemini en yüksek puanı (yani en okunabilir cevaplar) aldı. Bu, metinlerin üniversite öğrencileri tarafından anlaşılabileceğini ve zorluk seviyesinin yetişkinlerin sadece %33’ü için uygun olduğunu düşündürmektedir.15 Flesch-Kincaid Sınıf Düzeyi sonuçları değerlendirildiğinde, ChatGPT yanıtlarının 14. sınıf ve üstü kişiler için uygun olduğu, Gemini ve Copilot’un ise 12. sınıf ve üstü kişiler için uygun olduğu bulunmuştur. Bu sonuçlar Gemini ve Copilot’un okunabilirliğinin biraz daha iyi olduğunu düşündürmektedir.16 Gunning Fog Endeksi’ne göre de tüm BDM sohbet robotlarının düzeyi üniversite seviyesindedir. Bununla birlikte, ChatGPT yanıtlarının lisans son sınıf öğrencileri düzeyinde, Gemini ve Copilot’un ise lisans birinci sınıf düzeyinde olduğu görülmüştür. Coleman-Liau Endeksi sonuçları tüm BDM sohbet robotları için benzer bulunurken lisans seviyesinde ve okunması zordu.17 Benzer şekilde, tüm BDM sohbet robotlarının SMOG Endeksi değerleri, yanıtlarının lisans düzeyinde olduğunu ve genel çoğunluk için okunmasının zor olduğunu gösterdi.10
ChatGPT 4.0 ile yapılan bir çalışmada, okunabilirlik analizlerinin sonuçları bizim çalışmamızda elde edilen sonuçlara benzerdi, bu da lisans veya yüksek lisans seviyesine işaret ediyordu ve okuması zordu.18 Tepe ve Emekli13 tarafından yapılan çalışmada, ChatGPT 4.0, Gemini ve Copilot okunabilirlik açısından karşılaştırılmış, ChatGPT 4.0’ın en zor ve Gemini’nin nispeten daha kolay olduğu, ancak hepsinin okunabilirliğinin düşük olduğu bildirilmiştir.
Kelime ve karakter sayısı değerlendirildiğinde, her iki ChatGPT sürümünün de diğer BDM sohbet robotlarına göre anlamlı düzeyde daha az kelime ve karakter kullandığı bulundu. En fazla sayıda kelime ve karakteri Gemini kullandı. Yanıtları anlamlı düzeyde daha uzun olmasına rağmen, Gemini’nin yanıtlarının okunabilirlik ve doğruluğu daha iyi bulunmuştur.
Literatürde BDM sohbet robotları ile ilgili yapılan diğer çalışmalarda da benzer metodoloji kullanılmış olsa da hasta kohortu kullanılması durumunda daha bütüncül bir değerlendirme mümkün olabilir. Bu fikir gelecekteki araştırmalara yön verebilir.
Sonuçların gösterdiği gibi, BDM sohbet robotları eksik veya bazen yanlış bilgiler verebilir. Ayrıca, verdikleri bilgiler doğru olsa bile, okunabilirliğin nispeten düşük olması nedeniyle hastaları yanıltma olasılığı da vardır. Bu durum hastalar için bir risk oluşturmaktadır. Bu olasılıkları azaltmak için, yeni BDM sohbet robotlarının özellikle sağlıkla ilgili konularda sağlık çalışanları ile işbirliği yapılarak geliştirilmesi, doğruluğu ve erişilebilirliği iyileştirmede faydalı olabilir.
Çalışmanın Kısıtlılıkları
Bu çalışmanın bazı kısıtlılıkları bulunmaktadır. İlk olarak, araştırma 40 soru ile sınırlandırılmıştır, bu da bulguların genellenebilirliğini sınırlayabilir. Ayrıca, BDM sohbet robotları ile etkileşime girerken girdilerin formülasyonu, üretilen yanıtların kalitesini ve doğasını önemli ölçüde etkileyebilmektedir. BDM sohbet robotlarının tekrarlanabilirliği de tartışmalıdır. Bu çalışmada, her soru BDM sohbet robotlarına yalnızca bir kez gönderilmiştir. Ayrıca cevapların okunabilirliğinin gerçek hastalar tarafından değerlendirilmemiş olması çalışmanın bir diğer kısıtlılığıdır.
Sonuç
Sonuç olarak, Gemini’nin refraktif cerrahi ile ilgili sorulara uygun cevaplar vermede diğer BDM sohbet robotlarından daha iyi olduğunu gözlemledik. Okunabilirlik açısından, tüm sohbet robotların yanıtlarının okunmasının zor olduğunu, ancak Gemini ve Copilot’un nispeten daha okunabilir olduğunu gözlemledik. Sonuç olarak, BDM sohbet robotlarının yanıtları karşılaştırıldığında, Gemini’nin hem uygunluk düzeyi hem de okunabilirlik açısından en iyi olduğu, ChatGPT 3.5’in ise en kötü yanıtları verdiği görüldü. Hastalarımıza bu BDM sohbet robotlarının nadiren de olsa uygunsuz cevaplar verebileceğini hatırlatmakta yarar vardır.