Öz
Amaç
Bu çalışmada, Türk Oftalmoloji Derneği (TOD) prematüre retinopatisi (ROP) rehberindeki hasta bilgilendirme materyallerinin okunabilirlik düzeyi, büyük dil modelleri (BDM) tarafından üretilen metinlerle karşılaştırıldı. GPT-4.0, GPT-4o mini ve Gemini’nin hasta eğitim materyalleri üretme becerileri, doğruluk ve kapsamlılık açısından değerlendirildi.
Gereç ve Yöntem
Çalışmada, TOD ROP rehberinde yer alan 30 soru GPT-4.0, GPT-4o mini ve Gemini’ye yöneltildi. BDM’lerin yanıtları, “Bu metni 6. sınıf eğitim seviyesine uygun şekilde düzenler misin?” (S1 formatı) ve “Bu metni daha anlaşılır hale getirir misin?” (S2 formatı) şeklinde yeniden yöneltildi. TOD ROP rehberinin ve yanıtların okunabilirliği Ateşman ve Bezirci-Yılmaz formülleriyle analiz edildi. Ayrıca yanıtlar, kapsamlılık ve doğruluk açısından ROP uzmanları tarafından değerlendirildi.
Bulgular
TOD broşürünün okuma düzeyi, literatürde önerilen seviye olan 6. sınıf okuma düzeyinin üzerinde bulundu. GPT-4.0 ve Gemini’nin ürettiği materyallerin okuma düzeyleri ise TOD broşürüne kıyasla anlamlı olarak daha düşüktü (p<0,05). S1 ve S2 formatlarıyla yapılan düzenlemeler, GPT-4.0’ın okuma düzeyini düşürürken, GPT-4o mini ve Gemini’de anlamlı bir fark gözlenmedi. Doğruluk ve kapsam açısından GPT-4.0 en yüksek, Gemini ise en düşük puanları aldı.
Sonuç
GPT-4.0, hasta bilgilendirme materyalleri üretiminde daha okunabilir, doğru ve kapsamlı içerikler sunma potansiyeline sahip bir model olarak öne çıkmıştır. Ancak, BDM’lerin sağlık alanında entegrasyonu yapılırken, bölgesel tıbbi farklılıklar ve verilen bilgilerin doğruluğu dikkatle değerlendirilmelidir.
Giriş
Prematüre retinopatisi (ROP), retinanın vazoproliferatif ve multifaktöriyel bir hastalığıdır. Öncelikle preterm bebeklerde görülür, ancak yüksek düzeyde oksijen tedavisi alan term bebeklerde de ortaya çıkabilir.1 Yenidoğan bakımındaki ilerlemeler, preterm bebeklerin sağkalım oranlarını artırmış ve bu da ROP ile daha sık karşılaşılmasına neden olmuştur. Her yıl, dünya çapında yaklaşık 15 milyon bebek erken doğmaktadır. (gebeliğin 37 haftası tamamlanmadan önce).2 Her yıl 23.800 ila 45.600 bebekte ROP sonucu geri dönüşü olmayan görme kaybı geliştiği bildirilmektedir.3 Özellikle düşük ve orta gelirli ülkelerde, çocukluk çağı körlüğünün %40’a varan bölümünün önlenebilir ROP olgularına bağlı olduğu ileri sürülmektedir ve Türkiye bu ülkelerden biridir.4 Türkiye’de yapılan çok merkezli bir çalışmada, 6.115 preterm bebeğin %27’sine farklı evrelerde ROP tanısı konduğu ve %6,7’sinde şiddetli ROP geliştiği tespit edilmiştir.5
ROP, sürekli izlem ve hızlı tedavi ile etkili şekilde yönetilebilir.6, 7 İzlem doğumdan hemen sonra başlar ve retinal vaskülarizasyon tam olarak sağlanana kadar devam eder. İzlem sıklığı hastalığın şiddetine göre değişir; ROP’lu bebekler haftalık olarak takip edilirken, diğer bebekler uzun aralıklarla görülür. Bununla birlikte, izlemdeki aksamalar tedavi fırsatlarının kaybolmasına ve sonuçta tam körlüğe neden olabilir.8 Hastalık ve tedavi süreci ile ilgili ailelere detaylı bilgi verilmesi, takip ve tedaviye uyumlarını büyük ölçüde artırdığı için son derece önemlidir. Önceki araştırmalar, ailelerin bilgi düzeylerinin artmasının kaygıyı azalttığını ve tedavi rejimlerine uyumu artırdığını göstermiştir.9, 10
Türkiye’de, Türk Oftalmoloji Derneği’nin (TOD), resmi web sitesinde bir dizi hastalık için hasta eğitim kaynakları ve bilgilendirilmiş onam formları yer almaktadır. Hastaların bilgi edinme sürecini kolaylaştırmak için bu materyallerin anlaşılır olmasını sağlamak çok önemlidir.11 Amerikan Tıp Derneği ve Ulusal Sağlık Enstitüleri’nin yönergelerine göre, hasta eğitim materyalleri 6. sınıf öğrencilerinin okuma düzeyine eşdeğer olacak şekilde hazırlanmalıdır.12 Okunabilirliği değerlendirmek için cümle uzunluğu ve kelime yapısı gibi faktörleri analiz eden çeşitli formüller sıklıkla kullanılmaktadır.13 Türkçe metinler için okunabilirlik genellikle Ateşman14 ve Bezirci-Yılmaz’ın15 okunabilirlik formülleri kullanılarak belirlenir.
Son yıllarda, çevrimiçi bilgi kaynakları, hastaların büyük ölçüde tercih ettiği hazır araçlar olarak ortaya çıkmıştır. Pew Center tarafından yapılan bir anket, Amerika Birleşik Devletleri’nde halkın %61’inin sağlık bilgilerine internet platformları aracılığıyla aktif olarak eriştiğini göstermiştir.16 Bununla birlikte, çevrimiçi sağlık ile ilgili bilgilerin anlaşılabilmesi için genellikle eğitim düzeyinin daha yüksek olması gerektiği yaygın olarak kabul edilmektedir.17, 18, 19 Büyük dil modelleri (BDM), doğal dilde metinler oluşturmak için internette bulunan içeriği kullanan eğitilmiş yapay zeka sistemleridir.20 OpenAI tarafından geliştirilen ChatGPT ve Google tarafından geliştirilen Gemini gibi makine öğrenimi modelleri, hastaların eğitimi ve bilgilendirici içerik oluşturmak için tıp alanında kullanılmaktadır.21, 22 Ancak, bu modellerin güvenilirliği hala bir tartışma konusudur ve bu konu hakkında çalışmalar devam etmektedir.23
Bu çalışmada Ateşman ve Bezirci-Yılmaz formülleri kullanılarak TOD web sitesinde yer alan soru-cevap şekilde yapılandırılmış ROP hasta eğitim materyallerinin okunabilirliği değerlendirilmiştir. Bu materyallerden ileri düzey dil modelleri GPT-4.0, GPT-4o mini ve Gemini’ye otuz soru yöneltilmiş ve yanıtlar hastalar için broşür oluşturmak için kullanılmıştır. Bu broşürlerin okunabilirliği, doğruluğu ve kapsamı daha sonra modellerin hasta eğitim materyalleri üretmedeki etkinliğini araştırmak için değerlendirilmiştir.
Gereç ve Yöntem
TOD web sitesinden elde edilebilen, aileler için hazırlanmış olan ROP tedavi kılavuzları hakkındaki bilgilendirme broşürleri bu çalışmanın ana veri kaynağıdır. (https://www.todnet.org/tod-rehber/rop-tedavi-rehberi-2021.pdf, Türkçe olarak mevcuttur: Ek 1: Aileler için Bilgilendirme Broşürü: Prematüre Retinopatisi Taraması, Ek 2: Aileler için Bilgilendirme Broşürü: Prematüre Retinopatisi Tedavisi).24 Kılavuzlar, “ROP nedir?” ve “ROP nasıl tedavi edilir?” gibi ROP ile ilgili 30 soru ve yanıtlarından oluşmaktadır. Ateşman ve Bezirci-Yılmaz okunabilirlik formülleri kullanılarak kılavuzlardaki her yanıt için bağımsız bir analiz yapılmıştır. Çalışmamızda sadece kamuya açık veriler ve literatür kullanıldığından ve herhangi bir hayvan veya insan verisinin kullanılmasını gerektirmediğinden, etik kurul onayı ve hasta onamı gerekmemiştir.
Büyük Dil Modelleri Kullanımı
Bu çalışmada, TOD ROP kılavuzlarından 30 soru ChatGPT-4.0, ChatGPT-4o mini ve Gemini modellerine yöneltildi. Çalışmada kullanılan yapay zeka araçlarına yönelik örnek sorular Tablo 1’de sunulmuştur. Her soru yeni bir sohbet oturumunda soruldu ve cevaplar kaydedildi. Ayrıca, BDM’lerin daha düşük eğitim seviyesi için metinleri basitleştirme yeteneği değerlendirildi. Bunu değerlendirmek için modellere ilk yanıtları (ilk format) verildi ve iki yeni yanıt üretmeleri istendi:25
Soru 1: “Aşağıdaki metni 6. sınıf okuma düzeyine getirmek için revize edebilir misiniz?” (S1 formatı).
Soru 2: “Anlaşılmasını kolaylaştırmak için aşağıdaki metni revize edebilir misiniz?’ (S2 formatı).
Her yanıt Ateşman ve Bezirci-Yılmaz okunabilirlik formülleri kullanılarak ayrı ayrı analiz edildi.
Okunabilirlik Kriterleri
Ateşman Okunabilirlik Formülü: Ateşman formülü ortalama cümle ve kelime uzunluğuna göre 0 ile 100 arasında bir puan vermektedir. Ateşman analizini çevrimiçi bir program kullanarak gerçekleştirdi. Skorlama sistemi aşağıdaki gibi kategorize edilmiştir: 90-100 puan 4. sınıf veya altı, 80-89 puan 5. veya 6. sınıf düzeyi, 70-79 puan 7. veya 8. sınıf düzeyi, 60-69 puan 9. veya 10. sınıf düzeyi, 50-59 puan 11. veya 12. sınıf düzeyi, 40-49 puan ön lisans düzeyi, 30-39 puan lisans düzeyi ve 29 puan veya altı lisansüstü düzeyine karşılık gelmektedir.14
Bezirci-Yılmaz Okunabilirlik Formülü: Bezirci-Yılmaz formülü okunabilirliği ortalama cümle uzunluğu ve sözcüklerdeki hece sayısına göre değerlendirir. Bezirci-Yılmaz analizi özel bir yazılım kullanılarak yapıldı. Puanlama sistemi aşağıdaki gibidir: 1-8 puan ilkokul düzeyine, 9-12 puan lise düzeyine, 12-16 puan lisans düzeyine karşılık gelir; 16’nın üzerindeki puanlar akademik düzeydeki metinlerin okunabilirliğini göstermektedir.15
Büyük Dil Modelleri Tarafından Üretilen Hasta Hedefli Bilgilerin Kapsamı ve Doğruluğu
BDM’ler tarafından oluşturulan yanıtlar, TOD ROP kılavuzları temel alınarak kapsam ve doğruluk açısından değerlendirildi. ROP konusunda uzman ve hastalığın klinik yönetiminde deneyimli uzmanlar (S.A.P. ve A.D.) yanıtların doğruluğunu ve kapsamını değerlendirdi. Cevapların kapsamı şu şekilde derecelendirildi:26
• 1 puan: Kapsamı yetersiz (önemli bilgiler eksik)
• 2 puan: Biraz kapsamlı (asgari düzeyde ancak gerekli bilgiler mevcuttur)
• 3 puan: Orta derecede kapsamlı (makul düzeyde ayrıntı mevcuttur)
• 4 puan: Kapsamlı (kritik bilgileri içerir)
• 5 puan: Çok kapsamlı (ayrıntılı ve eksiksiz bilgi mevcuttur)
Yanıtların doğruluğu şu şekilde değerlendirildi:27
• 1 puan: Zayıf (önemli yanlışlar vardır ve hastalar için zararlı olabilir)
• 2 puan: Orta (bazı yanlışlar mevcuttur, ancak hastalar için olumsuz etkiler oluşturması olası değildir)
• 3 puan: Mükemmel (yanlış yoktur)
İstatistiksel Analiz
Veri analizinde, ortalamaların karşılaştırılmasında tek yönlü varyans analizi (ANOVA) kullanıldı ve ardından anlamlı ikili farklılıkları belirlemek için post-hoc Tukey gerçekten anlamlı farklar testinden yararlanıldı. İstatistiksel analizler SPSS yazılımı (IBM SPSS Statistics, sürüm 26.0) kullanılarak yapıldı. İstatistiksel açıdan p değerinin <0,05 olması anlamlı kabul edildi.
Bulgular
Bezirci-Yılmaz Okunabilirlik Skorları
Bezirci-Yılmaz okunabilirlik analizi, GPT-4.0 ve Gemini tarafından ilk üretilen yanıtların okuma düzeyinin TOD broşüründen anlamlı düzeyde düşük olduğunu gösterdi (sırasıyla p=0,010 ve p=0,039). GPT-4o mini ile oluşturulan materyaller ile TOD broşürü arasında istatistiksel olarak anlamlı fark bulunmadı (p=0,325). Diğer gruplar arasında yapılan karşılaştırmalarda istatistiksel olarak anlamlı bir fark yoktu (Tablo 2).
BDM’lerin (GPT-4.0, Gemini ve GPT-4o mini) ilk yanıtları ile S1 ve S2 formatlarındaki yanıtları karşılaştırıldığında, yalnızca GPT-4.0 yanıtlarında okunabilirlikte istatistiksel olarak anlamlı bir artış gözlenmiştir (sırasıyla p=0,005 ve p=0,012). Diğer gruplarda anlamlı fark bulunmadı. Ayrıca, BDM gruplarının hiçbirinde S1 ve S2 formatlarındaki yanıtlar arasında istatistiksel olarak anlamlı bir fark gözlenmedi (p>0,05) (Tablo 3).
Ateşman Okunabilirlik Skorları
Ateşman okunabilirlik puanları incelendiğinde, GPT-4.0 ve Gemini tarafından oluşturulan ilk yanıtların okuma düzeyinin, TOD broşürüne kıyasla anlamlı derecede daha düşük olduğu bulundu (sırasıyla p=0,016 ve p=0,006). GPT-4o mini ile TOD broşürü arasında anlamlı fark saptanmadı (p=0,910). Ayrıca, GPT-4.0 ve Gemini’nin yanıtlarının okuma düzeyi, GPT-4o mini’ye kıyasla anlamlı düzeyde düşüktü (sırasıyla p=0,042 ve p=0,035). Ancak GPT-4.0 ile Gemini arasında anlamlı bir fark yoktu (Tablo 2).
BDM’lerin ilk yanıtlarının hiçbiri, Ateşman okunabilirlik skorunda S1 ve S2 formatlarındaki yanıtlarıyla karşılaştırıldığında istatistiksel olarak anlamlı bir fark göstermedi. Ayrıca, modellerin hiçbirinde S1 ve S2 formatları arasında dikkati çeken bir fark yoktu (Tablo 4). GPT-4o mini tarafından üretilen yanıtların okuma düzeyi 11.-12. sınıf seviyesindeyken diğer BDM gruplarının okuma düzeyleri 9.-10. sınıf seviyesindeydi.
Kapsamlılık Skorları
BDM’lerden gelen ilk yanıtların kapsamlılık skorları karşılaştırıldığında, GPT-4.0 tarafından üretilen yanıtların, GPT-4o mini ve Gemini’nin yanıtlarına kıyasla anlamlı derecede daha kapsamlı olduğu bulundu (sırasıyla p=0,045 ve p=0,001). Bununla birlikte, GPT-4o mini ve Gemini arasında kapsam açısından anlamlı bir fark gözlenmedi. GPT-4.0’ın S1 ve S2 formatlarındaki yanıtlarının kapsamlılık skorları GPT-4o mini ve Gemini’den daha yüksekti (Tablo 5).
Doğruluk Skorları
BDM’lerden alınan ilk yanıtların doğruluk skorları karşılaştırıldığında, GPT-4.0’ın doğruluk skoru Gemini’den istatistiksel olarak anlamlı derecede yüksek bulundu (p=0,001). Ancak, GPT-4o mini ile Gemini ve GPT-4.0 arasında doğruluk açısından anlamlı bir fark gözlenmedi. S1 ve S2 formatlarındaki yanıtların doğruluk skorları karşılaştırıldığında, GPT-4.0 Gemini’den anlamlı düzeyde daha doğruydu (sırasıyla p=0,039 ve p=0,034). Başka istatistiksel olarak anlamlı fark gözlenmedi (Tablo 5).
Tartışma
Bu çalışmada, TOD ROP tedavi kılavuzunda yer alan hasta eğitim materyallerinin okunabilirliği değerlendirilmiştir. Bezirci-Yılmaz okunabilirlik formülüne göre materyaller lise için ortalama düzeyde iken Ateşman okunabilirlik formülüne göre 11. veya 12. sınıfa karşılık geliyordu. Türkiye’de yapılan araştırmalar ortalama eğitim süresinin 6,51 yıl olduğunu ortaya koymuştur.28 Hasta eğitim materyalleri oluşturulurken her ülkenin ortalama eğitim düzeyinin dikkate alınması önemlidir.29 Literatürde hasta eğitim materyalleri için önerilen okuma düzeyi genellikle 6. sınıf seviyesindedir.12 Bu seviyeyi aşan materyallerin, sağlık okuryazarlığı sınırlı olan hasta popülasyonu tarafından yorumlanması zor olabilir ve bu da tedaviye uyumu azaltabilir. Bu nedenle, TOD ROP kılavuzunun okuma düzeyi, hasta eğitim materyalleri için önerilenden daha yüksek bulunmuştur ve sonuçlar basitleştirilmesi gerektiğine işaret etmektedir. ChatGPT-4.0, ChatGPT-4o mini ve Gemini tarafından üretilen materyallerde de benzer bir sorun ile karşılaşılmıştır. Bu materyallerin okuma düzeylerinin önerilen düzeyin üzerinde ve literatürde belirtilen standartlar ile uyumlu olmadığı belirlenmiştir.30, 31
ROP tedavisindeki gecikmeler, geri dönüşü olmayan görme kaybının yanı sıra sağlık çalışanları için önemli medikolegal sorunlara yol açabilir.32 ROP ile ilgili malpraktis olgularında en sık karşılaşılan konu zamanında tarama veya takip yapılmamasıdır.33 Bunun temel nedenlerinden biri ailelerin ROP ve tarama süreci hakkında yeterli bilgiye sahip olmamasıdır. Literatürde yapılan çalışmalarda ebeveynler bilgilendirildiğinde ve bilinçlendirildiğinde tedaviye uyumun arttığı ve bebeklerde sonuçların daha iyi olduğu gösterilmiştir.9, 10 Bir çalışmada, çok düşük doğum ağırlıklı bebeklerin ebeveynlerinin, özellikle İngilizce’si yetersiz ve sağlık okuryazarlığı düşük ise ROP hakkında yeterince bilgi edinemediği ve bunun da tedaviyi olumsuz etkilediği bildirilmiştir.34 Çalışma, ebeveynlerin yarısından fazlasının taburcu olduktan sonra bebeklerinin ROP durumu hakkında yeterli bilgi almadığını göstermiştir. Bu bilgi eksikliğinin bir nedeni, Amerika Birleşik Devletleri’ndeki 10 yetişkinden 1’inin sağlık okuryazarlığının düşük olmasıdır.2
Pediatrik oftalmoloji alanında yapılan bir analiz, çevrimiçi hasta eğitim materyallerinin ortalama 11,75±2,72 yıl süre ile eğitim almış bir popülasyon için uygun olduğunu ortaya koymuştur.34 Eğitim materyalinin anlaşılabilirliğinin düşük olması, sağlık okuryazarlığı sınırlı olan kişilerde tedaviye uyum sorunlarına yol açabilir. Bu nedenle, bilgi düzeyi düşük bireyler için anlaşılması kolay hasta eğitim materyallerinin sağlanması gerekmektedir. Çalışmamızda toplanan verilere göre, TOD ROP kılavuzlarının okuma düzeyi kabul edilemez derecede yüksek bulunmuştur. Bu nedenle bu materyallerin anlaşılabilirliğinin artırılması gerekmektedir.
Bu çalışmada, GPT-4.0, GPT-4o mini ve Gemini tarafından hazırlanan broşürlerin okunabilirlik düzeyleri TOD broşürü ile karşılaştırıldığında, GPT-4.0 ve Gemini’nin okunabilirlik düzeylerinin TOD broşürüne kıyasla daha düşük olduğu bulunmuştur. Ayrıca, anlaşılabilirliği artırmak için tasarlanan S1 ve S2 formatlarında, GPT-4.0 tarafından oluşturulan broşürün okunabilirliğinde bir artış (Bezirci-Yılmaz skoru ile değerlendirilmiştir) gözlenirken, Gemini veya GPT-4o mini için anlamlı bir değişiklik meydana gelmemiştir. Bu bulgular literatür ile uyumludur.27, 35, 36 Okunabilirlik açısından bu bulgular, GPT-4.0’ın bir Türk ROP kılavuzu oluşturmak için daha uygun bir seçenek olabileceğini göstermektedir.
BDM’ler, sağlık sektöründe yeni ve ilgi çeken araçlardır ve gelişmektedirler. Özellikle hasta konsültasyonu, tıbbi triyaj ve bilgi sağlama konusunda potansiyele sahiptirler. BDM’ler, hastalardan gelen genel tıbbi soruları yanıtlayarak ve uzak veya yeterli hizmet alamayan bölgelerdeki bireylerin sağlık hizmetlerine erişimini artırabilirler.22, 37 Ayrıca, bu modellerin idari görevler üstlendiği ve sağlık çalışanlarının hasta bakımına daha fazla zaman ayırmasına olanak sağladığı gözlemlenmiştir.38 Bununla birlikte, BDM’lerin kullanımının belirli zorlukları vardır. BDM’ler, özellikle tıbbi ortamlarda hastalar ve aileleri için risk oluşturarak yanlış bilgiler verebilirler.39 Bu modellerin yanıtlarını kendi kendine kontrol etme ve hataları düzeltme kapasitesi sınırlıdır. Yanıltıcı veya eksik bilgiler tıbbi hatalara yol açarak hasta güvenliği için ciddi riskler oluşturabilir.40 BDM’leri klinik uygulamaya tam olarak entegre etmek için, doğrulama süreçlerinde iyileştirme yapılması ve bu modellerin daha sıkı gözetim altında tutulması gereklidir.
Hasta eğitim materyallerinin okunması sadece kolay olmamalı, aynı zamanda eksiksiz ve doğru olmalıdır. Çalışmamızda, BDM tarafından oluşturulan broşürlerin doğruluğunu ve kapsamını da değerlendirdik. Sonuçlar, GPT-4.0 tarafından oluşturulan materyallerin GPT-4o mini ve Gemini tarafından hazırlanan materyallerden daha eksiksiz olduğunu gösterdi. Doğruluk açısından GPT-4.0 en yüksek puanı alırken, Gemini en düşük puanı aldı. Bu veriler, GPT-4.0’ın hasta eğitim materyalleri hazırlamak için daha güvenilir bir model olabileceğini göstermektedir. Benzer şekilde, Pushpanathan ve ark.26, GPT-4.0’ın karmaşık oküler semptomlar ile ilgili soruları yanıtlarken doğruluk ve kapsam açısından GPT-3.5 ve Google Bard’dan daha iyi performans gösterdiğini bulmuş ve hasta eğitiminde yerleri olabileceğini bildirmişlerdir. Antaki ve ark.21 da diğer BDM’lere kıyasla GPT-4.0’ın oftalmoloji alanında daha tutarlı ve konu ile ilgili tıbbi bilgiler sağladığını bildirmiş ve güvenilir eğitim materyalleri üretmede yararlanılabileceğini ifade etmiştir.
BDM’ler tarafından verilen tıbbi bilgilerle ilgili dikkat edilmesi gereken bir diğer nokta, verilerde coğrafi varyasyon olma olasılığıdır. ROP için tarama kriterleri ülkeye göre farklılık gösterebilir.2 Gelişmiş ülkelerde bazı kriterler karşılanmayabilirken, az gelişmiş ülkelerde şiddetli ROP riski daha yüksektir.39 TOD ROP kılavuzu, 34. gebelik haftasından önce doğan veya 1.700 gramdan düşük ağırlığa sahip tüm yenidoğanların taranmasını önermektedir.5 GPT-4.0’ın bu soruya verdiği yanıt (“30 haftadan önce doğan veya 1.500 gramdan düşük ağırlığa sahip bebekler”), Birleşik Krallık’ta kullanılan tarama kriterleriyle uyumluydu, ancak Türkiye için TOD standartlarından farklıydı.41 Bu fark, hasta yakınları için belirsizlik yaratabilir ve yanlış bilgi edinme ve tedaviye uyumun azalmasına yol açabilir.
Çalışmanın Kısıtlılıkları
Çalışmamızın en önemli kısıtlılıklarından biri, dil modellerinin farklı dillerdeki performanslarının değişken olmasıdır. Çalışmamızda Türkçe sorular sorduk ve yanıtların Türkçe olarak verilmesini istedik. Ayrıca, dil modellerinden Türkçe kaynaklardan daha anlaşılır yanıtlar üretmelerini istedik. Bununla birlikte, BDM’ler tipik olarak İngilizce veriler üzerinde eğitildiğinden, Türkçe gibi dillerdeki performansları aynı düzeyde olmayabilir. Bu fark, dil yapıları arasındaki farklılıklara ve mevcut Türk veri setlerinin sınırlı olmasına bağlanabilir.20 Literatürde, BDM’lerin daha az yaygın olan dillerde tıbbi bilgi üretirken düşük performans gösterme eğiliminde olduğu ve bunun da klinik uygulamalarda hata riskini artırabileceği belirtilmiştir.42 Ayrıca, TOD broşüründe yer alan sorular herhangi bir ek bilgi verilmeden ve Türkiye’deki bir kullanıcı tarafından sorulduğu belirtilmeden, doğrudan sorulmuştur. Bu nedenle, “Türkiye için soruyorum” gibi bir ifadenin modelin yanıtları üzerindeki potansiyel etkisi değerlendirilmemiştir. Bu sebeple, bu modeller Türkçe gibi dillerde kullanılmadan önce dikkatle düşünülmeli ve yerel uzmanlar tarafından yürütülen doğrulama süreçleriyle desteklenmelidir.
Sonuç
Hastalar ve ailelerini eğitmek, ROP tedavisinde kritik öneme sahiptir. TOD hasta bilgilendirme broşürlerinin okuma düzeyinin kabul edilebilir düzeyden daha yüksek olduğu belirlendi. Okunabilirlik, kapsam ve doğruluk açısından GPT-4.0 broşürleri, GPT-4o mini ve Gemini broşürlerinden daha iyi performans gösterdi. BDM’ler sağlık hizmetlerinde umut verici bir araç olsalar da, verdikleri bazı bilgilerin yanıltıcı olabileceği ve coğrafi farklılıklar nedeniyle yanlış yönlendirme risklerinin olduğu görüldü. Sonuç olarak, BDM’lerin sağlık hizmetlerine entegrasyonu kapsamlı bir şekilde test edilmeli ve önerilerle desteklenmelidir. BDM’ler tarafından üretilen bilgilerin, özellikle de temel tıbbi bilgilerin doğruluğunun dikkatle değerlendirilmesi gerekmektedir.