Dermatolojide Dijital Dönüşüm: Kapsayıcı Cilt Sağlığı İçin Dev Veri Seti Yayında
Sağlık veri setleri, tıbbi araştırma ve eğitim süreçlerinde hayati bir rol oynasa da, gerçek dünyayı tam anlamıyla temsil eden bir veri seti oluşturmak oldukça zorlu bir süreçtir. Dermatolojik durumlar, görünüm ve şiddet açısından büyük farklılıklar gösterir ve farklı cilt tonlarında kendilerini çok farklı şekillerde belli ederler. Ancak, mevcut dermatoloji görüntü veri setleri genellikle günlük yaşamda sıkça karşılaşılan döküntüler, alerjiler ve enfeksiyonlar gibi durumları temsil etmekte yetersiz kalmakta ve çoğunlukla açık cilt tonlarına odaklanmaktadır. Dahası, ırk ve etnisite bilgilerinin eksikliği, sağlık sistemindeki eşitsizlikleri değerlendirmeyi veya kapsayıcı çözümler üretmeyi zorlaştırmaktadır.
Bu sınırlamaları aşmak amacıyla, tıp dünyasında önemli bir boşluğu dolduracak olan Skin Condition Image Network (SCIN) veri seti erişime açıldı. Stanford Medicine bünyesindeki uzmanlarla iş birliği içinde tasarlanan SCIN, insanların internet üzerinde en çok arattığı geniş yelpazedeki cilt sorunlarını yansıtacak şekilde kurgulandı. Bu yeni kaynak, klinik veri setlerinde tipik olarak bulunan durumları tamamlayıcı bir nitelik taşıyor. Çeşitli cilt tonları ve vücut bölgelerinden alınan görüntüleri içeren SCIN, gelecekteki yapay zeka araçlarının herkes için etkili bir şekilde çalışmasını sağlamayı hedefliyor. Araştırmacılar, eğitimciler ve geliştiriciler için açık erişimli bir kaynak olarak sunulan bu veri setinde, katılımcı gizliliğini korumak için de son derece titiz adımlar atıldı.
| SCIN veri setinden örnek bir görüntü seti ve meta veriler. |
Veri Setinin Kapsamı ve Demografik Çeşitlilik
SCIN veri seti, doğrudan cilt, tırnak veya saç sorunları yaşayan bireyler tarafından sağlanan 10.000’den fazla görüntüden oluşuyor. Tüm katkılar, kurumsal inceleme kurulu tarafından onaylanmış bir çalışma kapsamında, katılımcıların bilgilendirilmiş onamı ile gönüllü olarak yapıldı. Görüntülerin dermatologlar tarafından geriye dönük olarak doğru etiketlenebilmesi için katılımcılardan hem yakın çekim hem de biraz daha uzaktan fotoğraflar çekmeleri istendi. Ayrıca katılımcılara, demografik bilgilerini, Fitzpatrick Cilt Tipi (sFST) ölçeğine göre güneşte yanma eğilimlerini beyan etme ve yaşadıkları sorunun dokusu, süresi ve semptomlarını açıklama seçeneği sunuldu.
Her bir katkı, bir ile üç arasındaki uzman dermatolog tarafından incelenerek beş adede kadar olası dermatolojik durumla etiketlendi ve her etiket için bir güven puanı atandı. SCIN veri seti, bu bireysel etiketlerin yanı sıra model eğitimi veya testi için son derece yararlı olabilecek ağırlıklandırılmış bir ayırıcı tanı listesi de sunuyor. Bu etiketler klinik bir teşhisle eşdeğer olmasa da, SCIN veri setindeki hastalık dağılımını mevcut tıbbi veri setleriyle karşılaştırmamıza olanak tanıyor.
| SCIN veri seti ağırlıklı olarak alerjik, inflamatuar ve bulaşıcı durumları içerirken, klinik kaynaklı veri setleri iyi ve kötü huylu neoplazmlara odaklanmaktadır. |
Mevcut birçok dermatoloji veri seti, cilt kanseri teşhisine yardımcı olmak amacıyla kötü huylu tümörlere odaklanırken, SCIN veri seti büyük ölçüde yaygın alerjik, inflamatuar ve bulaşıcı durumları kapsıyor. Veri setindeki görüntülerin yarısından fazlası, semptomların ortaya çıkmasından sonraki ilk bir hafta içinde, %30’u ise ilk 24 saat içinde çekilmiş erken evre sorunları gösteriyor. Bu zaman dilimindeki vakalar genellikle sağlık sistemine henüz başvurulmadığı için mevcut veri setlerinde yeterince temsil edilmemektedir.
Ayrıca görüntüler için uzmanlar tarafından tahmin edilen Fitzpatrick Cilt Tipi (eFST) ve Monk Cilt Tonu (eMST) ölçekleri kullanıldı. Her ne kadar belirli bir cilt tipi hedeflenmemiş olsa da, SCIN veri seti diğer klinik kaynaklı veri setlerine kıyasla çok daha dengeli bir Fitzpatrick dağılımına (Tip 3, 4, 5 ve 6 ağırlıklı) sahip.
| SCIN veri setindeki beyan edilen ve tahmin edilen Fitzpatrick Cilt Tipi dağılımının mevcut diğer veri setleriyle (Fitzpatrick17k, PH², SKINL2 ve PAD-UFES-20) karşılaştırması. |
Yenilikçi Kitle Kaynaklı (Crowdsourcing) Yaklaşım
SCIN veri setinin oluşturulmasında, bireylerin sağlık araştırmalarında aktif rol oynamasını sağlayan yenilikçi bir kitle kaynaklı yöntem kullanıldı. Bu yaklaşım, insanların sağlık sorunlarının henüz başında, muhtemelen resmi bir tıbbi bakım aramadan önce onlara ulaşmamıza imkan tanıdı. Yöntemin temelinde, birçok insanın sağlık yolculuğunun başlangıç noktası olan web arama sonuç sayfalarındaki reklamlar aracılığıyla katılımcılarla bağlantı kurmak yatıyor.
Sonuçlar, kitle kaynaklı veri toplamanın son derece düşük bir spam oranıyla yüksek kaliteli sonuçlar verebileceğini kanıtladı. Yapılan katkıların %97,5’inden fazlası, cilt durumlarının gerçek ve net görüntüleriydi. Sekiz aylık çalışma süresi boyunca alınan katkıların yaklaşık %90’ı, yinelenenlerin veya kapsam dışı olanların temizlenmesinin ardından yayınlanmaya uygun bulundu. Dermatologların bir ayırıcı tanı koyma becerisinin, görüntü kalitesinden ziyade katılımcı tarafından sağlanan semptom bilgilerine daha fazla bağlı olduğu gözlemlendi.
| Dermatologların etiketlerine olan güveni (1-5 ölçeği), katılımcıların paylaştığı demografik ve semptom bilgilerinin varlığına bağlı olarak değişmiştir. |
Veri Gizliliği ve Geleceğe Bakış
Bireylerin gizliliğini korumak, veri setinin oluşturulma aşamasında en yüksek öncelik olarak belirlendi. Katılımcılar, olası kimlik belirleme riskleri konusunda bilgilendirildi ve tanımlayıcı özellikler içeren fotoğraflar yüklememeleri konusunda uyarıldı. Gönderim sonrası süreçte ise manuel sansürleme, fotoğrafların kırpılması, tersine görsel arama ile kopyaların kontrol edilmesi ve meta verilerin temizlenmesi gibi çok katmanlı koruma önlemleri uygulandı.
SCIN veri seti, kapsayıcı dermatoloji araştırmalarını, tıp eğitimini ve yapay zeka araçlarının gelişimini ilerletmek isteyen herkes için kritik bir kaynak olma potansiyeline sahip. Geleneksel veri seti oluşturma yöntemlerine güçlü bir alternatif sunan bu çalışma, beyan usulü verilerin veya geriye dönük etiketlemenin mümkün olduğu tüm tıbbi alanlarda daha temsilci veri setlerinin yolunu açıyor.
Teşekkürler
Bu çalışmaya katkı sağlayan tüm araştırmacılara; Abbi Ward, Jimmy Li, Julie Wang, Sriram Lakshminarasimhan, Ashley Carrick, Bilson Campana, Jay Hartford, Pradeep Kumar S, Tiya Tiyasirisokchai, Sunny Virmani, Renee Wong, Yossi Matias, Greg S. Corrado, Dale R. Webster, Dawn Siegel, Steven Lin, Justin Ko, Alan Karthikesalingam ve Christopher Semturs’a şükranlarımızı sunarız. Ayrıca Yetunde Ibitoye, Sami Lachgar, Lisa Lehmann, Javier Perez, Margaret Ann Smith, Rachelle Sico, Amit Talreja, Annisah Um’rani ve Wayne Westerlind’e değerli katkıları için; Heather Cole-Lewis, Naama Hammel, Ivor Horn, Michael Howell, Yun Liu ve Eric Teasley’e ise çalışma tasarımı hakkındaki yorumları için teşekkür ederiz.
