ScreenAI: Kullanıcı Arayüzlerini ve Görselleri İnsan Gibi Anlayan Yeni Nesil Yapay Zeka Modeli

Arayüzleri ve İnfografikleri İnsan Gibi Anlayan Yeni Nesil Yapay Zeka: ScreenAI

Dijital dünyada iletişim, büyük ölçüde ekran kullanıcı arayüzleri (UI) ve grafikler, diyagramlar ile tablolar gibi infografikler üzerinden yürütülüyor. Bu görsel yapılar, insan-makine etkileşimini kolaylaştıran zengin ve etkileşimli deneyimler sunuyor. Ancak bu arayüzlerin ve infografiklerin karmaşıklığı, değişken yerleşim düzenleri ve görsel dilleri, yapay zeka modelleri için bugüne kadar büyük bir zorluk teşkil ediyordu. Bu engeli aşmak adına geliştirilen yeni vizyon-dil modeli ScreenAI, hem kullanıcı arayüzlerini hem de infografikleri tek bir çatı altında anlama, akıl yürütme ve etkileşime girme yeteneğiyle teknoloji dünyasında yeni bir sayfa açıyor.

ScreenAI

ScreenAI

Esnek Mimari ve Gelişmiş Görsel Algılama Yeteneği

ScreenAI’nin temel yapısı, çok modlu bir kodlayıcı blok ve öz-yinelemeli (autoregressive) bir kod çözücüden oluşan PaLI mimarisine dayanıyor. Modelin en dikkat çekici teknik özelliklerinden biri, görsel verileri işlerken kullandığı esnek yama (patching) stratejisidir. Geleneksel modellerin aksine, ScreenAI giriş görüntüsünün yerel en boy oranını koruyacak şekilde ızgara boyutlarını seçiyor. Bu sayede, ister dikey bir mobil ekran ister geniş bir masaüstü monitör görüntüsü olsun, model görselleri deforme etmeden en yüksek doğrulukla analiz edebiliyor.

ScreenAI model mimarisi.

ScreenAI model mimarisi.

Modelin eğitim süreci iki temel aşamadan oluşuyor: Ön eğitim ve ince ayar (fine-tuning). İlk aşamada, veri etiketlerini otomatik olarak oluşturmak için kendi kendine denetimli öğrenme (self-supervised learning) kullanılıyor. İkinci aşamada ise, ViT (Vision Transformer) dondurularak model, insanlar tarafından titizlikle etiketlenmiş verilerle spesifik görevler için optimize ediliyor. Sadece 5 milyar parametreye sahip olmasına rağmen ScreenAI, kendisinden çok daha büyük modellerle rekabet edebilecek bir performans sergiliyor.

Veri Üretiminde Büyük Dil Modellerinin Devrimi

ScreenAI’nin başarısının arkasındaki en büyük güçlerden biri, eğitim verilerinin kalitesi ve çeşitliliğidir. Masaüstü, mobil ve tablet gibi farklı cihazlardan toplanan devasa bir ekran görüntüsü koleksiyonu, gelişmiş bir yerleşim düzeni çözümleyicisiyle analiz ediliyor. Bu sistem; butonlar, metinler, resimler ve piktogramlar gibi UI öğelerini tanımlayarak bunların uzamsal ilişkilerini etiketliyor. Özellikle piktogramlar için 77 farklı ikon türünü ayırt edebilen özel bir sınıflandırıcı kullanılarak, ikonların taşıdığı ince anlamlar modele aktarılıyor.

Mobil uygulama ekran görüntüsü ve oluşturulan etiketler.

Mobil uygulama ekran görüntüsü ve oluşturulan etiketler; örneğin metin öğeleri içerikleriyle, resimler ise açıklamalarıyla birlikte tanımlanıyor.

Veri çeşitliliğini artırmak için Büyük Dil Modellerinden (LLM) yararlanılan benzersiz bir yöntem izleniyor. Ekran şemaları ve yerleşim bilgileri bir “prompt” yapısına dönüştürülerek LLM’lere veriliyor. Bu sayede yapay zeka; ekran içeriği hakkında sorular (Soru-Cevap), ekran navigasyonu (örneğin “Arama butonuna tıkla” komutu) ve ekran özetleme gibi sentetik ama gerçekçi görevler üretiyor. Bu süreç, modelin sadece gördüğünü tanımlamasını değil, aynı zamanda kullanıcı niyetini anlamasını da sağlıyor.

Soru-Cevap veri üretimi için örnek bir istem.

Soru-Cevap veri üretimi için kullanılan örnek bir istem (prompt) yapısı.

Performans Analizi ve Sektörel Standartlar

ScreenAI, test aşamasında WebSRC ve MoTIF gibi kullanıcı arayüzü tabanlı görevlerde modern standartları (SOTA) yakalarken; ChartQA, DocVQA ve InfographicVQA gibi alanlarda kendi boyutundaki modeller arasında sınıfının en iyisi performansını sergiledi. Modelin yeteneklerini daha kapsamlı değerlendirmek adına üç yeni veri seti de literatüre kazandırıldı:

  1. Screen Annotation: Modelin yerleşim düzeni anlama ve uzamsal algılama kabiliyetini ölçüyor.
  2. ScreenQA Short: Cevapların daha net ve doğrudan olduğu bir soru-cevap veri seti.
  3. Complex ScreenQA: Sayma, aritmetik hesaplama, karşılaştırma ve cevaplanamaz sorular gibi daha zorlayıcı senaryoları içeriyor.

Soru-Cevap, özetleme ve navigasyon görevleri için veri üretim iş akışı.

Soru-Cevap, özetleme ve navigasyon görevleri için veri üretim iş akış şeması.

LLM tarafından üretilen navigasyon ve özetleme örnekleri.

LLM tarafından üretilen ekran navigasyonu ve özetleme görevlerine dair görsel örnekler.

Yapılan deneyler, ScreenAI’nin model boyutu arttıkça performansının da istikrarlı bir şekilde arttığını gösteriyor. 5 milyar parametrelik mevcut yapıda bile performansın henüz doyuma ulaşmamış olması, gelecekte daha büyük ölçekli modellerin çok daha çarpıcı sonuçlar verebileceğinin sinyalini veriyor.

ScreenAI'nin diğer modellerle karşılaştırmalı performans tablosu.

ScreenAI’nin benzer boyuttaki diğer modellerle karşılaştırmalı performans tablosu.

Model performansının parametre sayısıyla artışını gösteren grafik.

Model performansının parametre sayısıyla doğru orantılı olarak arttığını gösteren ölçeklendirme grafiği.

Sonuç: Dijital Arayüzlerin Geleceği

ScreenAI, çok modlu öğrenme ve sentetik veri üretimi tekniklerini birleştirerek kullanıcı arayüzlerini anlama konusunda devasa bir adım atıyor. Her ne kadar çok daha büyük ölçekli modellerin gerisinde bazı noktalar olsa da, kendi segmentinde sunduğu verimlilik ve doğruluk oranı, onu gelecek nesil dijital asistanlar ve otomasyon sistemleri için kritik bir bileşen haline getiriyor. Kendi kendine denetimli öğrenme görevleri ve gelişmiş LLM entegrasyonu sayesinde ScreenAI, karmaşık infografiklerden en karışık mobil uygulama arayüzlerine kadar her şeyi anlamlandırabilen evrensel bir “dijital göz” olma yolunda ilerliyor.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Facebook Yorumları