Yapay zeka modelleri ChatGPT, Gemini gibi araçların eğitimi için kullanıcıların internetteki her hareketi veri oluyor. CAPTCHA testlerinden oyunlara, navigasyon verilerine kadar geniş bir alan kullanılıyor.
Büyük dil modelleri ChatGPT, Gemini ve Claude gibi yapay zeka araçları, her gün milyonlarca kullanıcı tarafından aktif olarak kullanılıyor. Bu modellerin geliştirilmesinde kullanılan eğitim materyalleri, kitaplar, makaleler ve internet sitelerinden elde edilen metinlerden oluşuyor. Son dönemdeki tartışmalar ise bu sürecin, internet kullanıcılarının çevrimiçi hareketlerinden veri toplama üzerine yoğunlaştığını gösteriyor.
İnternet hizmetlerine erişim öncesinde kullanıcıların robot olmadıklarını teyit eden CAPTCHA ve reCAPTCHA testleri, teknoloji firmaları için güvenlik önleminin ötesinde bir anlam taşıyor. Kullanıcılara sunulan görseldeki harfleri yazma veya nesneleri ayırt etme gibi basit görevler içeren bu testlerin, yapay zeka araçlarının eğitimi için kullanıldığı iddia ediliyor. Google’ın trafik lambaları ve yaya geçitleri gibi nesneleri içeren testleri, yapay zeka destekli insansız araçlar için veri topladığı şeklinde yorumlanıyor.
Google Cloud’dan bir sözcü, reCAPTCHA kullanıcı verilerinin yalnızca hizmeti iyileştirme amacıyla kullanıldığını ve hizmet şartlarında bunun açıkça belirtildiğini ifade etti.
Yapay zeka eğitiminde gündelik kullanımların rolü, oyunlar gibi farklı alanlara da yayıldı. Niantic firmasının 2016’da piyasaya sürdüğü Pokemon Go oyunu, oyuncuların GPS ve kameralar aracılığıyla gerçek dünyada karakterleri arayarak oluşturduğu büyük görsel veri havuzu nedeniyle eleştirilerin odağına yerleşti. MIT Technology Review’a göre Niantic Spatial, bu verileri kullanarak gerçek dünyanın sanal bir modelini üretti ve GPS’in güvenilir olmadığı yerlerde robot hareketini kolaylaştırmayı hedefliyor. Firma, Kasım 2024’te yaptığı açıklamada, oyuncuların sunduğu verilerin kullanıldığını doğruladı ancak bu özelliğin tamamen opsiyonel olduğunu vurguladı.
Lozan Üniversitesi’nden Profesör Christian Peukert’e göre, kullanıcılar metin tanıma sistemlerinin iyileştirilmesine dolaylı olarak katkıda bulunuyor. CAPTCHA testlerinin eski versiyonlarında, kullanıcıların tanıdık olmayan kelimelere verdiği yanıtlar, e-kitap uygulamaları gibi dijitalleşme çabaları kapsamında veri olarak depolanıyordu. Peukert, yapay zeka eğitiminin büyük kısmının, kullanıcıların farkında olmadan internette ürettiği pasif verilere dayandığını belirtti.
Sosyal medya platformları Reddit ve Twitter, dil modellerini eğiten metinler sağlıyor. Instagram gibi görsel platformlarda açıklamalar ve etiketler görsel verinin etiketlenmesine yardımcı oluyor. Google aramaları dil anlama sistemlerini geliştirirken, Google Haritalar ve Waze gibi navigasyon uygulamaları hareket verileri topluyor. Sesli asistanlarla yapılan görüşmeler de kayıt altına alınarak sistemleri iyileştirmede kullanılıyor.
Profesör Peukert, bu veri birikiminin gizlilik ve güvenlik açısından sorunlar yarattığını, büyük veri kümelerine dahil edilen verilerin kontrolünün zorlaştığını belirtti. Ancak Peukert, insan kaynaklı verilerin dil teknolojileri, çeviri, erişilebilirlik araçları ve arama motorları gibi hizmetlerde faydalı kullanımlarını da örnek gösterdi.
Yorum Yap