Yapay zekanın gelişimi büyük veri ihtiyacını beraberinde getiriyor. Bu verilerin ana kaynağı ise çoğunlukla internet oluyor. Ancak internet üzerindeki her türlü veri yapay zeka eğitimlerinde kullanılamıyor.
Web siteleri robots.txt adlı dosyalar aracılığıyla hangi verilerin toplanabileceğini belirler. Reuters haberine göre bazı yapay zeka geliştiricileri, bu dosyalardaki kuralları ihlal ederek veri toplamayı sürdürüyor. Özellikle ‘ücretsiz yapay zeka arama motoru’ olarak tanımlanan Perplexity, bu konuda en çok eleştirilen firmalar arasında yer alıyor.
OpenAI ve Anthropic, robots.txt yönergelerine uymuyor
Aynı durum OpenAI ve Anthropic gibi diğer büyük oyuncular için de geçerli. Gelen raporlar, bu firmaların içerikleri yasaklayan robots.txt yönergelerini görmezden geldiklerini belirtiyor. Perplexity CEO’su Aravind Srinivas, daha önce yaptığı açıklamada, firmanın önce protokolleri ihlal ettiğini ve sonrasında bu konuda yalan söylemediğini ifade etmişti.
Robots.txt protokolü, 1990’lı yıllardan bu yana kullanılmakta olup herhangi bir yasal bağlayıcılığı bulunmamaktadır. Bu durum protokole yeni düzenlemeler getirilmesi gerektiğini ve muhtemelen sorunun çözümüne katkı sağlayacak daha sıkı kuralların oluşturulmasını gerektiriyor.