Gökhan Zan ve Ötesi: “Deepfake mi, Montaj mı, Üretilen Ne ise…”

Türkiye’nin deepfake ile bu denli haşır neşir olduğu son olay Mayıs 2023 seçimleriydi. Şimdi önemli bir seçimin daha eşiğindeyiz ve deepfake yine gündemimizde.

Bu kez birçoğumuzun muhtemelen beklemediği bir bağlamda karşımıza çıktı. Türkiye İşçi Partisi’nin (TİP) Hatay büyükşehir adayı Gökhan Zan’ın adaylığını geri çektiğini açıklamasıyla…

Mevzuyu az çok herkes biliyor. Zan’a ait olduğu iddia edilen ve televizyonlarda yayınlanan ses kayıtlarında Zan’ın Ak Parti’yle adaylıktan çekilmemesi karşılığında 3 ila 5 milyon dolar arasında para almak üzere Turgay Kocakaya aracılığıyla pazarlık yaptığına yönelik emareler var.

Bu yazıda bizi ilgilendiren kısım, Zan’ın bu kayıtları “deepfake, montaj ve kurgu” diye nitelemesi.

Zan son olarak Enver Aysever’in YouTube programında bu konuya değindi. Aysever’in “Bu kayıt tam olarak nedir?” sorusuna, “Deepfake mi, montaj mı, üretilen ne ise artık… Külliyen yalan.” cevabını verdi.

Konuyla ilgili Aslıhan Gençay’ın P24’te kaleme aldığı yazıda da “Arkadaşı olarak gördüğü Turgay Kocakaya’nın çeşitli zaman dilimlerinde ve aralarındaki sohbetlerde ortam kaydına aldığı sesini, Lütfü Savaş ve yanındakilere ileterek bu montaj kaydın oluşturulmasını sağladığını, öne sürdü” ifadeleri yer alıyor.

“Sonrasında ise bu kayıtlar, Kocakaya’yı Zan’ın yanına gönderenler tarafından deep fake yöntemiyle işlenmiş ve dinlediğimiz ses kaydı oluşturulmuştu.” diyen Gençay, yazının ilerleyen bölümünde de şöyle bir ek yapıyor:

“Turgay Kocakaya’nın, İskenderun’da oturdukları bir kafede sohbet esnasında sorduğu ‘Seçimi kazanamazsan ne yapacaksın?’sorusuna verdiği cevabı kaydettiğini ve bu bölümün malum ses kaydına montajlandığını öne sürdü Zan.”

HER MONTAJ DEEPFAKE DEĞİLDİR

İngilizce deep learning (derin öğrenme) ve fake (sahte) kelimelerinin birleşimiyle oluşan deepfake kabaca birinin yüzünü dijital olarak başka birinin vücuduna monte edip elde ettiğiniz görüntüyü istediğiniz gibi kullanmanıza olanak tanıyan bir teknoloji. Kısacası internetten kolayca ulaşılabilen algoritmalar sayesinde A kişisinin yüzü B kişisine montajlanabiliyor.

Ancak sahte ses kayıtları da deepfake’in bir türü. Bunlara da audio deepfake veya sesli deepfake deniyor. Bu teknolojinin çıkış noktası insan yaşamını iyileştirmeye yönelik çeşitli uygulamalar geliştirmekti. Örneğin, sesli kitap üretmek ve tıbbi sorunlar nedeniyle sesini kaybetmiş kişilerin iletişim kurmasına yardımcı olmak bu amaçlardan bazıları.

Ancak deepfakeler, diğer yapay zeka teknolojilerinde olduğu gibi son derece riskli bir kullanım alanına da sahne oluyor. Özellikle de seçim ve savaş dönemlerinde.

Bu noktada montajlanan veya bağlamından koparılan her görüntü ve kaydın deepfake olmadığını vurgulamak gerek. Mayıs 2023 seçimlerinden önce de siyasetçilerin miting konuşmalarının veya televizyondaki açıklamalarının küçük bir kısmının kırpılması ve bağlamından koparılmasıyla ortaya çıkan görüntüler deepfake zannedilmişti.

Öte yandan deepfake ile oluşturulan içerikler, bunların aksine, tamamen kurgu ürünü olabilir. Videoda görülen veya sesi duyulan kişi aslında o sözleri hiçbir zaman söylemediyse ama kayıtta duyulan ses gerçekten de o kişinin sesiyle tıpa tıp aynı gibi geliyorsa işte bu noktada deepfake’ten bahsedebiliriz.

HA MONTAJ HA DEEPFAKE, NE ÖNEMİ VAR?

Pek çoklarının aklına bu soru gelecektir. Ancak bilgi ekosistemi ve siyaset açısından bunun büyük önemi olabilir.

Nitekim Gökhan Zan’ın bu sözleri farklı konu başlıklarında, farklı zamanlarda sarf edip etmediği de bir veridir. Zaten TİP tarafı bunu da tartışma konusu ediyor.

Konuyla ilgili ilk açıklamasını T24’ten Murat Sabuncu’ya yapan TİP Genel Başkanı Erkan Baş, “Kazanamazsam geleceğimi düşünmem gerekir’ gibi ifadeleri arkadaşlarımıza söyledi. Bundan sonrası bizim sorumluluğumuz değil, mahkemeler karar verecek” demişti.

Yukarıda da bahsetmiştik. Zan, Kocakaya’nın, İskenderun’da oturdukları bir kafede sohbet esnasında sorduğu “Seçimi kazanamazsan ne yapacaksın?”sorusuna verdiği cevabı kaydettiğini söylüyor. Baş’ın bu açıklaması Zan’ın ne bağlamda olursa olsun bu sözleri sarf etmiş olmasından hoşlanmadıklarının göstergesi.

İşte bu bağlamda ses kaydının gerçek konuşmaların birbirine eklenerek bağlamdan koparıldığı bir montaj mı olduğu, yoksa Zan’ın kayıtta duyulan sözleri hiç mi dile getirmediği (bu durumda deepfake’ten söz edilebilir) siyasi bağlamda çok önemli bir hâl alıyor.

DEEPFAKE O KADAR GELİŞTİ Mİ?

Bu sorunun cevabı da “evet”. Deepfake’ler uzun süredir sinema sektöründe sık kullanılıyor. Örneğin sesi kısılan veya sesini kaybeden oyuncular için dijital ses oluşturmak veya oyuncular repliklerini şaşırırsa sahneyi yeniden çekmek yerine daha kolay yoldan düzeltmek için bu teknolojiye başvurulabiliyor.

Son günlerde Instagram videoları arasında gezinen kullanıcılar, İbrahim Tatlıses ve Yıldız Tilbe’nin ya da Doğu Perinçek ve Ertuğrul Kürkçü’nün geçmişteki meşhur tartışmalarının İngilizce versiyonlarına tanık olmuştur. Siyasilerin çeşitli türküleri seslendiriyor gibi göründüğü videolar da epey

popüler. Bu videoların ardında da çoğunlukla ünlü şahsiyetlerin seslerini klonlayan yapay zeka araçları var.

Bunların önde gelen örneklerinden biri ElevenLabs firmasının geliştirdiği Voice Lab. Şubat ayında VICE muhabiri Joseph Cox, bu uygulamayı kullanarak kendi sesini kopyalamıştı. Daha sonra bankasını arayan Cox, telesekretere yapay zeka üretimi ses dosyasını dinletmiş, böylece sesli imza uygulamasını kandırmayı ve hesaplarına erişmeyi başarmıştı.

Bu uygulamalar genellikle kopyalanması istenen sesin birkaç dakikalık kaydının yüklenmesiyle çalışıyor. Bu araçlar önceki daha basit örneklerin aksine gerçekçi ses dosyaları üretmeleriyle öne çıkıyor. Örneğin Murf adlı bir diğer araç, öfke ve mutluluktan üzüntüye ve daha fazlasına kadar çeşitli insan duygularını taklit ederek ses klonluyor. Resemble AI ise kopyalanacak sesin vurgularını ve noktalama işaretlerini tanımlayabilecek şekilde tasarlanmış.

Söz konusu teknoloji, kısa süre önce Spotify’ın artık podcastleri sunucuların kendi sesleriyle istenen dillere çevireceğini duyurmasıyla yeniden gündeme geldi. Yani artık Spotify kullanıcıları, İngilizce podcastleri konuşmacıların kendi sesleriyle Türkçe dublajlı dinleyebilecek.

KÜRESEL SEÇİM YILINDA DEEPFAKE

Kısa süre önce Teyitpedia’da yayımlanan bir yazımda 2024’te dünya nüfusunun yaklaşık dörtte birinin sandık başına gideceğini vurgulamıştım.

ABD, Birleşik Krallık, Avrupa Parlamentosu ve Hindistan da dahil olmak üzere birden fazla coğrafyada seçimler yapılacak. Türkiye’de de biliyorsunuz ki mart sonunda yerel yönetimlere karar vermek için sandığa gidiyoruz.

Dezenformasyon ve yapay zeka destekli sahteciliğin böyle kritik bir yılda hem Türkiye’de hem de dünyada daha da fazla gündeme gelmesi muhtemel.

Üstelik üretken yapay zeka ağlarının (GenAI / kullanıcıların komutları doğrultusunda görsel, yazılı veya sesli çıktılar oluşturan araçlar) ChatGPT’yle birlikte yaygınlaşması da deepfake üretimini son derece ucuz ve kolay hâle getirdi. Bu da sahte içerik sayısının artabileceği yönünde endişelere neden oluyor.

BIDEN’IN SAHTE SES KAYDI

ABD de kasım ayında yapılacak başkanlık seçimi yaklaşırken, deepfake girişimlerine sıklıkla sahne oluyor.

Son olarak bir devlet yetkilisinin çalışanlarının seçim günü onlara ihtiyaç olmayacağını söyleyen sesli bir deepfake kaydı almasıyla endişeler doruğa ulaştı.

Ocak 2024’te aday adaylarının yarıştığı ön seçimlerde ABD Başkanı Joe Biden’ın sahte ses kaydı da New Hampshire’daki seçmenler arasında dolaşıma sokulmuştu. Otomatik çağrılar yoluyla seçmenlere dinletilen kayıtta Biden’ın seçmenlere “ön seçimlerde oy kullanmamaları ve oylarını kasım ayındaki başkanlık seçimine saklamalarını” öğütlediği duyuluyordu.

Bu olaydan günler sonra Biden’ın sahte ses kaydının yukarıda da bahsi geçen ElevenLabs firmasının bir aracıyla oluşturulduğu ortaya çıktı. Böylece ElevenLabs, sahte Biden sesini üreten kişiyi araçlarını kullanmaktan men etti.

Birkaç hafta içinde ABD hükümeti de yapay zeka tarafından üretilen seslerin kullanıldığı otomatik aramaları yasakladı.

DEEPFAKE SES KAYITLARINI TESPİT ETMEK MÜMKÜN MÜ?

ABD’deki örnekte kayıtların sahte olduğunu anlamak nistepen kolay. Nitekim Biden’ın kendi seçmenlerine “Oy kullanmayın” demesini beklemek mümkün değil.

Ancak Gökhan Zan örneğini düşündüğümüzde işler biraz daha karışıyor.

Zan, söz konusu kayıtla birlikte savcılığa başvurduğunu açıklamıştı. TİP’in de önce kriminal inceleme yürüttüğü ve kaydın doğru olduğunu tespit ettiği söylenmiş ancak Erkan Baş daha sonra bu iddiayı yalanlamıştı. Görünen o ki parti yetkililerin ses kaydının gerçekliğine dair fikri yok. Bu yüzden gözler, mahkemeden gelecek karara çevrildi.

Ses deepfake’lerini tanımlamanın tartışmasız en etkili yolu, makine öğrenimini ve Üretken Rekabetçi Ağlar (GAN’ler) gibi gelişmiş sinir ağlarını kullanan derin öğrenme modellerinin kullanılması. Bu modeller kayıtlardaki ince nüansları tespit etmek üzere eğitiliyor.

Ünlü bilimsel dergi Scientific American, Kaliforniya Üniversitesi, Berkeley’de dijital adli tıp ve medya analizi üzerine çalışan bilgisayar bilimleri profesörü Hany Farid’le ocak ayında bu konuyla ilgili bir röportaj yapmıştı. Farid, deepfake tespiti için ses, görüntü ve videoları analiz eden araçlar geliştiriyor.

Farid, “Herhangi bir deepfake soruşturmasında çok yönlü bir yaklaşım görmek isterim. Öncelikle birden fazla uzmanla konuşmalı ve hepimiz analizlerimizi yapmalıyız. İkincisi, söz konusu içeriğin kaynağı hakkında daha fazla bilgiye ihtiyacımız olduğunu düşünüyorum. Nerede kaydedildi? Ne zaman kaydedildi? Kim kaydetti? Bunu ilk yayınlayan haber kurumuna kim sızdırdı?” diyor.

Akademisyene göre bu noktada kaydın kesilip kesilmediği ve uzunluğu da önemli. Çünkü yapay zeka, uzun parçalardan ziyade kısa parçalarda daha iyi çalışıyor.

“Bunların tespit edilmesi zor çünkü incelikli ve karmaşıklar. Çıta her zaman daha yükseğe çıkıyor.” diyen Farid, halihazırda halka açık hiçbir tespit aracının yeterince güvenilir olmadığını ekliyor.

DEEPFAKE TEKNOLOJİLERİ ARAPÇA GİBİ DİLLERDE ETKİN Mİ?

Gökhan Zan’a ait olduğu iddia edilen ses kaydının yarı Türkçe, yarı Arapça olması da dikkatleri çekti. Arapçanın çok farklı lehçeleri olması ve bu lehçelerin kendilerine özgü nüansları olması deepfake teknolojilerinin bu gibi dillerde kullanılıp kullanılamayacağı sorusunu ortaya çıkarıyor.

Nitekim bu durum, tüm lehçeleri doğru bir şekilde anlayıp yorumlayabilen yapay zeka sistemlerinin geliştirilmesini zorlaştırıyor. Ancak genel olarak deepfake’lerin Arapça da dâhil olmak üzere çeşit çeşit dilde etkin biçimde kullanılabildiğini söyleyebiliriz.

Örneğin Hindistan Başbakanı Narendra Modi’nin bölgesel dillerde şarkı söylediği Instagram videoları ve Endonezya başkan adayları Prabowo Subianto ve Anies Baswedan’ın akıcı Arapça konuştuğu TikTok videoları son zamanlarda viral hale geldi. Bunların hepsi deepfake araçlarla oluşturuluyor.

Daha 2019’de, üretken yapay zeka ağları ve deepfake’ler hayatımıza bu denli girmemişken, ünlü futbolcu David Beckham’ın sıtmayla mücadele için katıldığı reklam kampanyasında 9 dilde insanlara seslendiği görülmüştü. Bu diller arasında Arapça, Hintçe veya Uganda’nın resmi dili olan Kinyarwanda da vardı. Üstelik Beckham bu dillerin hiçbirini bilmiyordu. Kayıtlar deepfake araçlarıyla oluşturulmuştu.

Seçmenler neyin gerçek, neyin sahte olduğunu ayırt edemez hâle geliyor

Deepfake’in yurttaşlar üzerindeki önemli bir etkisi de gerçeklik algısını bulandırması. Kısa süre önce yayımlanan bir araştırma, savaş zamanlarında siyasi amaçlı hazırlanan deepfake videoların, sosyal medya kullanıcılarının gerçeklik algısını bozduğunu ortaya koyuyor.

Hakemli bilimsel dergi Plos One’da yayımlanan araştırmada kullanıcıların sosyal medyada rastladıkları doğru haberleri ve kaynak göstererek haber yapan medya kuruluşlarının içeriklerini de “sahtekarlık” olarak değerlendirerek göz ardı ettiği ortaya çıkmıştı.

Bu da deepfake ve genel olarak dezenformasyonla mücadelenin özellikle seçimler gibi kritik uğraklarda ne denli önemli olduğunu gözler önüne seriyor.

Gökhan Zan ve Ötesi: “Deepfake mi, Montaj mı, Üretilen Ne ise…”

Fikir Gazetesi'ne Destek Ol