Büyük dil modellerinden gelen metin çıktıları kağıt fabrikalarını kirletiyor – hatta bazı hakemli yayınlarda bile.
Şubat ayında, saçma bir şekilde üretilen bir fare penisinin bir şekilde geri çekilen Frontiers in Cell and Developmental Biology makalesine sızdığı ortaya çıktı. Şimdi o garip facia, bilimsel literatürde gelişmekte olan daha kalıcı bir sorunun belirgin bir örneği olabilir gibi görünüyor. Dergiler, araştırmacıların popüler ancak gerçeklere aykırı üretken AI araçlarını kullanarak makale taslağı oluşturmalarına veya görüntüler üretmelerine nasıl en iyi şekilde yanıt verecekleri konusunda şu anda bir yol ayrımında. AI kullanımına dair kanıtları tespit etmek her zaman kolay olmasa da, bu hafta 404 Media’dan gelen yeni bir rapor, gözlerden kaçan düzinelerce kısmen AI tarafından üretilen yayınlanmış makalelerin olduğunu gösteriyor gibi görünüyor. Ölü vermek? Yaygın olarak kullanılan, bilgisayar tarafından üretilen jargon.
404 Media, AI tarafından oluşturulan “Son bilgi güncelleme tarihim itibariyle” cümlesini Google Scholar’ın genel veritabanında araştırdı ve kopyalanmış ve yapıştırılmış AI model çıktılarına dayandığı görünen 115 farklı makale bulduğunu raporladı. Bu kelime dizisi, OpenAI’in ChatGPT gibi büyük dil modelleri tarafından sık sık üretilen ifadelerden sadece biri. Bu durumda, “bilgi güncelleme” bir modelin referans verilerinin güncellendiği zamanı ifade eder. Diğer yaygın yaratıcı-AI ifadeleri arasında “Bir AI dil modeli olarak” ve “yanıtı yeniden oluştur” bulunmaktadır. Akademik literatürün dışında, bu AI kalıntıları Amazon ürün incelemelerinde ve çeşitli sosyal medya platformlarında da görülmüştür.
404 Media tarafından alıntı yapılan bazı makaleler, kuantum dolanıklığı gibi karmaşık araştırma konularını açıkladığı iddia edilen hakemli dergilere AI metnini doğrudan kopyaladığı görünüyordu. Diğer yaygın yaratıcı AI ifadesi “Gerçek zamanlı veriye erişimim yok” olan dergi makalelerinin örnekleri de X, eski adıyla Twitter’da hafta sonu paylaşıldı. PopSci tarafından incelenen örneklerin en azından bazıları AI modelleri üzerine yapılan araştırmalarla ilgili gibi görünüyordu. Başka bir deyişle, AI söylemleri, bu durumlarda konu materyalinin bir parçasıydı.
It gets worse. Apparently if you search “as of my last knowledge update” or “i don’t have access to real-time data” on Google Scholar, tons of AI generated papers pop up. This is truly the worst timeline. pic.twitter.com/YXZziarUSm
— Life After My Ph.D. (@LifeAfterMyPhD) March 18, 2024
Bu ifadelerin birçoğu saygın, tanınmış dergilerde görünse de, 404 Medya, bulduğu örneklerin çoğunun küçük, sözde “kağıt fabrikalarından” kaynaklandığını iddia ediyor. Bu fabrikalar, genellikle ücret karşılığında ve bilimsel denetim veya titiz hakem değerlendirmesi olmaksızın hızla makaleler yayınlamaya odaklanan yerlerdir. Araştırmacılar, bu kağıt fabrikalarının yaygınlaşmasının son yıllarda sahte veya kopyalanmış akademik bulguların artmasına katkıda bulunduğunu iddia ettiler.
Güvenilir olmayan AI tarafından üretilen iddialar daha fazla geri çekilmeye neden olabilir.
Son zamanlarda yayınlanan dergi makalelerinde görünen açık AI tarafından üretilen metin örnekleri, genel olarak geri çekilmelerde bir artışla birlikte geliyor. Geçen yıl yayınlanan araştırma makalelerinin bir Doğa analizi, daha önce ölçülen yıllardan daha fazla olan 10.000’den fazla geri çekilmeyi buldu. Bu vakaların çoğu AI tarafından üretilen içerikle ilişkilendirilmese de, endişeli araştırmacılar yıllardır bu araçların artan kullanımının daha fazla yanlış veya yanıltıcı içeriğin hakem değerlendirme sürecinden geçmesine neden olabileceğinden korkuyorlar. Utandırıcı fare penis durumunda, tuhaf görüntüler ve anlamsız AI tarafından üretilen etiketler olan “dissiliced” ve “testtomcels” gibi ifadeler, farklı hakemler tarafından fark edilmeden veya rapor edilmeden kaydırmayı başardı.
AI tarafından üretilen metin içeren makalelerin yaygınlaşacağını düşünmek için iyi bir neden var. 2014 yılında, IEEE ve Springer dergileri, anlamsız AI tarafından üretilen dil içeren 120’den fazla makaleyi kaldırdılar. AI tarafından üretilen metinlerin dergilerdeki yaygınlığı, o zamandan bu yana daha sofistike ve daha kolay kullanılabilir araçlar gibi OpenAI’s ChatGPT’nin daha geniş kabul görmesiyle neredeyse kesinlikle artmıştır.
2023’te Nature tarafından yapılan bilim insanları anketi, katılımcıların yaklaşık %30’unun, yani 1,600 kişinin, el yazılarını yazmalarına yardımcı olmak için yapay zeka araçlarını kullandığını ortaya koydu. “Bir yapay zeka algoritması olarak” gibi ifadeler, bir cümlenin büyük dil modeli (LLM) kökenini açığa çıkararak ölü doğrular olabilirken, teknolojinin daha ince kullanımları çok daha zor tespit edilebiliyor. Yapay zeka tarafından üretilen metni tanımlamak için kullanılan tespit modelleri, hayal kırıklığı yaratacak şekilde yetersiz kalmış durumda.
Bazı durumlarda yapay zeka tarafından üretilen metinlere izin verilmesini destekleyenler, bu metinlerin yabancı dil konuşanların kendilerini daha net ifade etmelerine yardımcı olabileceğini ve dil engellerini azaltabileceğini söylüyorlar. Diğerleri ise bu araçların, sorumlu bir şekilde kullanıldığında, yayın sürelerini hızlandırabileceğini ve genel verimliliği artırabileceğini savunuyor. Ancak bu modeller tarafından üretilen yanlış verilerin veya uydurma bulguların yayınlanması, uzun vadede bir derginin itibarını riske atabilir. Indiana Üniversitesi Tıp Fakültesi profesörü ve makale yazarı Melissa Kacena, son zamanlarda Time dergisiyle yaptığı bir röportajda, “Doğrusu, ChatGPT bazı sahte ifadelerle oldukça ikna ediciydi.” dedi. “Uygun sözdizimini kullandı ve bunları paragrafta doğru ifadelerle entegre etti, bu yüzden bazen hiç uyarı sinyali yoktu.”
Dergiler, üretken yapay zeka etrafında ortak standartlar konusunda anlaşmalıdır
Büyük yayıncılar hâlâ AI tarafından oluşturulan metne izin verilip verilmemesi konusunda hala aynı fikirde değil. 2022’den beri, Science tarafından yayınlanan dergiler, bir editör tarafından ilk kez kabul edilmeyen AI tarafından oluşturulan metin veya resimleri kesinlikle kullanmamaları gerektiği konusunda kısıtlamalar getirmiştir. Diğer yandan Nature, geçen yıl, dergilerinde AI tarafından oluşturulan resimlere veya videolara izin vermeyeceklerini ancak belirli senaryolarda AI tarafından oluşturulan metne izin vereceklerini açıklayan bir bildiri yayınlamıştır. JAMA şu anda AI tarafından oluşturulan metne izin veriyor ancak araştırmacıların göründüğü zamanı ve hangi belirli modellerin kullanıldığını açıklamalarını gerektiriyor.
Bu politika farklılıkları, çalışmalarını sunan araştırmacılar ve bunları incelemekle görevli hakemler için gereksiz karmaşa yaratabilir. Araştırmacıların zaten makalelerini hızlı bir şekilde yayınlamalarına ve genel olarak yayımlanan çalışmalarının sayısını artırmalarına yardımcı olacak araçları kullanmaya teşvikleri var. Büyük dergiler tarafından kabul edilen bir standart, araştırmacıların izleyebileceği net sınırlar belirleyecektir. Ayrıca, daha büyük ve köklü dergiler, teknolojinin belirli kullanımlarının etrafında sıkı sınırlar çizerek veya teknolojinin gerçek iddialarda bulunmaya çalıştığı durumlarda tamamen yasaklayarak, daha az dürüst kağıt fabrikalarından kendilerini daha fazla ayırabilirler.
*Bu yazı AI-generated nonsense is leaking into scientific journals başlıklı yazıdan çevrilmiştir.