Yapay zeka endüstrisindeki son gelişmeler bazıları tarafından dördüncü sanayi devrimi olarak görülüyor. Büyük modellerin ortaya çıkışı, çeşitli sektörlerde verimliliği önemli ölçüde artırdı, raporlara göre GPT, ABD'de iş verimliliğini yaklaşık %20 oranında artırdı. Aynı zamanda, büyük modellerin getirdiği genelleme yeteneği, yeni bir yazılım tasarım paradigması olarak değerlendiriliyor; geçmişteki hassas kod tasarımına kıyasla, günümüz yazılım tasarımı daha fazla genelleştirilmiş büyük model çerçevesinin yazılıma entegre edilmesine dayanıyor, bu da yazılımın daha iyi performans göstermesini ve daha geniş modalite girişi ve çıkışını desteklemesini sağlıyor. Derin öğrenme teknolojisi gerçekten de AI endüstrisine dördüncü bir refah getirdi, bu dalga kripto para endüstrisine de yayıldı.
Bu rapor, AI sektörünün gelişim tarihi, teknoloji sınıflandırmaları ve derin öğrenme teknolojisinin icadının sektöre etkisi üzerinde detaylı bir şekilde duracaktır. Ardından, derin öğrenmedeki GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi endüstri zincirinin yukarı ve aşağı akışını ve bunların mevcut durumu ile trendlerini derinlemesine analiz edecektir. Daha sonra, kripto para birimi ile AI sektörü arasındaki ilişkiyi özünde detaylı bir şekilde inceleyecek ve kripto para birimi ile ilgili AI endüstri zinciri yapısını gözden geçirecektir.
AI sektörünün gelişim tarihi
AI endüstrisi 1950'li yıllardan itibaren başlamış olup, yapay zekanın vizyonunu gerçekleştirmek için akademik ve sanayi dünyası farklı dönemlerde farklı disiplin arka planlarında yapay zekayı gerçekleştirmek için birçok akım geliştirmiştir.
Modern yapay zeka teknolojisi, "makine öğrenimi" terimini esas olarak kullanmaktadır; bu teknik anlayış, makinelerin verilerden yararlanarak görevlerde sürekli olarak yineleme yaparak sistem performansını geliştirmesini sağlamaktır. Ana adımlar, verilerin algoritmaya gönderilmesi, bu verileri kullanarak modelin eğitilmesi, modelin test edilmesi ve dağıtılması, ardından modelin otomatik tahmin görevlerini yerine getirmek için kullanılmasıdır.
Şu anda makine öğreniminde üç ana akım bulunmaktadır: bağlantıculuk, sembolistlik ve davranışçılık; bunlar sırasıyla insanın sinir sistemi, düşünceleri ve davranışlarını taklit etmektedir.
Şu anda sinir ağlarıyla temsil edilen bağlantıcılar üstünlük sağlamaktadır ( ayrıca derin öğrenme olarak da adlandırılmaktadır ), bunun başlıca nedeni bu yapının bir giriş katmanı, bir çıkış katmanı ve birçok gizli katmana sahip olmasıdır; katman sayısı ve nöron ( parametre ) sayısı yeterince fazla olduğunda, karmaşık genel görevleri modelleme fırsatı yeterince sağlanır. Veri girişi ile nöron parametreleri sürekli olarak ayarlanabilir, sonuçta birçok veri sürecinden geçtikten sonra, bu nöron en iyi duruma ulaşır ( parametre ), bu da "güçlü bir şekilde mucizeler yaratmak" olarak adlandırılır ve "derinlik" kelimesinin kaynağıdır - yeterince fazla katman ve nöron.
Bir örnek vermek gerekirse, bu, bir fonksiyon oluşturmak olarak basitçe anlaşılabilir; bu fonksiyona X=2 girdiğimizde Y=3 ve X=3 girdiğimizde Y=5 oluyor. Eğer bu fonksiyonun tüm X değerlerine karşılık gelmesini istiyorsak, bu fonksiyonun derecesini ve parametrelerini sürekli eklememiz gerekiyor. Örneğin, bu koşulu sağlayan bir fonksiyon Y = 2X -1 olarak oluşturabilirim, ancak eğer bir veri X=2, Y=11 ise, bu üç veri noktası için uygun bir fonksiyon yeniden oluşturulmalıdır. GPU kullanarak kaba kuvvet yöntemiyle Y = X2 -3X +5 buldum, bu oldukça uygun, ancak verilerle tam olarak örtüşmesi gerekmiyor; sadece dengeyi koruması ve benzer bir çıktı vermesi yeterli. Burada X2, X ve X0 farklı nöronları temsil ediyor, 1, -3 ve 5 ise bunların parametreleridir.
Bu durumda, eğer sinir ağına büyük miktarda veri girersek, yeni verileri uyum sağlamak için nöronları artırabilir ve parametreleri yineleyebiliriz. Bu şekilde tüm verileri uyum sağlayabiliriz.
Ve sinir ağlarına dayanan derin öğrenme teknolojisi, en erken sinir ağları, ileri beslemeli sinir ağları, RNN, CNN, GAN gibi birçok teknik iterasyona ve evrime sahiptir. Son olarak, modern büyük modellerin örneğin GPT gibi kullandığı Transformer teknolojisine evrilmiştir. Transformer teknolojisi, sinir ağlarının bir evrim yönüdür ve bir dönüştürücü ( Transformer ) ekler. Bu, tüm modları (, ses, video, resim gibi ) verileri, karşılık gelen sayısal değerlerle temsil etmek için kodlamaktadır. Ardından, bu veriler sinir ağına giriş olarak verilir, böylece sinir ağı her türlü veriyi uyumlu hale getirebilir, yani çok modlu gerçekleştirilir.
Yapay zeka gelişimi üç teknik dalgadan geçti. İlk dalga 1960'lı yıllarda, yapay zeka teknolojisinin ortaya çıkmasından on yıl sonra gerçekleşti. Bu dalga, sembolist teknolojinin gelişiminden kaynaklandı ve genel doğal dil işleme ile insan-makine diyalog problemlerini çözdü. Aynı dönemde, uzman sistemler doğdu; bu, Stanford Üniversitesi'nin Amerika Birleşik Devletleri Ulusal Havacılık ve Uzay Dairesi'nin teşvikiyle tamamlanan DENRAL uzman sistemidir. Bu sistem, oldukça güçlü bir kimya bilgisine sahiptir ve sorular aracılığıyla çıkarım yaparak kimya uzmanlarıyla aynı cevapları üretir. Bu kimya uzman sistemi, bir kimya bilgi tabanı ile çıkarım sisteminin birleşimi olarak değerlendirilebilir.
Uzman sistemlerinden sonra, 1990'larda İsrailli Amerikalı bilim insanı ve filozof Judea Pearl(, Bayes ağlarını, aynı zamanda inanç ağları olarak da bilinen bir yapıyı önerdi. Aynı dönemde, Brooks davranış temelli robotik önerdi ve bu davranışçılığın doğuşunu simgeliyor.
1997 yılında, IBM'in Deep Blue, satranç şampiyonu Kasparov'u 3.5:2.5 yenerek büyük bir başarı elde etti. Bu zafer, yapay zekanın bir dönüm noktası olarak kabul edildi ve AI teknolojisi ikinci bir gelişim zirvesine ulaştı.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi Yann LeCun, Geoffrey Hinton ve Yoshua Bengio, verileri temsil öğrenme algoritması olarak yapay sinir ağlarını temel alan derin öğrenme kavramını ortaya attılar. Daha sonra derin öğrenme algoritmaları, RNN, GAN'dan Transformer ve Stable Diffusion'a kadar evrim geçirdi; bu iki algoritma, bu üçüncü teknolojik dalgayı şekillendirdi ve bu aynı zamanda bağlantıcıların altın çağıdır.
Derin öğrenme teknolojisinin keşfi ve evrimi ile birlikte birçok ikonik olay da ortaya çıkmaya başladı, bunlar arasında:
2011 yılında, IBM'in Watson )Watson(, "Tehlikeli Sınırlar" )Jeopardy( bilgi yarışmasında insanları yenerek şampiyon olmuştur.
2014 yılında, Goodfellow GAN) Üretken Çatışma Ağı, Generative Adversarial Network('yi önerdi. İki sinir ağının karşılıklı olarak oyun oynaması yoluyla öğrenme gerçekleştirerek gerçekçi fotoğraflar üretebilmektedir. Aynı zamanda Goodfellow, derin öğrenme alanında önemli bir giriş kitabı olarak bilinen "Deep Learning" adlı bir kitap da yazdı.
2015 yılında, Hinton ve arkadaşları "Nature" dergisinde derin öğrenme algoritması önerdiler, bu derin öğrenme yönteminin önerilmesi, akademik çevrelerde ve sanayi dünyasında hemen büyük bir yankı uyandırdı.
2015 yılında, OpenAI kuruldu. Musk, YC Başkanı Altman, melek yatırımcı Peter Thiel ) gibi isimler ortaklaşa 1 milyar dolar yatırım yapacağını açıkladı.
2016'da, derin öğrenme teknolojisi tabanlı AlphaGo, Go dünya şampiyonu ve profesyonel dokuzuncu dan oyuncusu Lee Sedol ile Go insan-makine savaşına girdi ve toplamda 4-1 galip geldi.
2017 yılında, Hong Kong'daki Hanson Robotics şirketi (Hanson Robotics) tarafından geliştirilen insansı robot Sophia, tarihte birinci sınıf vatandaşlık kazanmış ilk robot olarak anılmakta, zengin yüz ifadelerine ve insan dilini anlama yeteneğine sahiptir.
2017 yılında, yapay zeka alanında zengin bir yetenek ve teknoloji havuzuna sahip olan Google, "Attention is all you need" başlıklı bir makale yayınlayarak Transformer algoritmasını tanıttı ve büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018'de OpenAI, Transformer algoritması temelinde inşa edilmiş olan GPT(Generative Pre-trained Transformer)'i yayımladı, bu da o dönemdeki en büyük dil modellerinden biriydi.
2018'de, Google ekibi Deepmind, derin öğrenmeye dayalı AlphaGo'yu tanıttı ve bu, protein yapısı tahminleri yapabiliyor, yapay zeka alanında büyük bir ilerleme işareti olarak görülüyor.
2019'da OpenAI, 1.5 milyar parametreye sahip GPT-2'yi duyurdu.
2020 yılında, OpenAI tarafından geliştirilen GPT-3, 175 milyar parametreye sahip olup, önceki versiyon GPT-2'den 100 kat daha fazladır. Bu model, 570GB metin kullanılarak eğitilmiş olup, birden fazla NLP( doğal dil işleme) görevlerinde( soru yanıtlama, çeviri, makale yazma) gibi alanlarda en ileri düzey performansa ulaşabilmektedir.
2021 yılında, OpenAI GPT-4'ü piyasaya sürdü, bu model 1,76 trilyon parametreye sahip olup, GPT-3'ün 10 katıdır.
2023 yılında GPT-4 modeline dayalı ChatGPT uygulaması piyasaya sürüldü, Mart ayında ChatGPT bir milyar kullanıcıya ulaştı ve tarihin en hızlı bir milyar kullanıcıya ulaşan uygulaması oldu.
2024'te OpenAI, GPT-4 omni'yi tanıtacak.
Not: Yapay zeka ile ilgili çok sayıda makale, çok sayıda akım ve farklı teknolojik evrim olduğu için burada esasen derin öğrenme veya bağlantısalcılığın gelişim tarihini takip edeceğiz; diğer akımlar ve teknolojiler hala hızlı bir gelişim sürecindedir.
Derin Öğrenme Endüstri Zinciri
Mevcut büyük model dilleri, sinir ağına dayalı derin öğrenme yöntemlerini kullanmaktadır. GPT'nin öncülüğündeki büyük modeller, yapay zeka alanında bir dalga yarattı; birçok oyuncu bu alana akın etti ve pazarın veri ve hesaplama gücüne olan talebinin büyük ölçüde patladığını gözlemledik. Bu nedenle, raporun bu bölümünde, derin öğrenme algoritmalarının sanayi zincirini keşfetmeye odaklanıyoruz. Derin öğrenme algoritmalarının yönettiği yapay zeka sektöründe, tedarik zincirinin nasıl oluştuğu, tedarik ve talep ilişkisi, mevcut durum ve gelecekteki gelişmeler nasıldır.
Öncelikle netleştirmemiz gereken şey, Transformer teknolojisine dayalı GPT liderliğindeki LLM'lerin( büyük modelinin) eğitiminde toplamda üç adımın olduğu.
Eğitimden önce, Transformer tabanlı olduğundan, dönüştürücünün metin girişini sayılara dönüştürmesi gerekir; bu işleme "Tokenizasyon" denir. Daha sonra bu sayılara Token denir. Genel bir kural olarak, bir İngilizce kelime veya karakter kaba bir şekilde bir Token olarak kabul edilebilirken, her bir Çince karakter kaba bir şekilde iki Token olarak düşünülebilir. Bu, GPT fiyatlandırmasında kullanılan temel birimdir.
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti vererek, raporun ilk bölümünde örnek olarak verilen (X,Y) gibi, model altındaki her bir nöronun en iyi parametrelerini bulmak, bu aşamada büyük miktarda veri gerekmektedir ve bu süreç, nöronların çeşitli parametreleri denemesi gerektiği için en fazla hesaplama gücü gerektiren süreçtir. Bir grup veri çifti eğitimi tamamlandıktan sonra, genellikle aynı grup veri ile parametreleri yinelemek için ikinci bir eğitim yapılır.
İkinci adım, ince ayar. İnce ayar, daha az sayıda ancak çok yüksek kaliteli verilerle eğitim vermek anlamına gelir; bu tür bir değişiklik, modelin çıktısının daha yüksek kalitede olmasını sağlar çünkü ön eğitim büyük miktarda veri gerektirir, ancak birçok veri hata veya düşük kalite içerebilir. İnce ayar aşaması, kaliteli verilerle modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" diyoruz, bu modelin amacı oldukça basit, çıktının sonuçlarını sıralamak, bu nedenle bu modeli gerçekleştirmek oldukça basit olacak, çünkü iş senaryosu oldukça dikey. Daha sonra bu modeli, büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirlemek için kullanacağız, böylece bir ödül modeli ile büyük modelin parametrelerini otomatik olarak yineleyebiliriz. ( ancak bazen modelin çıktısının kalitesini değerlendirmek için insan katılımı da gereklidir )
Kısacası, büyük modelin eğitim sürecinde, ön eğitim verinin miktarı için çok yüksek taleplerde bulunur, gereken GPU hesaplama gücü de en fazlasıdır, oysa ince ayar yapmak için parametreleri iyileştirmek amacıyla daha yüksek kaliteli verilere ihtiyaç vardır. Pekiştirmeli öğrenme, daha yüksek kaliteli sonuçlar elde etmek için parametreleri tekrar tekrar yinelemek üzere bir ödül modeli aracılığıyla gerçekleştirilebilir.
Eğitim sürecinde, parametre sayısı arttıkça genelleme yeteneğinin tavanı da yükselir. Örneğin, bir fonksiyon örneği olarak Y = aX + b'yi ele alırsak, aslında iki nöron vardır: X ve X0. Bu nedenle, parametreler nasıl değişirse değişsin, uyum sağlayabileceği veriler son derece sınırlıdır, çünkü özünde hala bir doğru üzerindedir. Eğer nöron sayısı artarsa, daha fazla parametre üzerinde iterasyon yapabiliriz ve bu da daha fazla veriyi uyumlu hale getirmemizi sağlar. İşte bu yüzden büyük modellerin mucizeler yaratması sağlanır ve bu aynı zamanda yaygın olarak 'büyük model' olarak adlandırılmasının sebebidir; özünde büyük miktarda nöron ve parametre, büyük miktarda veri ve aynı zamanda büyük miktarda hesaplama gücü gerektirir.
Bu nedenle, büyük modelin performansını etkileyen başlıca üç unsur vardır: parametre sayısı, veri miktarı ve kalitesi, hesaplama gücü. Bu üç unsur, büyük modelin sonuç kalitesini ve genelleme yeteneğini birlikte etkiler. Parametre sayısını p, veri miktarını n( Token sayısı olarak hesaplayarak alalım), bu durumda gerekli hesaplama miktarını genel bir deneysel kural ile hesaplayabiliriz, bu şekilde.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
13 Likes
Reward
13
6
Repost
Share
Comment
0/400
AirdropChaser
· 22h ago
Emiciler Tarafından Oyuna Getirilmek yine geldi.
View OriginalReply0
gas_fee_therapy
· 22h ago
Üst ve alt çok sert oynadı.
View OriginalReply0
RektRecovery
· 08-15 09:41
tipik hype döngüsü... bu öngörülebilir zayıflık manzarasını aylar önce çağırdım, smh
AI ve Kripto Varlıklar: Teknolojik Evrimden Sektörel Ekosistemin Panorama Analizine
AI x Kripto: Sıfırdan Zirveye
Giriş
Yapay zeka endüstrisindeki son gelişmeler bazıları tarafından dördüncü sanayi devrimi olarak görülüyor. Büyük modellerin ortaya çıkışı, çeşitli sektörlerde verimliliği önemli ölçüde artırdı, raporlara göre GPT, ABD'de iş verimliliğini yaklaşık %20 oranında artırdı. Aynı zamanda, büyük modellerin getirdiği genelleme yeteneği, yeni bir yazılım tasarım paradigması olarak değerlendiriliyor; geçmişteki hassas kod tasarımına kıyasla, günümüz yazılım tasarımı daha fazla genelleştirilmiş büyük model çerçevesinin yazılıma entegre edilmesine dayanıyor, bu da yazılımın daha iyi performans göstermesini ve daha geniş modalite girişi ve çıkışını desteklemesini sağlıyor. Derin öğrenme teknolojisi gerçekten de AI endüstrisine dördüncü bir refah getirdi, bu dalga kripto para endüstrisine de yayıldı.
Bu rapor, AI sektörünün gelişim tarihi, teknoloji sınıflandırmaları ve derin öğrenme teknolojisinin icadının sektöre etkisi üzerinde detaylı bir şekilde duracaktır. Ardından, derin öğrenmedeki GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi endüstri zincirinin yukarı ve aşağı akışını ve bunların mevcut durumu ile trendlerini derinlemesine analiz edecektir. Daha sonra, kripto para birimi ile AI sektörü arasındaki ilişkiyi özünde detaylı bir şekilde inceleyecek ve kripto para birimi ile ilgili AI endüstri zinciri yapısını gözden geçirecektir.
AI sektörünün gelişim tarihi
AI endüstrisi 1950'li yıllardan itibaren başlamış olup, yapay zekanın vizyonunu gerçekleştirmek için akademik ve sanayi dünyası farklı dönemlerde farklı disiplin arka planlarında yapay zekayı gerçekleştirmek için birçok akım geliştirmiştir.
Modern yapay zeka teknolojisi, "makine öğrenimi" terimini esas olarak kullanmaktadır; bu teknik anlayış, makinelerin verilerden yararlanarak görevlerde sürekli olarak yineleme yaparak sistem performansını geliştirmesini sağlamaktır. Ana adımlar, verilerin algoritmaya gönderilmesi, bu verileri kullanarak modelin eğitilmesi, modelin test edilmesi ve dağıtılması, ardından modelin otomatik tahmin görevlerini yerine getirmek için kullanılmasıdır.
Şu anda makine öğreniminde üç ana akım bulunmaktadır: bağlantıculuk, sembolistlik ve davranışçılık; bunlar sırasıyla insanın sinir sistemi, düşünceleri ve davranışlarını taklit etmektedir.
Şu anda sinir ağlarıyla temsil edilen bağlantıcılar üstünlük sağlamaktadır ( ayrıca derin öğrenme olarak da adlandırılmaktadır ), bunun başlıca nedeni bu yapının bir giriş katmanı, bir çıkış katmanı ve birçok gizli katmana sahip olmasıdır; katman sayısı ve nöron ( parametre ) sayısı yeterince fazla olduğunda, karmaşık genel görevleri modelleme fırsatı yeterince sağlanır. Veri girişi ile nöron parametreleri sürekli olarak ayarlanabilir, sonuçta birçok veri sürecinden geçtikten sonra, bu nöron en iyi duruma ulaşır ( parametre ), bu da "güçlü bir şekilde mucizeler yaratmak" olarak adlandırılır ve "derinlik" kelimesinin kaynağıdır - yeterince fazla katman ve nöron.
Bir örnek vermek gerekirse, bu, bir fonksiyon oluşturmak olarak basitçe anlaşılabilir; bu fonksiyona X=2 girdiğimizde Y=3 ve X=3 girdiğimizde Y=5 oluyor. Eğer bu fonksiyonun tüm X değerlerine karşılık gelmesini istiyorsak, bu fonksiyonun derecesini ve parametrelerini sürekli eklememiz gerekiyor. Örneğin, bu koşulu sağlayan bir fonksiyon Y = 2X -1 olarak oluşturabilirim, ancak eğer bir veri X=2, Y=11 ise, bu üç veri noktası için uygun bir fonksiyon yeniden oluşturulmalıdır. GPU kullanarak kaba kuvvet yöntemiyle Y = X2 -3X +5 buldum, bu oldukça uygun, ancak verilerle tam olarak örtüşmesi gerekmiyor; sadece dengeyi koruması ve benzer bir çıktı vermesi yeterli. Burada X2, X ve X0 farklı nöronları temsil ediyor, 1, -3 ve 5 ise bunların parametreleridir.
Bu durumda, eğer sinir ağına büyük miktarda veri girersek, yeni verileri uyum sağlamak için nöronları artırabilir ve parametreleri yineleyebiliriz. Bu şekilde tüm verileri uyum sağlayabiliriz.
Ve sinir ağlarına dayanan derin öğrenme teknolojisi, en erken sinir ağları, ileri beslemeli sinir ağları, RNN, CNN, GAN gibi birçok teknik iterasyona ve evrime sahiptir. Son olarak, modern büyük modellerin örneğin GPT gibi kullandığı Transformer teknolojisine evrilmiştir. Transformer teknolojisi, sinir ağlarının bir evrim yönüdür ve bir dönüştürücü ( Transformer ) ekler. Bu, tüm modları (, ses, video, resim gibi ) verileri, karşılık gelen sayısal değerlerle temsil etmek için kodlamaktadır. Ardından, bu veriler sinir ağına giriş olarak verilir, böylece sinir ağı her türlü veriyi uyumlu hale getirebilir, yani çok modlu gerçekleştirilir.
Yapay zeka gelişimi üç teknik dalgadan geçti. İlk dalga 1960'lı yıllarda, yapay zeka teknolojisinin ortaya çıkmasından on yıl sonra gerçekleşti. Bu dalga, sembolist teknolojinin gelişiminden kaynaklandı ve genel doğal dil işleme ile insan-makine diyalog problemlerini çözdü. Aynı dönemde, uzman sistemler doğdu; bu, Stanford Üniversitesi'nin Amerika Birleşik Devletleri Ulusal Havacılık ve Uzay Dairesi'nin teşvikiyle tamamlanan DENRAL uzman sistemidir. Bu sistem, oldukça güçlü bir kimya bilgisine sahiptir ve sorular aracılığıyla çıkarım yaparak kimya uzmanlarıyla aynı cevapları üretir. Bu kimya uzman sistemi, bir kimya bilgi tabanı ile çıkarım sisteminin birleşimi olarak değerlendirilebilir.
Uzman sistemlerinden sonra, 1990'larda İsrailli Amerikalı bilim insanı ve filozof Judea Pearl(, Bayes ağlarını, aynı zamanda inanç ağları olarak da bilinen bir yapıyı önerdi. Aynı dönemde, Brooks davranış temelli robotik önerdi ve bu davranışçılığın doğuşunu simgeliyor.
1997 yılında, IBM'in Deep Blue, satranç şampiyonu Kasparov'u 3.5:2.5 yenerek büyük bir başarı elde etti. Bu zafer, yapay zekanın bir dönüm noktası olarak kabul edildi ve AI teknolojisi ikinci bir gelişim zirvesine ulaştı.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi Yann LeCun, Geoffrey Hinton ve Yoshua Bengio, verileri temsil öğrenme algoritması olarak yapay sinir ağlarını temel alan derin öğrenme kavramını ortaya attılar. Daha sonra derin öğrenme algoritmaları, RNN, GAN'dan Transformer ve Stable Diffusion'a kadar evrim geçirdi; bu iki algoritma, bu üçüncü teknolojik dalgayı şekillendirdi ve bu aynı zamanda bağlantıcıların altın çağıdır.
Derin öğrenme teknolojisinin keşfi ve evrimi ile birlikte birçok ikonik olay da ortaya çıkmaya başladı, bunlar arasında:
2011 yılında, IBM'in Watson )Watson(, "Tehlikeli Sınırlar" )Jeopardy( bilgi yarışmasında insanları yenerek şampiyon olmuştur.
2014 yılında, Goodfellow GAN) Üretken Çatışma Ağı, Generative Adversarial Network('yi önerdi. İki sinir ağının karşılıklı olarak oyun oynaması yoluyla öğrenme gerçekleştirerek gerçekçi fotoğraflar üretebilmektedir. Aynı zamanda Goodfellow, derin öğrenme alanında önemli bir giriş kitabı olarak bilinen "Deep Learning" adlı bir kitap da yazdı.
2015 yılında, Hinton ve arkadaşları "Nature" dergisinde derin öğrenme algoritması önerdiler, bu derin öğrenme yönteminin önerilmesi, akademik çevrelerde ve sanayi dünyasında hemen büyük bir yankı uyandırdı.
2015 yılında, OpenAI kuruldu. Musk, YC Başkanı Altman, melek yatırımcı Peter Thiel ) gibi isimler ortaklaşa 1 milyar dolar yatırım yapacağını açıkladı.
2016'da, derin öğrenme teknolojisi tabanlı AlphaGo, Go dünya şampiyonu ve profesyonel dokuzuncu dan oyuncusu Lee Sedol ile Go insan-makine savaşına girdi ve toplamda 4-1 galip geldi.
2017 yılında, Hong Kong'daki Hanson Robotics şirketi (Hanson Robotics) tarafından geliştirilen insansı robot Sophia, tarihte birinci sınıf vatandaşlık kazanmış ilk robot olarak anılmakta, zengin yüz ifadelerine ve insan dilini anlama yeteneğine sahiptir.
2017 yılında, yapay zeka alanında zengin bir yetenek ve teknoloji havuzuna sahip olan Google, "Attention is all you need" başlıklı bir makale yayınlayarak Transformer algoritmasını tanıttı ve büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018'de OpenAI, Transformer algoritması temelinde inşa edilmiş olan GPT(Generative Pre-trained Transformer)'i yayımladı, bu da o dönemdeki en büyük dil modellerinden biriydi.
2018'de, Google ekibi Deepmind, derin öğrenmeye dayalı AlphaGo'yu tanıttı ve bu, protein yapısı tahminleri yapabiliyor, yapay zeka alanında büyük bir ilerleme işareti olarak görülüyor.
2019'da OpenAI, 1.5 milyar parametreye sahip GPT-2'yi duyurdu.
2020 yılında, OpenAI tarafından geliştirilen GPT-3, 175 milyar parametreye sahip olup, önceki versiyon GPT-2'den 100 kat daha fazladır. Bu model, 570GB metin kullanılarak eğitilmiş olup, birden fazla NLP( doğal dil işleme) görevlerinde( soru yanıtlama, çeviri, makale yazma) gibi alanlarda en ileri düzey performansa ulaşabilmektedir.
2021 yılında, OpenAI GPT-4'ü piyasaya sürdü, bu model 1,76 trilyon parametreye sahip olup, GPT-3'ün 10 katıdır.
2023 yılında GPT-4 modeline dayalı ChatGPT uygulaması piyasaya sürüldü, Mart ayında ChatGPT bir milyar kullanıcıya ulaştı ve tarihin en hızlı bir milyar kullanıcıya ulaşan uygulaması oldu.
2024'te OpenAI, GPT-4 omni'yi tanıtacak.
Not: Yapay zeka ile ilgili çok sayıda makale, çok sayıda akım ve farklı teknolojik evrim olduğu için burada esasen derin öğrenme veya bağlantısalcılığın gelişim tarihini takip edeceğiz; diğer akımlar ve teknolojiler hala hızlı bir gelişim sürecindedir.
Derin Öğrenme Endüstri Zinciri
Mevcut büyük model dilleri, sinir ağına dayalı derin öğrenme yöntemlerini kullanmaktadır. GPT'nin öncülüğündeki büyük modeller, yapay zeka alanında bir dalga yarattı; birçok oyuncu bu alana akın etti ve pazarın veri ve hesaplama gücüne olan talebinin büyük ölçüde patladığını gözlemledik. Bu nedenle, raporun bu bölümünde, derin öğrenme algoritmalarının sanayi zincirini keşfetmeye odaklanıyoruz. Derin öğrenme algoritmalarının yönettiği yapay zeka sektöründe, tedarik zincirinin nasıl oluştuğu, tedarik ve talep ilişkisi, mevcut durum ve gelecekteki gelişmeler nasıldır.
Öncelikle netleştirmemiz gereken şey, Transformer teknolojisine dayalı GPT liderliğindeki LLM'lerin( büyük modelinin) eğitiminde toplamda üç adımın olduğu.
Eğitimden önce, Transformer tabanlı olduğundan, dönüştürücünün metin girişini sayılara dönüştürmesi gerekir; bu işleme "Tokenizasyon" denir. Daha sonra bu sayılara Token denir. Genel bir kural olarak, bir İngilizce kelime veya karakter kaba bir şekilde bir Token olarak kabul edilebilirken, her bir Çince karakter kaba bir şekilde iki Token olarak düşünülebilir. Bu, GPT fiyatlandırmasında kullanılan temel birimdir.
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti vererek, raporun ilk bölümünde örnek olarak verilen (X,Y) gibi, model altındaki her bir nöronun en iyi parametrelerini bulmak, bu aşamada büyük miktarda veri gerekmektedir ve bu süreç, nöronların çeşitli parametreleri denemesi gerektiği için en fazla hesaplama gücü gerektiren süreçtir. Bir grup veri çifti eğitimi tamamlandıktan sonra, genellikle aynı grup veri ile parametreleri yinelemek için ikinci bir eğitim yapılır.
İkinci adım, ince ayar. İnce ayar, daha az sayıda ancak çok yüksek kaliteli verilerle eğitim vermek anlamına gelir; bu tür bir değişiklik, modelin çıktısının daha yüksek kalitede olmasını sağlar çünkü ön eğitim büyük miktarda veri gerektirir, ancak birçok veri hata veya düşük kalite içerebilir. İnce ayar aşaması, kaliteli verilerle modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" diyoruz, bu modelin amacı oldukça basit, çıktının sonuçlarını sıralamak, bu nedenle bu modeli gerçekleştirmek oldukça basit olacak, çünkü iş senaryosu oldukça dikey. Daha sonra bu modeli, büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirlemek için kullanacağız, böylece bir ödül modeli ile büyük modelin parametrelerini otomatik olarak yineleyebiliriz. ( ancak bazen modelin çıktısının kalitesini değerlendirmek için insan katılımı da gereklidir )
Kısacası, büyük modelin eğitim sürecinde, ön eğitim verinin miktarı için çok yüksek taleplerde bulunur, gereken GPU hesaplama gücü de en fazlasıdır, oysa ince ayar yapmak için parametreleri iyileştirmek amacıyla daha yüksek kaliteli verilere ihtiyaç vardır. Pekiştirmeli öğrenme, daha yüksek kaliteli sonuçlar elde etmek için parametreleri tekrar tekrar yinelemek üzere bir ödül modeli aracılığıyla gerçekleştirilebilir.
Eğitim sürecinde, parametre sayısı arttıkça genelleme yeteneğinin tavanı da yükselir. Örneğin, bir fonksiyon örneği olarak Y = aX + b'yi ele alırsak, aslında iki nöron vardır: X ve X0. Bu nedenle, parametreler nasıl değişirse değişsin, uyum sağlayabileceği veriler son derece sınırlıdır, çünkü özünde hala bir doğru üzerindedir. Eğer nöron sayısı artarsa, daha fazla parametre üzerinde iterasyon yapabiliriz ve bu da daha fazla veriyi uyumlu hale getirmemizi sağlar. İşte bu yüzden büyük modellerin mucizeler yaratması sağlanır ve bu aynı zamanda yaygın olarak 'büyük model' olarak adlandırılmasının sebebidir; özünde büyük miktarda nöron ve parametre, büyük miktarda veri ve aynı zamanda büyük miktarda hesaplama gücü gerektirir.
Bu nedenle, büyük modelin performansını etkileyen başlıca üç unsur vardır: parametre sayısı, veri miktarı ve kalitesi, hesaplama gücü. Bu üç unsur, büyük modelin sonuç kalitesini ve genelleme yeteneğini birlikte etkiler. Parametre sayısını p, veri miktarını n( Token sayısı olarak hesaplayarak alalım), bu durumda gerekli hesaplama miktarını genel bir deneysel kural ile hesaplayabiliriz, bu şekilde.