Cuộc thi mô hình AI lớn: Từ đổi mới học thuật đến thực tiễn kỹ thuật với sự tranh luận của hàng trăm trường phái

Cuộc chiến trăm mô hình trong lĩnh vực AI: Từ đổi mới công nghệ đến thực tiễn kỹ thuật

Tháng trước, ngành AI đã diễn ra một cuộc thi mô hình đầy kịch tính.

Một bên là mô hình ngôn ngữ lớn mã nguồn mở do một gã khổng lồ công nghệ phát hành, nhờ vào đặc tính mở của nó mà được các nhà phát triển yêu thích. Một công ty Nhật Bản sau khi nghiên cứu tài liệu và mã nguồn của mô hình này, đã nhanh chóng phát triển hệ thống AI đối thoại phiên bản tiếng Nhật, giúp Nhật Bản giải quyết nút thắt trong sự phát triển AI.

Bên kia là một mô hình lớn có tên là "Falcon". Vào tháng 5 năm nay, Falcon-40B ra mắt và đứng đầu bảng xếp hạng LLM mã nguồn mở, vượt qua các đối thủ.

Bảng xếp hạng này được tạo ra bởi một cộng đồng mô hình mã nguồn mở, cung cấp một bộ tiêu chuẩn để đánh giá khả năng của LLM. Xếp hạng chủ yếu được chiếm giữ luân phiên bởi hai mô hình này.

Vào đầu tháng 9, "Sói săn mồi" đã phát hành phiên bản 180B và một lần nữa đạt được thứ hạng cao hơn. Thú vị là, các nhà phát triển của "Sói săn mồi" không phải là một công ty công nghệ, mà là một tổ chức nghiên cứu có trụ sở tại Các Tiểu vương quốc Ả Rập Thống nhất. Các quan chức của Các Tiểu vương quốc Ả Rập Thống nhất cho biết, họ tham gia cuộc đua này để phá vỡ hiện trạng.

Hiện nay, lĩnh vực AI đã bước vào giai đoạn nhiều bên cùng tranh luận. Chỉ cần có một nguồn tài chính nhất định, các quốc gia và doanh nghiệp đều đang lên kế hoạch phát triển hệ thống AI đối thoại phiên bản nội địa. Chỉ riêng ở khu vực Vịnh, đã có hơn một người chơi tham gia. Vào tháng 8, Ả Rập Saudi đã mua hàng nghìn chip AI cao cấp cho các trường đại học trong nước, nhằm đào tạo các mô hình ngôn ngữ lớn.

Một nhà đầu tư nổi tiếng đã cảm thán trên mạng xã hội: "Khi đó tôi không đánh giá cao sự đổi mới mô hình kinh doanh của Internet, cảm thấy không có rào cản. Không ngờ khởi nghiệp mô hình lớn công nghệ cứng vẫn là cuộc chiến của trăm mô hình..."

Vậy cái gọi là công nghệ cao khó khăn, sao lại trở thành lĩnh vực mà các quốc gia đang cạnh tranh nhau để đầu tư?

Thuật toán Transformer gây ra cuộc cách mạng AI

Dù là các công ty khởi nghiệp Mỹ, các ông lớn công nghệ Trung Quốc hay các đại gia dầu mỏ Trung Đông, việc có thể tham gia vào nghiên cứu phát triển mô hình lớn đều phải cảm ơn bài báo nổi tiếng: "Attention Is All You Need."

Năm 2017, 8 nhà khoa học của Google đã công bố thuật toán Transformer ra toàn thế giới trong bài báo này. Bài báo này hiện đang là bài báo được trích dẫn nhiều thứ ba trong lĩnh vực AI, sự xuất hiện của Transformer đã khơi dậy làn sóng hưng phấn AI lần này.

Các mô hình lớn hiện tại, không phân biệt quốc tịch, bao gồm cả loạt GPT nổi tiếng trên thế giới, đều được xây dựng trên nền tảng Transformer.

Trước đây, "dạy máy đọc" luôn là một bài toán học thuật được công nhận. Khác với nhận diện hình ảnh, khi con người đọc không chỉ chú ý đến từ và câu hiện tại mà còn kết hợp với ngữ cảnh để hiểu. Đầu vào của các mạng nơ-ron sớm độc lập với nhau, khó có thể hiểu được văn bản dài thậm chí toàn bộ bài viết, do đó thường xuất hiện một số lỗi dịch hài hước.

Đến năm 2014, một nhà khoa học máy tính đã sử dụng mạng nơ-ron hồi tiếp (RNN) để xử lý ngôn ngữ tự nhiên, làm cho hiệu suất của một hệ thống dịch thuật tăng đáng kể. RNN đã đề xuất "thiết kế hồi tiếp", cho phép mỗi nơ-ron vừa tiếp nhận đầu vào hiện tại, vừa tiếp nhận đầu vào của thời điểm trước, từ đó có khả năng "kết hợp ngữ cảnh".

Sự xuất hiện của RNN đã thổi bùng sự nhiệt tình nghiên cứu trong giới học thuật, một trong những tác giả của bài báo về Transformer cũng đã từng say mê với nó. Tuy nhiên, các nhà phát triển nhanh chóng nhận ra rằng RNN có những khuyết điểm nghiêm trọng: thuật toán này sử dụng tính toán tuần tự, mặc dù giải quyết được vấn đề ngữ cảnh, nhưng hiệu suất chạy không cao, khó xử lý một lượng lớn tham số.

Thiết kế phức tạp của RNN nhanh chóng khiến các nhà nghiên cứu cảm thấy chán nản. Bắt đầu từ năm 2015, một nhóm các nhà khoa học cùng chí hướng đã bắt tay vào phát triển các sản phẩm thay thế cho RNN, và kết quả cuối cùng chính là Transformer.

So với RNN, Transformer có hai đổi mới lớn: một là sử dụng mã vị trí thay thế thiết kế tuần hoàn, thực hiện tính toán song song, nâng cao đáng kể hiệu suất đào tạo, đưa AI bước vào kỷ nguyên mô hình lớn; hai là tăng cường khả năng hiểu ngữ cảnh.

Transformer đã giải quyết nhiều vấn đề một cách triệt để, dần trở thành giải pháp chính trong xử lý ngôn ngữ tự nhiên. Ngay cả người sáng lập RNN cũng đã chuyển sang đội ngũ Transformer. Có thể nói, Transformer là nền tảng của tất cả các mô hình lớn hiện nay, nó đã biến mô hình lớn từ nghiên cứu lý thuyết thành vấn đề kỹ thuật.

Năm 2019, một công ty AI đã phát triển GPT-2 dựa trên Transformer, gây ấn tượng mạnh trong giới học thuật. Để đáp lại, một gã khổng lồ công nghệ đã nhanh chóng cho ra mắt một hệ thống AI mạnh mẽ hơn. So với GPT-2, hệ thống này không có sự đổi mới về thuật toán, chỉ là tăng mạnh số lượng tham số đào tạo và sức mạnh tính toán. Các tác giả bài báo về Transformer đã rất sốc trước kiểu "chất chồng bạo lực" này và đã viết một bản ghi nhớ để ghi lại cảm xúc.

Sự ra đời của Transformer đã làm chậm lại tốc độ đổi mới thuật toán cơ bản trong giới học thuật. Các yếu tố kỹ thuật như kỹ thuật dữ liệu, quy mô tính toán, cấu trúc mô hình ngày càng trở thành yếu tố then chốt trong cuộc đua AI. Chỉ cần có một khả năng kỹ thuật nhất định, bất kỳ công ty nào cũng có thể phát triển mô hình lớn.

Do đó, một chuyên gia AI nổi tiếng đã đề xuất trong bài phát biểu: "AI là một tập hợp các công cụ, bao gồm học có giám sát, học không có giám sát, học củng cố và AI sinh tạo. Tất cả đều là công nghệ chung, giống như điện và internet."

Mặc dù một công ty AI nào đó vẫn là tiêu chuẩn cho các mô hình ngôn ngữ lớn, nhưng các phân tích trong ngành cho rằng, sức cạnh tranh của nó chủ yếu bắt nguồn từ các giải pháp kỹ thuật. Nếu được mã nguồn mở, bất kỳ đối thủ cạnh tranh nào cũng có thể nhanh chóng sao chép. Một số nhà phân tích dự đoán, không lâu sau, các công ty công nghệ lớn khác cũng có thể phát triển các mô hình lớn có hiệu suất tương đương.

Thách thức của cuộc thi mô hình lớn

Hiện tại, "trận chiến trăm mô hình" không còn chỉ là một biện pháp tu từ, mà trở thành một hiện thực khách quan.

Các báo cáo liên quan cho thấy, tính đến tháng 7 năm nay, số lượng mô hình lớn ở Trung Quốc đã đạt 130, vượt qua Hoa Kỳ với 114 mô hình. Ngoài Trung Quốc và Hoa Kỳ, một số quốc gia giàu có cũng đã bước đầu thực hiện "mỗi quốc gia một mô hình": ngoài Nhật Bản và Các Tiểu vương quốc Ả Rập Thống nhất, còn có Bhashini do chính phủ Ấn Độ dẫn dắt và HyperClova X phát triển bởi một công ty internet Hàn Quốc.

Cảnh tượng này rất giống với thời kỳ bong bóng Internet năm nào, khi vốn đầu tư đổ xô vào một cách rầm rộ.

Như đã đề cập trước đó, Transformer đã biến các mô hình lớn thành vấn đề kỹ thuật, chỉ cần có nhân tài, vốn và phần cứng, phần còn lại sẽ giao cho việc tinh chỉnh tham số. Tuy nhiên, việc giảm bớt rào cản gia nhập không có nghĩa là ai cũng có thể trở thành ông lớn trong kỷ nguyên AI.

Câu chuyện mở đầu đề cập đến "cuộc chiến mô hình" là một ví dụ điển hình: mặc dù một mô hình dẫn đầu trong bảng xếp hạng, nhưng rất khó để nói rằng nó đã gây ra tác động lớn đến một gã khổng lồ công nghệ nào đó.

Như mọi người đã biết, các doanh nghiệp mở nguồn các kết quả nghiên cứu của mình không chỉ để chia sẻ lợi ích công nghệ với xã hội mà còn hi vọng tận dụng trí tuệ của quần chúng. Khi các bên liên quan không ngừng sử dụng và cải tiến một mô hình mở nào đó, công ty mẹ có thể áp dụng những kết quả này vào sản phẩm của mình.

Đối với mô hình lớn mã nguồn mở, cộng đồng nhà phát triển năng động mới là sức mạnh cạnh tranh cốt lõi.

Một ông lớn trên mạng xã hội đã thiết lập chiến lược mã nguồn mở từ khi thành lập phòng thí nghiệm AI vào năm 2015; người sáng lập của họ hiểu rõ cách "duy trì mối quan hệ cộng đồng". Vào tháng 10 năm nay, công ty còn ra mắt hoạt động "Khuyến khích nhà sáng tạo AI": các nhà phát triển sử dụng mô hình mã nguồn mở của họ để giải quyết các vấn đề xã hội như giáo dục, môi trường, có cơ hội nhận 500.000 USD tài trợ.

Hiện nay, loạt mô hình mã nguồn mở của công ty đã trở thành tiêu chuẩn trong ngành. Tính đến đầu tháng 10, trong top 10 bảng xếp hạng mô hình mã nguồn mở, có 8 mô hình được xây dựng dựa trên loạt mô hình này. Chỉ riêng trên nền tảng này, số mô hình sử dụng giấy phép mã nguồn mở của nó đã vượt quá 1500.

Tất nhiên, việc nâng cao hiệu suất mô hình cũng không phải là không thể, nhưng hiện tại hầu hết các mô hình trên thị trường vẫn còn khoảng cách rõ rệt với các hệ thống AI hàng đầu.

Ví dụ, không lâu trước đây, một hệ thống AI đã giành chiến thắng với điểm số 4.41 trong bài kiểm tra AgentBench. AgentBench được hợp tác bởi nhiều trường đại học nổi tiếng để đánh giá khả năng suy luận và ra quyết định của các mô hình lớn trong môi trường mở đa chiều, nội dung kiểm tra bao gồm hệ điều hành, cơ sở dữ liệu, đồ thị tri thức, chiến đấu thẻ bài và 8 nhiệm vụ khác.

Kết quả thử nghiệm cho thấy, người đứng thứ hai chỉ có 2.77 điểm, chênh lệch rõ ràng. Còn về những mô hình mã nguồn mở ồn ào, kết quả thử nghiệm thường chỉ khoảng 1 điểm, chưa đến một phần tư của nhà vô địch.

Cần biết rằng, hệ thống AI mạnh nhất được phát hành vào tháng 3 năm nay, đây vẫn là kết quả sau hơn nửa năm các đối thủ toàn cầu theo đuổi. Nguyên nhân gây ra khoảng cách này là đội ngũ nghiên cứu khoa học cấp cao của công ty và kinh nghiệm tích lũy lâu dài, giúp họ luôn duy trì vị thế dẫn đầu.

Nói cách khác, lợi thế cốt lõi của mô hình lớn không phải là số lượng tham số, mà là xây dựng hệ sinh thái ( tuyến đường mã nguồn mở ) hoặc khả năng suy luận thuần túy ( tuyến đường mã nguồn đóng ).

Với sự phát triển ngày càng mạnh mẽ của cộng đồng mã nguồn mở, hiệu suất của các mô hình khác nhau có thể trở nên tương đồng, vì mọi người đều sử dụng các kiến trúc và tập dữ liệu tương tự.

Một vấn đề thực tế hơn nữa là: ngoài một số trường hợp hiếm hoi, dường như chưa có mô hình lớn nào có thể đạt được lợi nhuận.

Áp lực kinh tế mà các mô hình lớn phải đối mặt

Vào tháng 8 năm nay, một bài viết có tiêu đề "Một công ty AI có thể sẽ phá sản vào cuối năm 2024" đã thu hút sự chú ý. Nội dung chính của bài viết có thể được tóm gọn trong một câu: Tốc độ chi tiêu của công ty đó quá nhanh.

Bài viết đề cập rằng, kể từ khi phát triển một hệ thống AI hội thoại nào đó, công ty đã nhanh chóng mở rộng thua lỗ, chỉ riêng trong năm 2022 đã thua lỗ khoảng 540 triệu đô la, chỉ có thể dựa vào các nhà đầu tư để duy trì.

Mặc dù tiêu đề bài viết có phần phóng đại, nhưng nó cũng phản ánh tình trạng của nhiều nhà cung cấp mô hình lớn: chi phí và doanh thu mất cân bằng nghiêm trọng.

Chi phí quá cao đã dẫn đến việc hiện tại chỉ có một số ít nhà sản xuất chip thực sự có lãi nhờ vào AI.

Theo ước tính của một công ty tư vấn, một ông lớn trong ngành chip đã bán ra hơn 300.000 chip AI cao cấp trong quý 2 năm nay. Đây là một loại chip có hiệu suất huấn luyện AI rất cao, được các công ty công nghệ toàn cầu và các tổ chức nghiên cứu săn lùng mua. Nếu xếp chồng các chip đã bán, trọng lượng tương đương với 4.5 chiếc Boeing 747.

Công ty chip này đã bùng nổ doanh thu, tăng 854% so với cùng kỳ năm trước, khiến Phố Wall phải kinh ngạc. Đáng chú ý, chip này đã được thổi phồng lên tới 40.000 - 50.000 USD trên thị trường thứ cấp, trong khi chi phí chỉ khoảng 3.000 USD.

Chi phí sức mạnh tính toán cao đã cản trở sự phát triển của ngành công nghiệp ở một mức độ nào đó. Một tổ chức đầu tư nổi tiếng từng ước tính: các công ty công nghệ toàn cầu dự kiến sẽ đầu tư 200 tỷ USD mỗi năm cho việc xây dựng cơ sở hạ tầng mô hình lớn; trong khi đó, mô hình lớn chỉ có thể tạo ra tối đa 75 tỷ USD doanh thu mỗi năm, có ít nhất 125 tỷ USD thiếu hụt ở giữa.

Ngoài ra, trừ một số trường hợp cá biệt, hầu hết các công ty phần mềm sau khi đầu tư một số tiền lớn vẫn chưa tìm ra mô hình có lãi rõ ràng. Ngay cả những doanh nghiệp dẫn đầu trong ngành cũng đang gặp khó khăn.

Một công cụ tạo mã do một công ty công nghệ khổng lồ hợp tác với một công ty AI phát triển, mặc dù phí hàng tháng là 10 đô la, nhưng do chi phí cơ sở, công ty lại lỗ 20 đô la mỗi tháng, người dùng nặng thậm chí có thể khiến công ty lỗ 80 đô la mỗi tháng. Theo đó, có thể suy đoán rằng dịch vụ trợ lý AI nào đó có giá 30 đô la có thể lỗ nhiều hơn.

Tương tự, một ông lớn phần mềm vừa ra mắt công cụ AI cũng nhanh chóng triển khai hệ thống điểm, hạn chế người dùng sử dụng quá mức để tránh công ty thua lỗ. Khi người dùng vượt quá số điểm phân bổ hàng tháng, công ty sẽ giảm tốc độ dịch vụ.

Hai công ty này đã có các tình huống kinh doanh rõ ràng và số lượng người dùng trả phí lớn. Trong khi đó, hầu hết các mô hình quy mô lớn vẫn chủ yếu được áp dụng trong lĩnh vực đối thoại.

Không thể phủ nhận rằng nếu không có sự ra đời của một công ty AI nào đó và hệ thống đối thoại của nó, cuộc cách mạng AI này có thể sẽ không xảy ra. Nhưng hiện tại, giá trị mà việc huấn luyện mô hình lớn tạo ra vẫn còn gây tranh cãi.

Hơn nữa, với sự gia tăng cạnh tranh đồng nhất và ngày càng nhiều mô hình mã nguồn mở, các công ty chỉ cung cấp dịch vụ mô hình lớn có thể phải đối mặt với áp lực lớn hơn.

Giống như sự thành công của một chiếc điện thoại thông minh không phải vì bộ xử lý tiên tiến của nó, mà là vì nó có thể chạy nhiều ứng dụng phổ biến, giá trị của mô hình lớn cuối cùng vẫn phải được thể hiện trong các kịch bản ứng dụng cụ thể.

GPT2.1%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Whale_Whisperervip
· 8giờ trước
Các tổ chức đều đang cạnh tranh, tôi chỉ đang trôi nổi.
Xem bản gốcTrả lời0
ChainBrainvip
· 22giờ trước
Gần như hỏng rồi phải không?
Xem bản gốcTrả lời0
GasFeeVictimvip
· 22giờ trước
Lại đốt một xe GPU nữa rồi.
Xem bản gốcTrả lời0
blocksnarkvip
· 22giờ trước
Hãm hại vốn đầu tư
Xem bản gốcTrả lời0
Rekt_Recoveryvip
· 22giờ trước
không thể không nói rằng cái falcon này làm tôi nhớ lại cơn ác mộng thị trường bull... cảm giác như lại sắp có một cái bẫy đòn bẩy xảy ra
Xem bản gốcTrả lời0
GasFeeLadyvip
· 22giờ trước
giống như phí gas trên eth... những mô hình AI này cứ liên tục pump và dump lmao
Xem bản gốcTrả lời0
HashBrowniesvip
· 23giờ trước
Mô hình lựa chọn ai có tham số lớn hơn
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)