Nhận định trên được ông Nguyễn Kim Anh, Giám đốc sản phẩm (CPO) VinBigdata khi trao đổi với VietNamNet về mô hình ngôn ngữ lớn tiếng Việt vừa được VinBigdata công bố phát triển thành công ngày 21/8 vừa qua. VietNamNet xin gửi đến bạn đọc nội dung buổi phỏng vấn này.
Ông có thể cho biết việc ứng dụng AI tại Việt Nam hiện nay?
Ông Nguyễn Kim Anh: AI đang là một trong những từ khóa phổ biến nhất trên thế giới những năm trở lại đây. Tại Việt Nam, chúng ta cũng đã bàn luận về chủ đề này trên rất nhiều các diễn đàn khác nhau. Tuy nhiên thực tế cho thấy việc triển khai AI tại Việt Nam vẫn còn nhiều thách thức như hạn chế về nguồn lực, cơ sở hạ tầng, nhân lực chuyên môn…
Báo cáo về chỉ số sẵn sàng trí tuệ nhân tạo (AI) năm 2022 cho biết, Việt Nam được xếp hạng 55 toàn cầu, trong khi Singapore xếp thứ 2, Malaysia 29, Thái Lan 31. Có thể thấy Việt Nam vẫn cần quyết liệt hơn nữa trong việc đẩy mạnh nghiên cứu và ứng dụng AI.
Tôi cho rằng chúng ta có rất nhiều lợi thế trong việc đi tắt đón đầu bởi Việt Nam sở hữu đội ngũ nhân lực trẻ với nền tảng Toán học và Kỹ thuật rất tốt. Đây là ưu thế nổi bật cần nắm bắt. Cùng với sự hỗ trợ và chung tay từ phía Chính phủ và các doanh nghiệp, tôi tin rằng chúng ta sẽ nhanh chóng nắm bắt được tiềm năng phát triển ngành công nghiệp AI để đóng góp vào sự phát triển kinh tế – xã hội của đất nước.
Vì sao VinBigdata quyết định phát triển mô hình ngôn ngữ lớn tiếng Việt đã ra mắt vừa qua?
Ông Nguyễn Kim Anh: Mô hình ngôn ngữ lớn là nền móng vững chắc cho những sản phẩm ứng dụng AI tạo sinh ra đời, ví dụ như ChatGPT của Open AI hay Bard của Google. Tuy nhiên, với các sản phẩm từ nước ngoài, tiếng Việt không nằm trong nhóm ngôn ngữ trọng tâm. Điều này ảnh hưởng ít nhiều đến chất lượng nội dung trả ra cho người dùng.
Nếu như hỏi các thông tin chi tiết, mang tính đặc thù, đặc trưng của người Việt thì khả năng sai sót là khá lớn. Nghiêm trọng hơn, nếu như người dùng sử dụng công cụ này để tra cứu thông tin, cập nhật tin tức thì trong tương lai có thể dẫn những hệ lụy như sai lệch kiến thức cơ bản của một bộ phận người Việt, đặc biệt là các bạn trẻ.
Bởi vậy, việc xây dựng mô hình ngôn ngữ lớn tiếng Việt là điều cần thiết để phát triển những sản phẩm phù hợp và phục vụ tốt nhất cho nhu cầu của người Việt Nam. Ngay từ những ngày đầu thành lập, VinBigdata đã xác định “dữ liệu” là nhân tố cốt lõi và quan trọng nhất cho việc nghiên cứu và cho ra mắt các sản phẩm AI phục vụ thị trường.
Đây cũng chính là lý do mà chúng tôi có thể tiên phong hoàn thiện sớm việc xây dựng mô hình ngôn ngữ lớn tiếng Việt, thay vì phải dùng tới 175 tỷ tham số như ChatGPT, chúng tôi chỉ cần tới vài tỷ tham số. Điều này không chỉ có ý nghĩa về mặt ứng dụng mà còn có ý nghĩa cho xã hội khi xu thế ngày càng nhiều người sử dụng AI tạo sinh như một công cụ để học tập, làm việc, tra cứu thông tin…
Với mô hình ngôn ngữ lớn tiếng Việt vừa được công bố, VinBigdata sẽ ứng dụng nó như thế nào, thưa ông?
Ông Nguyễn Kim Anh: Việc làm chủ hoàn toàn về mặt công nghệ, tự phát triển từ những bước đầu tiên, xây dựng thành công mô hình ngôn ngữ lớn tiếng Việt, được xem như một bước tiến quan trọng giúp VinBigdata đưa công nghệ AI tạo sinh vào hệ sinh thái các sản phẩm, dịch vụ đã và đang cung cấp ra thị trường.
Chúng tôi đã vạch ra lộ trình cụ thể cho việc đưa thành quả nghiên cứu vào thực tiễn. Cụ thể, VinBigdata sẽ giới thiệu hai phiên bản ứng dụng tới người tiêu dùng, đầu tiên là dành cho doanh nghiệp và tiếp đến là dành cho cộng đồng.
Với phiên bản doanh nghiệp, VinBigdata sẽ tích hợp công nghệ để đưa VinBase (nền tảng trí tuệ nhân tạo đa nhận thức toàn diện) trở thành nền tảng AI tạo sinh đầu tiên tại Việt Nam, đồng thời cung cấp các giải pháp phát triển trên nền công nghệ AI tạo sinh như Generative AI chatbot, callbot hay trợ lý ảo ViVi thế hệ mới…
Công nghệ này sẽ giúp tăng tính tự nhiên trong giao tiếp của máy, đồng thời hỗ trợ người dùng tìm kiếm, tổng hợp thông tin một cách nhanh chóng và đơn giản hơn nhiều so với trước đây.
Hiện VinBigdata đã bước đầu ứng dụng thành công công nghệ mới trên dòng sản phẩm VinBase KB (VinBase Knowledge Base Portal). Sản phẩm có khả năng truy xuất thông tin và tự động tạo ra câu trả lời dựa trên các thông tin được thu thập từ các tập dữ liệu cực lớn trong hệ tri thức.
Theo kế hoạch của chúng tôi, vào cuối tháng 12/2023, VinBigdata sẽ ra mắt sản phẩm ViGPT – “ChatGPT phiên bản Việt”, mở cho cộng đồng truy cập và thử nghiệm hoàn toàn miễn phí. Với ViGPT, người dùng có thể hỏi đáp các thông tin mang tính đặc thù của Việt Nam (quy định, văn bản pháp luật…), hoặc các thông tin mang tính đặc trưng (lịch sử, địa lý, văn học,…).
Đây là một dự án mang ý nghĩa rất lớn cho cộng đồng và xã hội, được kỳ vọng sẽ trở thành công cụ hữu ích, hỗ trợ đắc lực cho người Việt trong quá trình học tập, làm việc.
VinBigdata có ý định chia sẻ mô hình ngôn ngữ lớn tiếng Việt này cho các bên có nhu cầu hay không?
Ông Nguyễn Kim Anh: Việc xây dựng thành công mô hình ngôn ngữ lớn tiếng Việt không chỉ có ý nghĩa với VinBigdata mà còn có ý nghĩa với xã hội và cộng đồng khoa học công nghệ tại Việt Nam. Nền tảng VinBase được tích hợp AI tạo sinh cho phép các doanh nghiệp có thể hoàn toàn sử dụng phần lõi công nghệ này để ứng dụng cho các sản phẩm mang thương hiệu của riêng họ.
Với mô hình này, VinBigdata hy vọng các doanh nghiệp Việt Nam sẽ có nhiều cơ hội hơn để tiếp cận với công nghệ AI tạo sinh hay kế thừa thành quả từ mô hình ngôn ngữ lớn tiếng Việt do chúng tôi phát triển.
Ngoài ra, với ViGPT, người Việt Nam cũng sẽ có một “ChatGPT phiên bản Việt” của riêng mình, để từ đó có thể dễ dàng tìm kiếm các nguồn thông tin nhanh chóng, chính xác và đáng tin cậy.
Bảo mật và bản quyền là một trong những yếu tố quan trọng khi phát triển AI tạo sinh, với mô hình ngôn ngữ lớn tiếng Việt vừa ra mắt, VinBigdata đã xử lý vấn đề này như thế nào, thưa ông?
Ông Nguyễn Kim Anh: Là đơn vị nghiên cứu về dữ liệu lớn và trí tuệ nhân tạo, VinBigdata luôn tôn trọng tính bảo mật của dữ liệu thông qua việc xây dựng những quy trình khắt khe và tuân thủ tuyệt đối các quy định về bảo mật dữ liệu. Cụ thể, để đảm bảo quyền lợi người dùng, VinBigdata cố gắng tạo ra sự minh bạch trong quá trình thu thập và sử dụng dữ liệu, đặc biệt là với những dữ liệu thuộc sở hữu cá nhân.
Song song với đó, chúng tôi luôn chủ động xây dựng các biện pháp bảo mật nhiều lớp, quy trình kiểm soát vòng đời dữ liệu nghiêm ngặt, phân quyền sử dụng dữ liệu phù hợp (ai có quyền được tiếp xúc và được sử dụng dữ liệu nào?) để phòng tránh việc rò rỉ thông tin. Trên thế giới và tại Việt Nam cũng có những quy định, bộ tiêu chuẩn về bảo mật dữ liệu và VinBigdata luôn tuân thủ các nguyên tắc này.
Bên cạnh đó, vấn đề bản quyền cũng trở thành chủ đề khá nhức nhối sau sự phát triển mạnh mẽ của AI tạo sinh thời gian gần đây. Hiểu được điều này, VinBigdata tập trung phát triển sản phẩm theo hướng cung cấp các thông tin mang tính đặc thù, bản địa hóa, đặc trưng của người Việt và theo từng lĩnh vực cụ thể chứ không đi theo hướng dàn trải, tránh thông tin sai lệch.
Cũng nhờ định hướng ngay từ đầu này, VinBigdata có thể tự tin tạo được sản phẩm cung cấp kiến thức chính xác hơn ChatGPT trên những lĩnh vực chuyên sâu đặc thù như tài chính ngân hàng, luật pháp, y tế,… và với những thông tin mang tính bản địa của Việt Nam như lịch sử, địa lý, văn học,…
Theo ông, tại Việt Nam đã đến lúc ứng dụng AI vào thực tiễn hay chưa?
Ông Nguyễn Kim Anh: Tôi nghĩ rằng chúng ta cần phải tăng tốc hơn nữa trong cuộc đua về trí tuệ nhân tạo. Bởi các quốc gia và tập đoàn lớn trên thế giới đã đi trước chúng ta một khoảng cách nhất định.
Thời điểm hiện tại, Việt Nam có thể nói vẫn chưa thực sự đưa AI vào thực tiễn nhiều và mới chỉ đang trong giai đoạn bắt đầu.
Tuy nhiên, tôi tin rằng bằng những nỗ lực và sự hợp lực từ tất cả các cấp kết hợp với nguồn nhân lực AI chất lượng cao tại Việt Nam như hiện nay, chúng ta có thể nắm bắt được cơ hội đi tắt đón đầu!
Lê Thế Mỹ, Nguyễn Mạnh Hưng, Hoàng Tư Giang