ChatGPT

ChatGPT: Hướng dẫn Custom mô hình ChatGPT tùy chỉnh với dữ liệu của mình (Custom Knowledge Base)

Hướng dẫn custom mô hình ChatGPT với dữ liệu tùy chỉnh của mình (Custom Knowledge Base) …

Published on arXiv on : 8 May 2023

PPO: Giải thích thuật toán Proximal Policy Opitmization (PPO)

Proximal Policy Optimization (PPO) hiện nay được xem như là thuật toán SoTA trong Reinforcement Learning (RL). Thuật toán được giới thiệu bởi OpenAI năm 2017, được xây dựng nằm cân bằng giữa performance và khả năng hiểu/ dễ dàng sử dụng. Chất lượng của thuật toán cạnh tranh với các thuật toán khác trong RL trên nhiều benchmark chất lượng, thâm chí còn vượt trội trên một số task. Đồng thời, nó đủ đơn giản để chúng ta dễ dàng áp dụng vào thực tế, điều này thường rất khó khăn cho mọi thuật toán trong RL. …

Published on arXiv on : 26 Apr 2023

Policy Gradients: Giải thích thuật toán Policy Gradients trong Reinforcement Learning

The article is in the process of being prepared ! …

Published on arXiv on : 22 Apr 2023

ChatGPT: bản chất ChatGPT hoạt động như thế nào?

ChatGPT là một Large Language Model (LLM) mới nhất của OpenAI và cho thấy được sự cải thiện đáng kể với mô hình tiền nhiệm của nó GPT-3. Tương tự như nhiều LLMs, ChatGPT có khả năng sinh văn bản (text) theo nhiều phong cách khác nhau và cho nhiều mục đích khác nhau, nhưng ChatGPT cho thấy được khả năng về độ chính xác, chi tiết và mạch lạc hơn rất đáng kể. ChatGPT đang là xu hướng, nó như đại diện cho thế hệ tiếp theo của LLMs, tập trung mạnh vào sự tương tác trong hội thoại (interative conversations). …

Published on arXiv on : 10 Apr 2023

Phanxuan Phuc

fakerphan

2025

2023

ChatGPT: Hướng dẫn Custom mô hình ChatGPT tùy chỉnh với dữ liệu của mình (Custom Knowledge Base)

PPO: Giải thích thuật toán Proximal Policy Opitmization (PPO)

Policy Gradients: Giải thích thuật toán Policy Gradients trong Reinforcement Learning

ChatGPT: bản chất ChatGPT hoạt động như thế nào?