1. Docling

Docling

 

Mô tả: Docling là công cụ giúp phân tích và chuyển đổi tài liệu sang các định dạng mong muốn một cách nhanh chóng và dễ dàng.

Tính năng nổi bật:

  • Hỗ trợ đọc nhiều định dạng tài liệu phổ biến như PDF, DOCX, PPTX, hình ảnh, HTML, Markdown.
  • Hiểu rõ bố cục và cấu trúc bảng trong PDF, tạo điều kiện cho việc xuất ra Markdown và JSON.
  • Tích hợp với LlamaIndex và LangChain, lý tưởng cho các ứng dụng QA và RAG.
  • Hỗ trợ OCR cho tài liệu quét, đơn giản hóa quy trình thao tác thông qua CLI.

GitHub - Docling

 

2. Amphion

Amphion: An Open-Source Audio, Music and Speech Generation Toolkit | AI  Research Paper Details

 

Mô tả: Amphion là bộ công cụ cho việc tạo âm thanh, nhạc và giọng nói, giúp các nhà nghiên cứu và kỹ sư tiếp cận dễ dàng hơn với lĩnh vực này.

Tính năng nổi bật:

  • Hỗ trợ nhiều nhiệm vụ tạo âm thanh như TTS, SVS, VC, SVC, TTA, TTM.
  • Cung cấp bộ mã hóa âm thanh (vocoder) và các chỉ số đánh giá chất lượng.
  • Đặc biệt hữu ích trong các ứng dụng thực tế, chẳng hạn như xây dựng bộ dữ liệu lớn cho tổng hợp giọng nói.

GitHub - Amphion

 

3. Manim

 

Mô tả: Manim là công cụ mạnh mẽ dành cho việc tạo hoạt ảnh toán học, phù hợp cho các video giảng giải.

Tính năng nổi bật:

  • Hỗ trợ tạo các hoạt ảnh chính xác với khả năng tùy chỉnh cao.
  • Dự án ban đầu của tác giả 3Blue1Brown, hiện nay có phiên bản cộng đồng với tính ổn định và dễ sử dụng hơn.

GitHub - Manim

 

4. Deep-Live-Cam

demo-gif

 

Mô tả: Deep-Live-Cam là phần mềm hoán đổi khuôn mặt và tạo video deepfake trong thời gian thực, chỉ cần một hình ảnh duy nhất.

Tính năng nổi bật:

  • Công cụ hỗ trợ cho nghệ sĩ sáng tạo nhân vật và mô hình hóa thời trang.
  • Có các biện pháp kiểm duyệt nội dung nhằm ngăn chặn các ứng dụng phi đạo đức hoặc không phù hợp.

GitHub - Deep-Live-Cam

 

5. Follow

Screenshot of Articles page

 

Mô tả: Follow là nền tảng giúp bạn theo dõi các trang web, blog, mạng xã hội và nhiều nguồn thông tin khác trong một nơi.

Tính năng nổi bật:

  • Tích hợp AI để cung cấp bản báo cáo tóm tắt hàng ngày.
  • Ứng dụng blockchain để khuyến khích người dùng và tác giả.
  • Có tính năng xã hội cho phép chia sẻ và đồng bộ hóa danh sách theo dõi với bạn bè.

GitHub - Follow

 

6. Bark

 

Mô tả: Bark là mô hình chuyển văn bản thành âm thanh, có thể tạo giọng nói đa ngôn ngữ, nhạc nền và các hiệu ứng âm thanh cơ bản.

Tính năng nổi bật:

  • Hỗ trợ tạo giọng nói thực tế, bao gồm cả các tín hiệu phi ngôn ngữ như tiếng cười và thở dài.
  • Cung cấp mô hình tiền huấn luyện sẵn sàng cho mục đích thương mại.

GitHub - Bark

 

7. Tailwind Nextjs Starter Blog

Mô tả: Template blog sử dụng Next.js và Tailwind CSS, lý tưởng cho việc tạo blog cá nhân.

Tính năng nổi bật:

  • Tích hợp với Contentlayer để quản lý nội dung Markdown dễ dàng.
  • Giao diện có thể tùy chỉnh và cấu hình dễ dàng, lý tưởng cho các blog cá nhân hoặc chuyển đổi từ các nền tảng khác như Jekyll và Hugo.

GitHub - Tailwind Nextjs Starter Blog

 

8. Tabby

Demo

 

Mô tả: Tabby là trợ lý AI mã nguồn mở cho lập trình viên, thay thế tự lưu trữ cho GitHub Copilot.

Tính năng nổi bật:

  • Hoạt động mà không cần DBMS hoặc dịch vụ đám mây.
  • Dễ dàng tích hợp với các hệ thống hiện tại thông qua giao diện OpenAPI.
  • Hỗ trợ GPU cấp tiêu dùng cho hiệu suất cao.

GitHub - Tabby

 

9. Stable Diffusion Web UI

 

Mô tả: Giao diện người dùng cho Stable Diffusion, hỗ trợ tạo và xử lý ảnh từ văn bản.

Tính năng nổi bật:

  • Tích hợp nhiều công cụ như outpainting, inpainting, tăng cường độ phân giải ảnh.
  • Hỗ trợ nhiều mô hình chỉnh sửa và mở rộng cộng đồng.
  • Cung cấp giao diện API và khả năng tùy chỉnh theo ý người dùng.

GitHub - Stable Diffusion Web UI

 

10. Open-Sora

 

Mô tả: Open-Sora là dự án mã nguồn mở hỗ trợ sản xuất video chất lượng cao với hiệu quả cao.

Tính năng nổi bật:

  • Tạo điều kiện cho sản xuất video dễ dàng, cung cấp nền tảng linh hoạt cho sáng tạo nội dung.
  • Mục tiêu của dự án là mở rộng khả năng tiếp cận công nghệ tạo video cho tất cả mọi người.

GitHub - Open-Sora

 

Danh sách trên mang đến một cái nhìn tổng quan về các dự án mã nguồn mở thú vị, mỗi dự án đều mang lại giá trị độc đáo trong các lĩnh vực ứng dụng công nghệ đa dạng. Các dự án này không chỉ góp phần đẩy mạnh phát triển công nghệ mà còn mang lại nhiều tiềm năng cho cộng đồng người dùng và nhà phát triển.

 

11. Dearbook

Home Page

 

Dearbook is an AI-powered children's book generator that creates fully illustrated stories based on user input. Users simply provide a brief prompt describing the desired storyline, such as:

"Create a fun story about a bird who was afraid to fly."

In response, the system generates an entire illustrated book!

Additionally, users can browse and read stories created by others. All stories are public and anonymous, creating a rich and diverse library of children's books.

Dearbook