สร้างผู้ช่วยคำสั่งเสียงด้วย ESP32-S3 เชื่อมต่อ AI Model แบบเรียลไทม์

ลองคิดภาพว่าคุณสามารถพูดคุยโต้ตอบกับ AI ผู้ช่วยส่วนตัว เพื่อสั่งให้มัน "เปิดไฟในห้อง" หรือ "ปรับอุณหภูมิแอร์" ได้แบบเรียลไทม์ โดยที่คุณยังคงมีอำนาจควบคุมระบบความปลอดภัยและสั่งงานวงจร (Local Infrastructure) ได้เบ็ดเสร็จในบ้านของคุณเอง

นี่คือโปรเจกต์ที่เชื่อมต่อโมเดลเสียง AI เข้ากับระบบการทำงานแบบ Local (Function-calling engine) ผ่านบอร์ด ESP32-S3 โดยไม่ต้องพึ่งพาระบบคลาวด์ 100% ตอบโจทย์สาย Maker และคนทำ Smart Home ที่กังวลเรื่อง Privacy สุดๆ!

สถาปัตยกรรมระบบ 3 ส่วน (The Three-Tier Architecture)

ผู้ออกแบบระบบเน้นการสร้างสมดุลระหว่างความง่ายในการประกอบและพลังในการประมวลผล โดยแบ่งระบบออกเป็น 3 ส่วนหลักๆ ดังนี้:

1. ฝั่งรับเสียง (Voice Input): ใช้ฮาร์ดแวร์ประกอบเองง่ายๆ คือบอร์ด ESP32-S3, ไมโครโฟน I2S (INMP441) และแอมป์ขับลำโพง (MAX98357A) โดยโมดูลนี้จะคอยกรองเสียงรบกวนและจับคำสั่งปลุก (Wake Word)
2. ตัวประมวลผลโลคัล (Processor / Local Server): คือสมองกลของระบบ (รันโปรแกรม voice-assistant แบบไม่ต้องลง Dependency เพิ่ม) รันได้ทั้งบน Windows, macOS, Linux และ Raspberry Pi ทำหน้าที่จัดการสตรีมเสียงและสั่งงานอัตโนมัติตามที่ AI ร้องขอ
3. พร็อกซีเซิร์ฟเวอร์ (Proxy Server): ช่วยบีบอัดไฟล์เสียงให้เล็กลงเหลือ 70-80 kbps พร้อมโมเดล VAD (Voice Activity Detection) จิ๋วๆ เพื่อตัดเสียงรบกวนออกก่อนส่งข้อมูลไปหา AI LLM ตัวใหญ่ ซึ่งช่วยประหยัดแบนด์วิดท์และลดค่า Token ได้มหาศาล!

หลักการทำงาน: AI คิดคำสั่ง แต่ฝั่ง Local เป็นคนลงมือทำ

ระบบนี้มีแนวคิดง่ายๆ คือ "AI เป็นสมอง แต่แขนขาอยู่กับเรา" AI จะตัดสินใจว่าผู้ใช้ต้องการอะไร ส่วน voice-assistant ของเราจะเป็นคนสั่งการ โดยรองรับรูปแบบการสั่งงานผ่าน:

WEBHOOK: ยิง HTTP request ไปหาบริการอย่าง n8n, Node-RED หรือ Home Assistant
MQTT: ส่งข้อความเข้า Broker ส่วนตัว
GPIO: คุมขาสัญญาณอิเล็กทรอนิกส์ได้โดยตรง
EXEC: รันสคริปต์ (Shell scripts) บนเครื่อง Host

ด้านความปลอดภัย (Security): AI ตัวใหญ่จะไม่มีสิทธิ์เข้าถึงเน็ตเวิร์ก หรือพิน GPIO ของคุณโดยตรง ข้อมูลทุกอย่างที่วิ่งไปมาจะถูกเข้ารหัส WSS/TLS เรียบร้อย (แถมเลือกรันโหมด PROD สำหรับระบบจริง หรือ DEV Mode สำหรับเขียนโค้ดทดสอบต่อ Google AI Studio ได้ด้วย)

คลิกเพื่อดูรูปภาพแสดงความแตกต่างระหว่างโหมด PROD และ DEV (View More)

วิธีการเซ็ตอัประบบ (Quick Setup)

คุณไม่ต้องมานั่งรบราฆ่าฟันกับการคอมไพล์โค้ดใน Arduino IDE เพราะเราทำสคริปต์ให้รันอัตโนมัติแล้ว:

Dashboard: สร้างบัญชีบน voice-assistant.io สร้าง API Key และกำหนดว่าคุณจะอนุญาตให้ AI ใช้งาน Tools โลคัลตัวไหนได้บ้าง
Local Server: โหลดไฟล์ voice-assistant ที่คอมไพล์มาแล้วจาก GitHub (รองรับทุกระบบปฏิบัติการ) แล้วรันได้เลย
Hardware Configuration: โคลนโค้ดลงเครื่อง ต่อสายไฟฮาร์ดแวร์ รันสคริปต์ configure_settings.sh เพื่อใส่รหัส Wi-Fi / API Key
Automated Flashing: รัน run_upload.sh เพื่อแฟลชโค้ดลงบอร์ด ESP32-S3 จากนั้นก็พูดคำสั่งปลุกเพื่อเริ่มต้นคุยกับ AI ได้ทันที!