เอกสารไวท์เปเปอร์ของ Google Agent
ในขณะที่โมเดลภาษาต่างๆ เช่น GPT-4 และ Gemini ได้รับความสนใจจากสาธารณชนด้วยความสามารถในการสนทนา การปฏิวัติที่ลึกซึ้งยิ่งกว่ากำลังเกิดขึ้น: การเพิ่มขึ้นของ AI agents ตามที่ระบุไว้ในเอกสารไวท์เปเปอร์ล่าสุดของ Google, agents เหล่านี้ไม่ใช่แค่แชทบอทที่ฉลาดเท่านั้น – พวกเขาเป็นระบบ AI ที่สามารถรับรู้, ใช้เหตุผล, และมีอิทธิพลต่อโลกจริงได้อย่างจริงจัง
วิวัฒนาการของความสามารถของ AI
ลองนึกถึงโมเดล AI แบบดั้งเดิมเหมือนศาสตราจารย์ที่มีความรู้มากมายที่ถูกขังอยู่ในห้องที่ไม่มีอินเทอร์เน็ตหรือโทรศัพท์ พวกเขาสามารถให้ข้อมูลเชิงลึกที่ยอดเยี่ยมได้ แต่เฉพาะสิ่งที่พวกเขาเรียนรู้ก่อนเข้าห้องเท่านั้น ในทางกลับกัน AI agents เหมือนศาสตราจารย์ที่มีชุดเครื่องมือที่ทันสมัยครบครัน – พวกเขาสามารถค้นหาข้อมูลปัจจุบัน, ส่งอีเมล, ทำการคำนวณ, และประสานงานงานที่ซับซ้อนได้
นี่คือสิ่งที่ทำให้ agents แตกต่างจากโมเดลแบบดั้งเดิม:
- ข้อมูลแบบเรียลไทม์: ในขณะที่โมเดลถูกจำกัดด้วยข้อมูลการฝึกอบรมของพวกเขา, agents สามารถเข้าถึงข้อมูลปัจจุบันผ่านเครื่องมือภายนอกและ API
- การดำเนินการ: agents ไม่เพียงแค่แนะนำการกระทำ – พวกเขาสามารถดำเนินการได้ผ่านการเรียกฟังก์ชันและการโต้ตอบกับ API
- การจัดการหน่วยความจำ: agents รักษาบริบทผ่านการโต้ตอบหลายครั้ง, เรียนรู้จากแต่ละการแลกเปลี่ยนเพื่อปรับปรุงการตอบสนองของพวกเขา
- การผสานรวมเครื่องมือ: ความสามารถในการใช้เครื่องมือภายนอกและ API ถูกสร้างขึ้นในสถาปัตยกรรมของพวกเขา, ไม่ได้ถูกเพิ่มเข้ามาในภายหลัง
วิธีที่ Agents คิด: สถาปัตยกรรมการรับรู้

ความมหัศจรรย์ที่แท้จริงของ agents อยู่ใน "สถาปัตยกรรมการรับรู้" – ระบบที่ควบคุมวิธีที่พวกเขาใช้เหตุผลและตัดสินใจ เอกสารไวท์เปเปอร์ระบุวิธีการสำคัญสามประการ:
-
ReAct: กรอบงานที่ agents สลับระหว่างการใช้เหตุผลเกี่ยวกับสถานการณ์ของพวกเขาและการดำเนินการที่เป็นรูปธรรม ลองนึกถึงเชฟที่ประเมินความคืบหน้าของตนเองอย่างต่อเนื่องและปรับกลยุทธ์การทำอาหารของพวกเขา
-
Chain-of-Thought: agents แบ่งปัญหาที่ซับซ้อนออกเป็นขั้นตอนย่อยที่จัดการได้, แสดงงานของพวกเขาตลอดเส้นทาง นี่คล้ายกับวิธีที่นักคณิตศาสตร์แก้สมการที่ซับซ้อนทีละขั้นตอน
-
Tree-of-Thoughts: agents สำรวจเส้นทางการแก้ปัญหาที่เป็นไปได้หลายเส้นทางพร้อมกัน, เหมือนผู้เล่นหมากรุกที่พิจารณาการเคลื่อนไหวต่างๆ และผลที่ตามมา

นี่คือตัวอย่างจริงจากเอกสารไวท์เปเปอร์เกี่ยวกับวิธีที่ agent อาจจัดการกับคำขอจองเที่ยวบิน:
ผู้ใช้: "ฉันต้องการจองเที่ยวบินจากออสตินไปซูริค"
ความคิดของ Agent: ฉันควรค้นหาเที่ยวบินก่อน
การดำเนินการ: [เรียก API ค้นหาเที่ยวบิน]
การสังเกต: พบตัวเลือกเที่ยวบินหลายตัวเลือก
ความคิดของ Agent: ฉันควรตรวจสอบราคาที่ดีที่สุดและเส้นทาง
การดำเนินการ: [วิเคราะห์ผลการค้นหา]
การสังเกต: พบการเชื่อมต่อแล ะราคาที่เหมาะสมที่สุด
ความคิดของ Agent: ผู้ใช้ต้องการสรุปตัวเลือกที่ชัดเจน
คำตอบสุดท้าย: "นี่คือตัวเลือกเที่ยวบินที่ดีที่สุด..."