ข้ามไปยังเนื้อหาหลัก

เอกสารไวท์เปเปอร์ของ Google Agent

· อ่านหนึ่งนาที
Lark Birdy
Chief Bird Officer

ในขณะที่โมเดลภาษาต่างๆ เช่น GPT-4 และ Gemini ได้รับความสนใจจากสาธารณชนด้วยความสามารถในการสนทนา การปฏิวัติที่ลึกซึ้งยิ่งกว่ากำลังเกิดขึ้น: การเพิ่มขึ้นของ AI agents ตามที่ระบุไว้ในเอกสารไวท์เปเปอร์ล่าสุดของ Google, agents เหล่านี้ไม่ใช่แค่แชทบอทที่ฉลาดเท่านั้น – พวกเขาเป็นระบบ AI ที่สามารถรับรู้, ใช้เหตุผล, และมีอิทธิพลต่อโลกจริงได้อย่างจริงจัง

วิวัฒนาการของความสามารถของ AI

ลองนึกถึงโมเดล AI แบบดั้งเดิมเหมือนศาสตราจารย์ที่มีความรู้มากมายที่ถูกขังอยู่ในห้องที่ไม่มีอินเทอร์เน็ตหรือโทรศัพท์ พวกเขาสามารถให้ข้อมูลเชิงลึกที่ยอดเยี่ยมได้ แต่เฉพาะสิ่งที่พวกเขาเรียนรู้ก่อนเข้าห้องเท่านั้น ในทางกลับกัน AI agents เหมือนศาสตราจารย์ที่มีชุดเครื่องมือที่ทันสมัยครบครัน – พวกเขาสามารถค้นหาข้อมูลปัจจุบัน, ส่งอีเมล, ทำการคำนวณ, และประสานงานงานที่ซับซ้อนได้

นี่คือสิ่งที่ทำให้ agents แตกต่างจากโมเดลแบบดั้งเดิม:

  • ข้อมูลแบบเรียลไทม์: ในขณะที่โมเดลถูกจำกัดด้วยข้อมูลการฝึกอบรมของพวกเขา, agents สามารถเข้าถึงข้อมูลปัจจุบันผ่านเครื่องมือภายนอกและ API
  • การดำเนินการ: agents ไม่เพียงแค่แนะนำการกระทำ – พวกเขาสามารถดำเนินการได้ผ่านการเรียกฟังก์ชันและการโต้ตอบกับ API
  • การจัดการหน่วยความจำ: agents รักษาบริบทผ่านการโต้ตอบหลายครั้ง, เรียนรู้จากแต่ละการแลกเปลี่ยนเพื่อปรับปรุงการตอบสนองของพวกเขา
  • การผสานรวมเครื่องมือ: ความสามารถในการใช้เครื่องมือภายนอกและ API ถูกสร้างขึ้นในสถาปัตยกรรมของพวกเขา, ไม่ได้ถูกเพิ่มเข้ามาในภายหลัง

วิธีที่ Agents คิด: สถาปัตยกรรมการรับรู้

ความมหัศจรรย์ที่แท้จริงของ agents อยู่ใน "สถาปัตยกรรมการรับรู้" – ระบบที่ควบคุมวิธีที่พวกเขาใช้เหตุผลและตัดสินใจ เอกสารไวท์เปเปอร์ระบุวิธีการสำคัญสามประการ:

  1. ReAct: กรอบงานที่ agents สลับระหว่างการใช้เหตุผลเกี่ยวกับสถานการณ์ของพวกเขาและการดำเนินการที่เป็นรูปธรรม ลองนึกถึงเชฟที่ประเมินความคืบหน้าของตนเองอย่างต่อเนื่องและปรับกลยุทธ์การทำอาหารของพวกเขา

  2. Chain-of-Thought: agents แบ่งปัญหาที่ซับซ้อนออกเป็นขั้นตอนย่อยที่จัดการได้, แสดงงานของพวกเขาตลอดเส้นทาง นี่คล้ายกับวิธีที่นักคณิตศาสตร์แก้สมการที่ซับซ้อนทีละขั้นตอน

  3. Tree-of-Thoughts: agents สำรวจเส้นทางการแก้ปัญหาที่เป็นไปได้หลายเส้นทางพร้อมกัน, เหมือนผู้เล่นหมากรุกที่พิจารณาการเคลื่อนไหวต่างๆ และผลที่ตามมา

นี่คือตัวอย่างจริงจากเอกสารไวท์เปเปอร์เกี่ยวกับวิธีที่ agent อาจจัดการกับคำขอจองเที่ยวบิน:

ผู้ใช้: "ฉันต้องการจองเที่ยวบินจากออสตินไปซูริค"

ความคิดของ Agent: ฉันควรค้นหาเที่ยวบินก่อน
การดำเนินการ: [เรียก API ค้นหาเที่ยวบิน]
การสังเกต: พบตัวเลือกเที่ยวบินหลายตัวเลือก

ความคิดของ Agent: ฉันควรตรวจสอบราคาที่ดีที่สุดและเส้นทาง
การดำเนินการ: [วิเคราะห์ผลการค้นหา]
การสังเกต: พบการเชื่อมต่อและราคาที่เหมาะสมที่สุด

ความคิดของ Agent: ผู้ใช้ต้องการสรุปตัวเลือกที่ชัดเจน
คำตอบสุดท้าย: "นี่คือตัวเลือกเที่ยวบินที่ดีที่สุด..."

ชุดเครื่องมือของ Agent: วิธีที่พวกเขาโต้ตอบกับโลก

เอกสารไวท์เปเปอร์ระบุวิธีที่ agents สามารถโต้ตอบกับระบบภายนอกได้สามวิธีที่แตกต่างกัน:

1. ส่วนขยาย

เหล่านี้คือ เครื่องมือด้าน agent ที่อนุญาตให้เรียก API โดยตรง คิดว่ามันเหมือนมือของ agent – พวกเขาสามารถยื่นมือออกไปและโต้ตอบกับบริการภายนอกได้โดยตรง เอกสารไวท์เปเปอร์ของ Google แสดงให้เห็นว่าสิ่งเหล่านี้มีประโยชน์อย่างยิ่งสำหรับการดำเนินการแบบเรียลไทม์ เช่น การตรวจสอบราคาตั๋วเครื่องบินหรือพยากรณ์อากาศ

2. ฟังก์ชัน

แตกต่างจากส่วนขยาย, ฟังก์ชันทำงานบนฝั่งลูกค้า สิ่งนี้ให้การควบคุมและความปลอดภัยมากขึ้น, ทำให้เหมาะสำหรับการดำเนินการที่ละเอียดอ่อน agent ระบุสิ่งที่ต้องทำ, แต่การดำเนินการจริงเกิดขึ้นภายใต้การดูแลของลูกค้า

ความแตกต่างระหว่างส่วนขยายและฟังก์ชัน:

3. ที่เก็บข้อมูล

เหล่านี้คือห้องสมุดอ้างอิงของ agent, ให้การเข้าถึงทั้งข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง โดยใช้ฐานข้อมูลเวกเตอร์และการฝัง, agents สามารถค้นหาข้อมูลที่เกี่ยวข้องได้อย่างรวดเร็วในชุดข้อมูลขนาดใหญ่

วิธีที่ Agents เรียนรู้และปรับปรุง

เอกสารไวท์เปเปอร์ระบุวิธีการที่น่าสนใจสามประการในการเรียนรู้ของ agent:

  1. การเรียนรู้ในบริบท: เหมือนเชฟที่ได้รับสูตรใหม่และส่วนผสม, agents เรียนรู้ที่จะจัดการงานใหม่ผ่านตัวอย่างและคำแนะนำที่ให้ไว้ในระหว่างการทำงาน

  2. การเรียนรู้ตามการดึงข้อมูล: ลองนึกถึงเชฟที่มีห้องสมุดตำราอาหารขนาดใหญ่ Agents สามารถดึงตัวอย่างและคำแนะนำที่เกี่ยวข้องจากที่เก็บข้อมูลของพวกเขาได้อย่างไดนามิก

  3. การปรับแต่ง: นี่เหมือนกับการส่งเชฟไปโรงเรียนสอนทำอาหาร – การฝึกอบรมอย่างเป็นระบบเกี่ยวกับประเภทงานเฉพาะเพื่อปรับปรุงประสิทธิภาพโดยรวม

การสร้าง Agents ที่พร้อมใช้งานในสภาพแวดล้อมการผลิต

ส่วนที่ใช้งานได้จริงที่สุดของเอกสารไวท์เปเปอร์เกี่ยวข้องกับการใช้ agents ในสภาพแวดล้อมการผลิต โดยใช้แพลตฟอร์ม Vertex AI ของ Google, นักพัฒนาสามารถสร้าง agents ที่รวม:

  • ความเข้าใจภาษาธรรมชาติสำหรับการโต้ตอบกับผู้ใช้
  • การผสานรวมเครื่องมือสำหรับการดำเนินการในโลกจริง
  • การจัดการหน่วยความจำสำหรับการตอบสนองตามบริบท
  • ระบบการตรวจสอบและประเมินผล

อนาคตของสถาปัตยกรรม Agent

สิ่งที่น่าตื่นเต้นที่สุดอาจเป็นแนวคิดของ "การเชื่อมโยง agent" – การรวม agents เฉพาะทางเพื่อจัดการงานที่ซับซ้อน ลองนึกถึงระบบวางแผนการเดินทางที่รวม:

  • agent จองเที่ยวบิน
  • agent แนะนำโรงแรม
  • agent วางแผนกิจกรรมท้องถิ่น
  • agent ตรวจสอบสภาพอากาศ

แต่ละคนมีความเชี่ยวชาญในโดเมนของตนเองแต่ทำงานร่วมกันเพื่อสร้างโซลูชันที่ครอบคลุม

สิ่งนี้หมายถึงอะไรสำหรับอนาคต

การเกิดขึ้นของ AI agents แสดงถึงการเปลี่ยนแปลงพื้นฐานในปัญญาประดิษฐ์ – จากระบบที่สามารถคิดได้เท่านั้นไปสู่ระบบที่สามารถคิดและทำได้ ในขณะที่เรายังอยู่ในช่วงเริ่มต้น, สถาปัตยกรรมและวิธีการที่ระบุไว้ในเอกสารไวท์เปเปอร์ของ Google ให้แผนที่ชัดเจนสำหรับวิธีที่ AI จะพัฒนาจากเครื่องมือที่เป็นพาสซีฟไปสู่ผู้เข้าร่วมที่มีบทบาทในการแก้ปัญหาในโลกจริง

สำหรับนักพัฒนา, ผู้นำธุรกิจ, และผู้ที่สนใจเทคโนโลยี, การทำความเข้าใจ AI agents ไม่ใช่แค่การตามทันแนวโน้ม – มันคือการเตรียมพร้อมสำหรับอนาคตที่ AI จะกลายเป็นพันธมิตรที่แท้จริงในการร่วมมือกับมนุษย์

คุณเห็น AI agents เปลี่ยนอุตสาหกรรมของคุณอย่างไร? แบ่งปันความคิดของคุณในความคิดเห็นด้านล่าง.