ข้ามไปเนื้อหา

U-Net

จากวิกิพีเดีย สารานุกรมเสรี

U-Net เป็นโครงข่ายประสาทแบบสังวัตนาการที่พัฒนาขึ้นโดยภาควิชาวิทยาการคอมพิวเตอร์ที่มหาวิทยาลัยไฟรบวร์คโดยเริ่มแรกนำมาใช้สำหรับการวิเคราะห์รูปภาพทางชีวการแพทย์[1] โครงข่ายนี้สร้างขึ้นจากชั้นสังวัตนาการทั้งหมด[2] โดยมีสถาปัตยกรรมที่ได้รับการปรับเปลี่ยนและขยายให้สามารถทำการแบ่งส่วนรูปภาพได้โดยไม่จำเป็นต้องใช้ข้อมูลรูปภาพสำหรับฝึกมาก เมื่อใช้ GPU สมัยใหม่ (ปี 2015) โครงข่ายที่ใช้สถาปัตยกรรม U-Net สามารถทำการแบ่งส่วนรูปภาพขนาด 512x512 ใช้เวลาน้อยกว่า 1 วินาที[1]

สถาปัตยกรรม U-Net ยังถูกนำมาใช้ในแบบจำลองแบบแพร่สำหรับการลดสัญญาณรบกวนในรูปภาพด้วยการวนซ้ำ[3] เทคโนโลยีนี้เป็นพื้นฐานสำหรับแบบจำลองปัญญาประดิษฐ์ช่วยสร้างภาพสมัยหลายรุ่น รวมถึง DALL-E, มิดเจอร์นีย์ และสเตเบิลดิฟฟิวชัน

สถาปัตยกรรมของโครงข่าย

[แก้]

ตัวอย่างสถาปัตยกรรมของ U-Net เพื่อสร้างภาพแมสก์ขนาด256x256 จำนวน k ภาพ จากรูปภาพ RGB ขนาด 256x256

โครงข่ายนี้ประกอบด้วยชั้นส่วนหดย่อและชั้นส่วนขยาย โดยมีโครงสร้างเป็นรูปตัวยู ชั้นในส่วนหดย่อประกอบด้วยชั้นสังวัตนาการแล้วตามด้วยฟังก์ชันกระตุ้นเช่น ReLU และชั้นบ่อรวมซ้ำไปมาหลายชั้น เหมือนในโครงข่ายทั่วไป เมื่อผ่านแต่ละชั้นในส่วนหดย่อ ข้อมูลเชิงพื้นที่จะลดลง ในขณะที่ข้อมูลค่าลักษณะจะเพิ่มขึ้น ชั้นในส่วนขยายจะรวบข้อมูลค่าลักษณะและข้อมูลเชิงพื้นที่ โดยเชื่อมโยงกับข้อมูลเข้ากับค่าลักษณะที่มีความละเอียดภาพสูงจากชั้นหดย่อ

อ้างอิง

[แก้]
  1. 1.0 1.1 Ronneberger O, Fischer P, Brox T (2015). "U-Net: Convolutional Networks for Biomedical Image Segmentation". arXiv:1505.04597 [cs.CV].
  2. Shelhamer E, Long J, Darrell T (Nov 2014). "Fully Convolutional Networks for Semantic Segmentation". IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (4): 640–651. arXiv:1411.4038. doi:10.1109/TPAMI.2016.2572683. PMID 27244717. S2CID 1629541.
  3. Ho, Jonathan (2020). "Denoising Diffusion Probabilistic Models". arXiv:2006.11239 [cs.LG].