Deepercut: یک مدل تخمین چند نفره عمیق تر ، قوی تر و سریعتر

آخرین مطالب

امکانات وب

Deepercut: یک مدل تخمین چند نفره عمیق تر ، قوی تر و سریعتر

هدف از این مقاله ، پیشبرد پیشرفته ترین تخمین های مطرح شده در صحنه ها با افراد متعدد است. برای این منظور ما در سه جبهه مشارکت می کنیم. ما (1) آشکارسازهای بخش بهبود یافته بدن را پیشنهاد می کنیم که پیشنهادات مؤثر از پایین به بالا را برای قطعات بدن تولید می کنند.(2) اصطلاحات جدید و با تهویه مطبوع که اجازه می دهد تا پیشنهادات را در تعداد متغیر تنظیمات قسمت بدن سازگار جمع کنند. و (3) یک استراتژی بهینه سازی افزایشی که فضای جستجو را با کارآمدتر بررسی می کند ، بنابراین منجر به عملکرد بهتر و عوامل سرعت قابل توجهی می شود. ارزیابی بر روی دو معیار تخمین POSE چند نفره و دو نفره انجام می شود. رویکرد پیشنهادی به طور قابل توجهی از نتایج برآورد معروف چند نفره شناخته شده است و در عین حال عملکرد رقابتی را در وظیفه برآورد POSE یک شخص نشان می دهد (مدل ها و کد موجود در http://pose. mpi-inf. mpg. de).

کلید واژه ها

بخشی از بدن
برنامه نویسی خطی عدد صحیح
منطقه زیر منحنی
ردیاب
بانک Conv4

این کلمات کلیدی توسط دستگاه اضافه شده و نه توسط نویسندگان. این فرآیند تجربی است و با بهبود الگوریتم یادگیری ممکن است کلمات کلیدی به روز شود.

دانلود مقاله کنفرانس PDF

1. معرفی

برآورد ژست انسان اخیراً به ویژه در معیارهای استاندارد برای برآورد مطرح کردن شخص مجرد پیشرفت چشمگیری داشته است [1 ، 2]. این پیشرفت با استفاده از معماری های عمیق مبتنی بر یادگیری [3 ، 4] و در دسترس بودن مجموعه داده های در مقیاس بزرگ مانند "MPII Human Pose" تسهیل شده است [2]. به منظور پیشرفت بیشتر در مورد کار چالش برانگیز برآورد POSE چند نفره ، ما با دقت طراحی و ارزیابی چندین کلید اصلی برای برآورد مطالب انسانی را طراحی و ارزیابی می کنیم.

نتایج تخمین چند نفره نمونه توسط Deepercut پیشنهادی.

اولین ماده ای که ما در نظر می گیریم تولید فرضیه های قسمت بدن است. اساساً تمام روشهای برجسته تخمین پوز شامل مؤلفه ای هستند که قطعات بدن را تشخیص می دهد یا موقعیت آنها را تخمین می زند. در حالی که کار اولیه از طبقه بندی کننده هایی مانند SVMS و Adaboost [1 ، 5-7] استفاده می کرد ، رویکردهای مدرن بر روی طعم های مختلف معماری های مبتنی بر یادگیری عمیق ساخته می شوند [8 11]. ماده اصلی دوم اصطلاحات زوج بین فرضیه های قسمت بدن است که به گروه بندی آنها در تنظیمات معتبر در تنظیمات انسانی کمک می کند. در مدل های قبلی ، چنین اصطلاحات زوجی برای عملکرد خوب ضروری بودند [1 ، 5 ، 6]. به نظر می رسد که روش های اخیر به دلیل یکپارچه های قوی تر از چنین اصطلاحات جفتی سود کمتری دارند [8 ، 10 ، 11]. با این حال ، اصطلاحات جفت شده با تصویر [7 ، 9] قول می دهد که گروه بندی بهتری را فراهم کند. نکته آخر اینکه ، زمان استنباط همیشه یک نکته مهم برای مدل های تخمین Pose است. غالباً ، پیچیدگی مدل باید برای سرعت درمان شود و بنابراین بسیاری از مدل ها تمام روابط مکانی را در نظر نمی گیرند که برای بهترین عملکرد مفید باشد.

در این مقاله ما به هر سه جنبه کمک می کنیم و از این طریق به طور قابل توجهی وضعیت هنر را در تخمین پوز چند نفره تحت فشار قرار می دهیم. ما از یک چارچوب بهینه سازی عمومی که در کارهای قبلی خود معرفی شده است استفاده می کنیم [10] به عنوان یک بستر آزمایشی برای هر سه ماده اصلی ارائه شده در این مقاله ، زیرا این امکان را می دهد تا به راحتی اجزای مختلف را جایگزین و ترکیب کنیم. مشارکتهای ما سه برابر است و منجر به یک رویکرد تخمین چند نفره جدید می شود که در مقایسه با وضعیت هنر عمیق تر ، قوی تر و سریعتر است [10]:

"عمیق تر": ما آشکارسازهای بخش قوی بدن را بر اساس پیشرفتهای اخیر در یادگیری عمیق پیشنهاد می کنیم [12] که - به تنهایی - در حال حاضر اجازه می دهد عملکرد رقابتی را در معیارهای تخمین Pose بدست آورید.

"قوی تر": ما اصطلاحات زوجی جدید و مطبوع را بین قسمت های بدن معرفی می کنیم که امکان فشار در مورد چالش برانگیز تخمین چند نفره را فراهم می کند.

"سریعتر": ما نشان می دهیم که با استفاده از جفت به صورت جفتی به همراه نامزدهای تشخیص بخش بسیار خوب در یک مدل کاملاً متصل ، زمان اجرا را با 2-3 مرتبه از بزرگی کاهش می دهد. سرانجام ، ما یک روش بهینه سازی افزایشی جدید را برای دستیابی به یک کاهش زمان 4 برابر بیشتر در حالی که دقت برآورد تخمین انسان را بهبود می بخشد ، معرفی می کنیم.

ما رویکرد خود را در مورد دو معیار برآورد تک نفره و دو نفره تخمین POSE ارزیابی می کنیم و بهترین نتایج را در هر مورد گزارش می دهیم. نمونه پیش بینی های تخمین چند نفره با رویکرد پیشنهادی در شکل 1 نشان داده شده است.

کار مرتبط. برآورد مطرح شده در انسان به طور سنتی به عنوان یک کار پیش بینی ساختاری تدوین شده است که به یک مرحله استنباط نیاز دارد تا مشاهدات محلی اتصالات بدن را با محدودیت های مکانی ترکیب کند. فرمولاسیون های مختلفی بر اساس مدل های درخت [6 ، 13-15] و غیر قطبی ارائه شده است [16 ، 17]. هدف از فرآیند استنتاج ، تصحیح مشاهدات از ردیاب های قسمت محلی به برآوردهای منسجم از تنظیمات بدن است. مدلهایی از این نوع به طور فزاینده ای توسط ردیاب های قسمت قوی بدن [18-20] ، که با توسعه بازنمایی های تصویر قوی بر اساس شبکه های حلقوی تقویت شده است ، کنار گذاشته شده است. کار اخیر با هدف ترکیب آشکارسازهای حلقوی در مدلهای جزئی مبتنی بر [9] یا طراحی آشکارسازهای قوی تر با ترکیب خروجی ردیاب با ویژگی های مبتنی بر مکان [21].

به طور خاص ، همانطور که در [10] پیشنهاد می کنیم ، در حضور ردیاب های قوی استدلال مکانی منجر به کاهش بازده می شود زیرا بیشتر اطلاعات متنی می توانند مستقیماً در ردیاب گنجانیده شوند. در این کار ما با پرداختن به تصاویر با چندین فرد بالقوه با هم همپوشانی ، کار را به سطح جدیدی از پیچیدگی ها ارتقا می دهیم. این منجر به یک مشکل پیش بینی ساخت یافته پیچیده تر با تعداد متغیر خروجی ها می شود. در این تنظیم ما شاهد افزایش استنباط در بالای ردیاب های قسمت پیشرفته هستیم.

ترکیب مدل های مکانی با Convnets امکان افزایش میدان گیرنده را که برای استنباط مکان های مفصل بدن استفاده می شود ، افزایش می دهد. به عنوان مثال [11] به طور مکرر یک آبشار از آشکارسازهای قطعات حلقوی را آموزش می دهد ، هر ردیاب از مرحله قبلی امتیاز همه قسمت ها را می گیرد. این به طور موثری عمق شبکه را افزایش می دهد و میدان گیرنده با کل شخص قابل مقایسه است. با تحولات اخیر در تشخیص شیء ، معماری های جدیدتر از تعداد زیادی لایه تشکیل شده اند و میدان گیرنده به طور خودکار بزرگ است. در این مقاله ، ما یک ردیاب را بر اساس شبکه های باقیمانده عمیق که اخیراً پیشنهاد شده اند معرفی می کنیم [12]. این به ما اجازه می دهد تا یک ردیاب را با یک میدان پذیرایی بزرگ [11] آموزش دهیم و نظارت متوسط را در خود جای دهیم.

استفاده از اصطلاحات جفتی کاملاً هندسی نابهینه است زیرا آنها شواهد تصویر محلی را در نظر نمی گیرند و فقط انحراف از محل اتصال مورد انتظار را جریمه می کنند. با توجه به مفصل بندی ذاتی اعضای بدن، مکان مورد انتظار فقط می تواند تقریباً استنتاج را هدایت کند. در حالی که این می تواند زمانی که افراد نسبتاً از یکدیگر فاصله دارند کافی باشد، برای افرادی که موقعیت نزدیک دارند هزینه های زوجی تبعیض آمیزتر ضروری است. دو کار قبلی [7، 9] اصطلاحات زوجی وابسته به تصویر را بین اعضای بدن متصل معرفی کرده اند. در حالی که [7] از یک نمایش میانی بر اساس poselets استفاده می کند، شرایط زوجی ما مستقیماً بر روی تصویر شرطی می شوند.[9] موقعیت های نسبی اتصالات مجاور را در خوشه های (T=11) خوشه بندی می کند و بسته به اینکه در کدام خوشه قرار می گیرد، برچسب های مختلفی را به قطعه اختصاص می دهد. متعاقباً یک CNN برای پیش بینی این مجموعه گسترده از کلاس ها آموزش داده می شود و بعداً از یک SVM برای انتخاب حداکثر رابطه زوج مشترک امتیازدهی استفاده می شود.

تخمین ژست افراد مجرد به طور قابل توجهی پیشرفت کرده است، اما تنظیم ساده شده است. در اینجا ما بر مشکل چالش برانگیزتر تخمین ژست چند نفره تمرکز می کنیم. کار قبلی این مشکل را به عنوان توالی تشخیص و تخمین وضعیت نشان داده است [22-24].[22] از یک آشکارساز برای مقداردهی اولیه و استدلال در بین افراد استفاده کنید، اما بر روابط هندسی ساده اعضای بدن تکیه کنید و فقط در مورد انسداد فرد-فرد دلیل کنید.[24] روی افراد مجرد تا حدی مسدود شده تمرکز می کند و صحنه های چند نفره شبیه به [6] را مدیریت می کند. در [10] پیشنهاد می کنیم که پیکربندی ها را به طور مشترک شناسایی و تخمین بزنیم، اما فقط بر روی عبارت های زوجی ساده تکیه می کنیم، که عملکرد را محدود می کند و همانطور که نشان می دهیم، منجر به زمان استنتاج بازدارنده برای کشف کامل فضای جستجو می شود. در اینجا، ما در چندین جبهه هم از نظر سرعت و هم از نظر دقت نوآوری می کنیم.

2 Recap DeepCut

در این بخش ( extit) [10] و نحوه استفاده از عبارات یکپارچه و زوجی در این رویکرد خلاصه می شود.( extit) یک رویکرد پیشرفته برای تخمین ژست چند نفره بر اساس برنامه ریزی خطی عدد صحیح (ILP) است که به طور مشترک ژست های همه افراد حاضر در یک تصویر را با به حداقل رساندن یک هدف مشترک تخمین می زند. هدف این هدف این است که به طور مشترک یک مجموعه اولیه از کاندیداهای اعضای بدن را به مجموعه های ثابتی از پیکربندی های قسمت بدن مربوط به افراد متمایز تقسیم و برچسب گذاری کند. ما از ( extit) به عنوان یک چارچوب بهینه سازی کلی استفاده می کنیم که امکان جایگزینی و ترکیب اجزای مختلف را به راحتی فراهم می کند.

به طور خاص ، ( textit ) از مجموعه ای از کاندیداهای قسمت بدن ، یعنی تشخیص قلمداد قطعات بدن در یک تصویر معین ، و مجموعه ای از کلاس های قسمت بدن ، به عنوان مثال ، سر ، شانه ، زانو شروع می شود. مجموعه D کاندیداهای قسمت به طور معمول توسط ردیاب های قسمت بدنه تولید می شود و هر نامزد (D در D ) برای هر کلاس قسمت از بدن (C in C ) نمره یونی دارد. بر اساس این نمرات unary ( textit ) هزینه یا پاداش ( alpha _ in mathbb ) را که توسط همه راه حل های امکان پذیر مشکل تخمین مطرح شده پرداخت می شود ، که نامزد قسمت بدنه D است ، پرداخت می شود. از کلاس c.

علاوه بر این ، برای هر جفت کاندیداهای قسمت بدنه مجزا (D ، D ' در D ) و هر دو کلاس قسمت بدن (C ، C' در C ) ، از اصطلاح زوج برای تولید هزینه یا پاداش استفاده می شود ( beta _ in mathbb ) که توسط تمام راه حل های امکان پذیر مشکل تخمین پوز که قسمت بدنه D ، طبقه بندی شده به عنوان c و قسمت بدن (d ') طبقه بندی می شود ، به عنوان (c طبقه بندی می شود.') ، متعلق به همان شخص است.

با توجه به این مجموعه ها و هزینه ها ، مشکل تخمین Pose به عنوان ILP در دو کلاس 01 متغیر ریخته می شود: متغیرها (X: D Times C Rightarrow \) با (x_ = 1 ) نشان می دهد که بدنکاندیدای بخش D از قسمت بدنه کلاس c است. اگر برای (d in d ) و همه (c in c ) ، (x_ = 0 ) ، نامزد قسمت بدنه D سرکوب می شود. متغیرها (y: genfrac () 1 راست \) توسط (y_ = 1 ) نشان می دهد که کاندیداهای قسمت بدنه d و (d ') متعلق به همان شخص هستند. متغیرها و محدودیتهای اضافی شرح داده شده در [10] متغیرهای x و y را به هزینه ها پیوند می دهند و اطمینان حاصل می کنند که راه حل های امکان پذیر (x ، y) انتخاب و طبقه بندی نامزدهای قسمت بدن به عنوان کلاسهای قسمت بدن و همچنین خوشه بندی بدن را به خوبی تعریف می کندکاندیداهای جزئی در افراد مجزا.

ILP ( textit ) تقریباً سخت و سخت است ، زیرا حداقل مشکل خوشه بندی چندتایی یا همبستگی را که APX سخت است ، تعمیم می دهد [25 ، 26]. با استفاده از الگوریتم شاخه و برش [10] برای محاسبه راه حل های امکان پذیر با فاکتور ثابت از نمونه های ( textit ) ILP لزوماً عملی نیست. در فرقه5 ما یک رویکرد بهینه سازی افزایشی را پیشنهاد می کنیم که از الگوریتم شاخه و برش استفاده می کند تا به طور تدریجی چندین نمونه از ILP را حل کند ، که منجر به کاهش زمان 4-5 برابر با افزایش دقت تخمین پوز می شود.

3 بخش ردیاب

همانطور که قبلاً گفته شد ، ردیاب های بخش قوی یک ماده اساسی روشهای تخمین مدرن هستند. ما یک مدل تشخیص بخش عمیق بدن انسان کاملاً هماهنگ را بر روی ایده های قدرتمند اخیر از تقسیم معنایی ، طبقه بندی شی [12 ، 27 ، 28] و تخمین ژست انسان پیشنهاد و ارزیابی می کنیم [10 ، 11 ، 20].

3. 1 مدل

معماری. ما بر روی پیشرفت های اخیر در طبقه بندی شی ایجاد می کنیم و شبکه باقیمانده بسیار عمیق (RESNET) [12] را برای تشخیص قسمت بدن انسان سازگار می کنیم. این مدل نتایج بسیار خوبی را در چالش طبقه بندی شیء Imagenet به دست آورد و به طور خاص با عبور از حالت از طریق لایه های هویت و مدل سازی عملکردهای باقیمانده ، مشکل شیب ناپدید شدن را برطرف می کند. بهترین مدل تشخیص قسمت بدن ما دارای 152 لایه (C. F. Sect. 3. 2) است که مطابق با یافته های [12] است.

گام های بلند برداشتن. تطبیق RESNET برای تشخیص قسمت بدنه مبتنی بر پنجره کشویی مستقیم به جلو نیست: تبدیل RESNET به حالت کاملاً حلقوی منجر به یک قدم 32 PX می شود که برای محلی سازی دقیق قسمت بسیار درشت است. در [10] ما نشان می دهیم که استفاده از قدم 8 PX منجر به نتایج تشخیص بخش خوبی می شود. به طور معمول ، وضوح مکانی را می توان با معرفی لایه های تجزیه کننده به بالا [27] یا منفجر کردن فیلترهای حلزون با استفاده از الگوریتم سوراخ بازیابی کرد [28]. دومی نشان داده است که در مورد کار تقسیم بندی معنایی بهتر عمل می کند. با این حال ، استفاده از الگوریتم سوراخ برای بازیابی وضوح مکانی RESNET به دلیل محدودیت حافظه غیرقابل نفوذ است. به عنوان مثال ، 22 بلوک باقیمانده در Conv4 Bank of Resnet-101 بخش اصلی شبکه را تشکیل می دهد و اجرای آن در Stride 8 PX در پاورقی حافظه GPU 1 قرار نمی گیرد. بنابراین ما از یک رویکرد ترکیبی استفاده می کنیم. ابتدا طبقه بندی نهایی و همچنین لایه جمع آوری متوسط را حذف می کنیم. سپس ، ما برای جلوگیری از نمونه گیری از پایین ، اولین لایه های حلقوی بانک CONV5 را از 2 px به 1 px کاهش می دهیم. در مرحله بعد ، ما برای حفظ حوزه پذیرش آنها ، به تمام 3x3 پیچش در CONV5 اضافه می کنیم. این باعث می شود تا CNN کامل به 16 px کاهش یابد. سرانجام ، ما لایه های تجزیه کننده را برای نمونه برداری 2 برابر اضافه می کنیم و خروجی نهایی را به خروجی بانک Conv3 وصل می کنیم.

اندازه میدان پذیرش. اندازه میدان پذیرش بزرگ امکان می دهد هنگام پیش بینی مکان های قسمتهای بدن ، زمینه را در خود جای دهد.[8 ، 11] در مورد اهمیت زمینه های پذیرنده بزرگ استدلال کنید و یک معماری سلسله مراتبی پیچیده را پیش بینی کنید که قطعات را در سطوح وضوح چندگانه پیش بینی می کند. عمق شدید RESNET بدون نیاز به معرفی معماری های سلسله مراتبی پیچیده ، یک زمینه پذیرش بسیار بزرگ (به ترتیب 1000 PX را در مقایسه با 400 PX VGG [4]) فراهم می کند. ما به صورت تجربی متوجه می شویم که دوباره مقیاس تصویر اصلی به گونه ای که یک فرد ایستاده به صورت قائم 340 PX High منجر به بهترین عملکرد شود.

نظارت متوسط. ارائه نظارت اضافی به مشکل شیب ناپدید شدن در شبکه های عصبی عمیق می پردازد [11 ، 29 ، 30]. علاوه بر آن ، [11] گزارش می دهد که با استفاده از امتیازات بخشی که در مراحل متوسط به عنوان ورودی برای مراحل بعدی تولید می شود ، به رمزگذاری روابط مکانی بین قطعات کمک می کند ، در حالی که [31] از لایه های فیوژن مکانی استفاده می کند که یک مدل فضایی ضمنی را می آموزند. Resnets با معرفی اتصالات هویت و یادگیری عملکردهای باقیمانده ، اولین مشکل را برطرف می کند. برای پرداختن به نگرانی دوم ، ما یک انتخاب کمی متفاوت را انجام می دهیم: ما لایه های ضرر بخشی را در داخل بانک Conv4 Resnet اضافه می کنیم. ما استدلال می کنیم که استفاده از امتیازات به عنوان ورودی برای مراحل بعدی کاملاً ضروری نیست. فعال سازی از چنین پیش بینی های میانی فقط با یک تحول خطی متفاوت است و شامل تمام اطلاعات مربوط به حضور قسمت است که در آن مرحله از شبکه موجود است. در فرقه3. 2 ما به صورت تجربی بهبود مداوم عملکرد تشخیص قسمت را هنگام شامل نظارت متوسط نشان می دهیم.

توابع از دست دادن. ما در طول آموزش از فعال سازی سیگموئید و عملکرد از دست دادن آنتروپی استفاده می کنیم [10]. ما با پیش بینی جبران خسارت از مکان های موجود در شبکه Scoremap به مکان های مشترک حقیقت زمین ، پالایش مکان را انجام می دهیم [10].

آموزش. ما از اجرای RESNET در دسترس عمومی (CAFFE) استفاده می کنیم و از مدلهای آموزش یافته Imagenet به صورت اولیه استفاده می کنیم. ما شبکه ها را با SGD برای تکرارهای 1M آموزش می دهیم ، با سرعت یادگیری LR = 0. 001 برای 10k ، سپس LR = 0. 002 برای 420K ، LR = 0. 0002 برای 300K و LR = 0. 0001 برای 300K شروع می کنیم. این مربوط به تقریباً 17 دوره از مجموعه قطار MPII [2] است. Finetuning از Imagenet دو روز در یک پردازنده گرافیکی واحد طول می کشد. عادی سازی دسته ای [32] عملکرد را بدتر می کند ، زیرا اندازه دسته 1 در آموزش کاملاً حلقوی برای ارائه تخمین قابل اعتماد از آمار فعال سازی کافی نیست. در طول آموزش ، مجموعه آمار را خاموش می کنیم و از میانگین و واریانس جمع شده در مجموعه داده Imagenet استفاده می کنیم.

3. 2 ارزیابی ردیاب های قسمت

مجموعه داده هاما از سه مجموعه داده عمومی استفاده می کنیم: "LEEDS Sports Poses" (LSP) [1] (حاشیه نویسی شخص محور (PC))."LSP گسترش یافته" (LSPET) [15] ؛"MPII Human Pose" ("شخص مجرد") [2] متشکل از آموزش 19185 و 7247 آزمایش. برای ارزیابی در LSP ، ما ردیاب های بخشی را در اتحادیه مجموعه آموزش MPII ، LSPET و LSP آموزش می دهیم. برای ارزیابی در شخص مجرد MPII که ما فقط در MPII آموزش می دهیم.

اقدامات ارزیابیما از متریک ارزیابی استاندارد "درصد کلیدهای صحیح (PCK)" استفاده می کنیم [8 ، 33 ، 34] و اسکریپت های ارزیابی از صفحه وب [2]. علاوه بر PCK در آستانه ثابت ، "منطقه زیر منحنی" (AUC) را برای کل آستانه های PCK محاسبه می کنیم.

نتایج در LSP. نتایج در جدول 1 نشان داده شده است. RESNET-50 با 8 PX قدم به 87. 8 ٪ PCK و 63. 7 ٪ AUC می رسد. افزایش اندازه گام به 16 px و نمونه برداری از امتیازات 2x برای جبران ضرر در وضوح کمی عملکرد را به 87. 2 ٪ PCK کاهش می دهد. این انتظار می رود که نمونه برداری به دلیل یک قدم بزرگتر ، نمی تواند به طور کامل از دست دادن اطلاعات جبران کند. قدم بزرگتر نیازهای حافظه را به حداقل می رساند ، که امکان آموزش یک RESNET-152 عمیق تر را فراهم می کند. دومی به طور قابل توجهی عملکرد را افزایش می دهد (89. 1 در مقابل 87. 2 ٪ PCK ، 65. 1 در مقابل 63. 1 ٪ AUC) ، زیرا ظرفیت مدل بیشتری دارد. معرفی نظارت میانی بیشتر عملکرد را به 90. 1 ٪ PCK و 66. 1 ٪ AUC بهبود می بخشد ، زیرا این شبکه را برای یادگیری بازنمایی های مفید در مراحل اولیه محدود می کند و از آنها در مراحل بعدی برای تفکیک مکانی قطعات استفاده می کند.

نتایج با وضعیت ART در جدول 1 مقایسه می شود. بهترین مدل ما به طور قابل توجهی از DeepCut [10] (PCK 90. 1 ٪ در مقابل 87. 1 ٪ PCK) بهتر است ، زیرا به معماری های تشخیص عمیق تر متکی است. مدل ما با رویکرد اخیر وی و همکاران عملکردی دارد.[11] (90. 1 در مقابل 90. 5 ٪ PCK ، 66. 1 در مقابل 65. 4 AUC). این جالب است ، زیرا آنها از یک معماری چند مرحله ای بسیار پیچیده تر استفاده می کنند.

نتایج مربوط به مجرد MPII. نتایج در جدول 2 نشان داده شده است. Resnet-152 به 87. 8 ٪ PCK (_ H ) و 60. 0 ٪ AUC دست می یابد ، در حالی که نظارت متوسط کمی عملکرد را به 88. 5 ٪ PCK (_ H ) و 60. 8 ٪ AUC بهبود می بخشد. با مقایسه نتایج با وضعیت هنر ، ما پیشرفت قابل توجهی نسبت به Deepcut مشاهده می کنیم [10] ( (+5. 9 ) ٪ PCK (_ H ) ، (+4. 2 ) ٪ AUC) ، که دوباره بر اهمیت استفاده تأکید می کندمدل بسیار عمیق. رویکرد پیشنهادی با بهترین نتیجه از WEI و همکاران به طور همزمان عمل می کند.[11] (88. 5 در مقابل 88. 5 ٪ PCK (_ H )) برای حداکثر آستانه فاصله ، در حالی که هنگام استفاده از کل آستانه ها کمی از دست می رود (60. 8 در مقابل 61. 4 ٪ AUC). ما تصور می کنیم که گسترش رویکرد پیشنهادی برای ترکیب چندین مقیاس مانند [11] باید عملکرد را بهبود بخشد. مدل آموزش داده شده در اتحادیه مجموعه آموزش MPII ، LSPET و LSP به 88. 3 ٪ PCK (_ H ) و 60. 7 ٪ AUC رسیده است. این واقعیت که ما از همان مدل آموزش دیده در هر دو معیار LSP و MPII استفاده می کنیم و به عملکرد مشابه می رسیم ، کلی بودن رویکرد پیشنهادی را نشان می دهد.

4 اصطلاح جفت با تصویر

همانطور که در فرقه بحث شد. 3 ، یک میدان پذیرنده بزرگ برای ردیاب های قسمت مبتنی بر CNN امکان پیش بینی دقیق حضور یک قسمت بدن در یک مکان معین را فراهم می کند. با این حال ، همچنین حاوی شواهد کافی برای استدلال در مورد مکان های دیگر در مجاورت است. ما این بینش را ترسیم می کنیم و پیشنهاد می کنیم از شبکه های عمیق نیز استفاده کنیم تا پیش بینی های جزئی به قسمت را انجام دهیم. آنها متعاقباً برای محاسبه احتمالات زوج و پیشرفتهای قابل توجهی برای برآورد POSE چند نفره استفاده می شوند.

4. 1 مدل

رویکرد ما با الهام از پالایش محل قسمت بدن که در فرقه شرح داده شده است. 3. علاوه بر پیش بینی جبران خسارات برای مفصل فعلی ، ما مستقیماً از محل فعلی به موقعیت های نسبی سایر اتصالات بازگردیم. برای هر مکان Scoremap (k = (x_k ، y_k) ) که با علامت مثبت مشخص شده است (c in c ) و برای هر مفصل باقیمانده (c ' in c setminus c ) ، تعریف می کنیمموقعیت نسبی (C ') W. R. T. C به عنوان یک tuple (t_^k = (x_-x_k ، y_-x_k) ). ما یک لایه اضافی اضافه می کنیم که موقعیت نسبی (o_^k ) را پیش بینی می کند و آن را با عملکرد ضرر L (_ 1 ) آموزش می دهد. بنابراین ما تمرین مشترک آشکارسازهای قسمت بدن (از دست دادن آنتروپی) ، رگرسیون مکان (L (_ 1 ) از دست دادن) و رگرسیون زوج (L (_ 1 ) از دست دادن) را با ترکیب خطی هر سه عملکرد از دست دادن انجام می دهیم. اهداف t به صورت عادی و دارای میانگین صفر و واریانس واحد نسبت به مجموعه آموزش نرمال می شوند. نتایج چنین پیش بینی هایی در شکل 2 نشان داده شده است.

تجسم پیش بینی های رگرسیون. بالا: از شانه چپ تا شانه راست (سبز) ، لگن راست (قرمز) ، آرنج چپ (آبی روشن) ، مچ پا راست (بنفش) و بالای سر (آبی تیره). پایین: از زانو راست تا لگن راست (سبز) ، مچ پا راست (قرمز) ، زانوی چپ (آبی تیره) ، مچ پا چپ (آبی روشن) و بالای سر (بنفش). پیش بینی های دوربرد ، مانند مثالشانه - مچ پا ممکن است برای نکات سخت تر (ردیف بالا ، تصاویر 2 و 3) در مقایسه با پیش بینی های اطراف دقیق تر باشد. با این حال ، آنها اطلاعات کافی را برای محدود کردن فضای جستجو در مدل مکانی کاملاً متصل ارائه می دهند.(شکل رنگ آنلاین)

پلتفرمهای تجاری...

ما را در سایت پلتفرمهای تجاری دنبال می کنید

برچسب : نویسنده : حامد بهداد بازدید : 44 تاريخ : پنجشنبه 25 اسفند 1401 ساعت: 15:17

Deepercut: یک مدل تخمین چند نفره عمیق تر ، قوی تر و سریعتر

آخرین مطالب

امکانات وب