multiview transformers for video recognition github

Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the Wild. [PDF][Project], [2017 SIGGRAPH Asia] Embodied Hands: Modeling and Capturing Hands and Bodies Together. (arXiv 2021.11) iBOT: Image BERT Pre-Training with Online Tokenizer. (arXiv 2022.09) Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding. CVPR 2020. Python . A large scale comparison of deep instance segmentation, Johannes Theodoridis (Hochschule der Medien Stuttgart)*; Jessica Hofmann (Hochschule der Medien); Johannes Maucher (Media University Stuttgart); Andreas G Schilling (University of Tbingen), MVDG: A Unified Multi-view Framework for Domain Generalization, Jian Zhang (Nanjing University)*; Lei Qi (Southeast University); Yinghuan Shi (Nanjing University); Yang Gao (Nanjing University), MINER: Multiscale Implicit Neural Representation, Vishwanath Saragadam (Rice University)*; Jasper T Tan (Rice University); Guha Balakrishnan (Rice University); Richard Baraniuk (Rice University); Ashok Veeraraghavan (Rice University), PTQ4ViT: Post-Training Quantization for Vision Transformers with Twin Uniform Quantization, Zhihang Yuan (Peking University)*; Chenhao Xue (Peking University); Yiqi Chen (Peking University); Qiang Wu (HOUMO.AI); Guangyu Sun (Peking University), Context-Consistent Semantic Image Editing with Style-Preserved Modulation, Wuyang Luo (School of Computer Science, Fudan University); Su Yang (School of Computer Science, Fudan University)*; Hong Wang (School of Computer Science, Fudan University); Bo Long (School of Computer Science, Fudan University ); Weishan Zhang (Department of Software Engineering, China University of Petroleum), Distilling the Undistillable: Learning from a Nasty Teacher, Surgan Jandial (MDSR Labs, Adobe)*; Yash Khasbage (Indian Institute of Technology, Hyderabad); Arghya Pal (Harvard University); Vineeth N Balasubramanian (Indian Institute of Technology, Hyderabad); Balaji Krishnamurthy (), Grounding Visual Representations with Texts for Domain Generalization, Seonwoo Min (LG AI Research)*; Nokyung Park (Korea University); Siwon Kim (Seoul National University); Seunghyun Park (Clova AI Research, NAVER Corp.); Jinkyu Kim (Korea University), Towards Accurate Open-Set Recognition via Background-Class Regularization, Wonwoo Cho (Korea Advanced Institute of Science and Technology)*; Jaegul Choo (Korea Advanced Institute of Science and Technology), In Defense of Image Pre-Training for Spatiotemporal Recognition, Xianhang Li (University of California, Santa Cruz)*; Huiyu Wang (JHU); Chen Wei (Johns Hopkins University); Jieru Mei (Johns Hopkins University); Alan Yuille (Johns Hopkins University); Yuyin Zhou (UC Santa Cruz); Cihang Xie (University of California, Santa Cruz), SocialVAE: Human Trajectory Prediction using Timewise Latents, Pei Xu (Clemson University)*; Jean-Bernard Hayet (CIMAT); Ioannis Karamouzas (Clemson University), BodySLAM: Joint Camera Localisation, Mapping, and Human Motion Tracking, Dorian F Henning (Imperial College London)*; Tristan Laidlow (Imperial College London); Stefan Leutenegger (TU Munich), Eliminating Gradient Conflict in Reference-based Line-Art Colorization, zekun li (University of Electronic Science and Technology of China)*; Zhengyang Geng (Peking University); Zhao Kang (University of Electronic Science and Technology of China); Wenyu Chen (University of Electronic Science and Technology of China); Yibo Yang (Peking University), Matteo Boschini (University of Modena and Reggio Emilia)*; Lorenzo Bonicelli (Universit of Modena and Reggio Emilia); Angelo Porrello (University of Modena and Reggio Emilia); Giovanni Bellitto (University of Catania); Matteo Pennisi (University of Catania); Simone Palazzo (University of Catania); Concetto Spampinato (University of Catania); SIMONE CALDERARA (University of Modena and Reggio Emilia, Italy), DSR A dual subspace re-projection network for surface anomaly detection, Vitjan Zavrtanik (University of Ljubljana)*; Matej Kristan (University of Ljubljana); Danijel Skocaj (University of Ljubljana), Multi-Exit Semantic Segmentation Networks, Alexandros Kouris (Imperial College London and Samsung AI)*; Stylianos Venieris (Samsung AI); Stefanos Laskaridis (Samsung AI); Nicholas Lane (University of Cambridge and Samsung AI), Almost-Orthogonal Layers for Efficient General-Purpose Lipschitz Networks, Bernd Prach (IST Austria)*; Christoph H Lampert (IST Austria), Bridging the visual semantic gap in VLN via semantically richer instructions, Joaqun Ignacio Ossandn (Universidad Catolica de Chile)*; Benjamn Earle (Universidad Catlica de Chile); Alvaro Soto (Universidad Catolica de Chile), Kernel Relative-prototype Spectral Filtering for Few-shot Learning, Tao Zhang (Chengdu Techman Software Co., Ltd.)*; Wu Huang (Sichuan University), StoryDALL-E: Adapting Pretrained Text-to-image Transformers for Story Continuation, Adyasha Maharana (UNC Chapel Hill)*; Darryl Hannan (University of North Carolina at Chapel Hill); Mohit Bansal (University of North Carolina at Chapel Hill), Unsupervised Learning of Efficient Geometry-Aware Neural Articulated Representations, Atsuhiro Noguchi (The University of Tokyo)*; Xiao Sun (Microsoft Research Asia); Stephen Lin (Microsoft Research); Tatsuya Harada (The University of Tokyo / RIKEN), PANDORA: Polarization-Aided Neural Decomposition Of Radiance, Akshat Dave (Rice University)*; Yongyi Zhao (Rice University); Ashok Veeraraghavan (Rice University), OCR-free Document Understanding Transformer, Geewook Kim (NAVER Corporation)*; Teakgyu Hong (Upstage AI); Moonbin Yim (Clova AI Research, NAVER Corp.); Jeongyeon Nam (Naver); Jinyoung Park (TmaxAI); Jinyeong Yim (Google); Wonseok Hwang (LBox); Sangdoo Yun (NAVER AI LAB); Dongyoon Han (NAVER AI Lab); Seunghyun Park (Clova AI Research, NAVER Corp.), VQGAN-CLIP: Open Domain Image Generation and Manipulation Using Natural Language, Katherine B Crowson (EleutherAI); Stella R Biderman (Booz Allen Hamilton)*; daniel kornis (Eleuther.ai); Dashiell Stander (Eleuther AI); Eric Hallahan (EleutherAI); Louis J Castricato (Georgia Tech); Edward Raff (Booz Allen Hamilton), Learning to use unlabeled data in data augmentation for 3D detection, Zhaoqi Leng (Waymo)*; Shuyang Cheng (Waymo LLC); Ben Caine (Google); Weiyue Wang (Waymo); Xiao Zhang (Cruise); Jonathon Shlens (Google); Mingxing Tan (Waymo); Dragomir Anguelov (Waymo), Differentiable Zooming for Multiple Instance Learning on Whole-Slide Images, Kevin Thandiackal (ETH Zurich / IBM Research)*; Boqi Chen (ETH Zurich ); Pushpak Pati (IBM Research Zurich); Guillaume Jaume (Harvard); Drew Williamson (Pathology, Brigham and Womens Hospital, Harvard Medical School); Maria Gabrani (IBM Research); Orcun Goksel (ETH Zurich), Towards Learning Neural Representations from Shadows, Kushagra Tiwary (MIT)*; Tzofi M Klinghoffer (Massachusetts Institute of Technology); Ramesh Raskar (Massachusetts Institute of Technology), Augmenting Deep Classifiers with Polynomial Neural Networks, Grigorios Chrysos (EPFL)*; Markos Georgopoulos (Imperial College London); Jiankang Deng (Imperial College London); Jean Kossaifi (NVIDIA); Yannis Panagakis (University of Athens); Animashree Anandkumar (Caltech), AdaBest: Minimizing Client Drift in Federated Learning via Adaptive Bias Estimation, Farshid Varno (Dalhousie/Imagia)*; Marzie Saghayi (Dalhousie University); Laya Rafiee Sevyeri (Concordia); Sharut Gupta (MILA, Imagia, Indian Institute of Technology Delhi (IIT Delhi)); Stan Matwin (Dalhouise University); Mohammad Havaei (Imagia), A Simple Approach and Benchmark for 21,000-Category Object Detection, Yutong Lin (Xian Jiaotong University); Chen Li (Xian Jiaotong University); Yue Cao (Microsoft Research); Zheng Zhang (MSRA); Jianfeng Wang (Microsoft); Lijuan Wang (Microsoft); Zicheng Liu (Microsoft); Han Hu (Microsoft Research Asia)*, Bitwidth-Adaptive Quantization-Aware Neural Network Training: A Meta-Learning Approach, Jiseok Youn (Seoul National University)*; Jaehun Song (Seoul National University); Hyung-Sin Kim (Seoul National University); Saewoong Bahk (Seoul National University), Learning with Noisy Labels by Efficient Transition Matrix Estimation to Combat Label Miscorrection, Seong Min Kye (KAIST); Kwanghee Choi (Sogang University); Joonyoung Yi (Hyperconnect); Buru Chang (Hyperconnect)*, Online Task-free Continual Learning with Dynamic Sparse Distributed Memory, Julien Pourcel (ENSEA)*; Ngoc-Son Vu (ETIS/Universit Paris Seine, Universit Cergy-Pontoise, ENSEA, CNRS/ 95000-Cergy); Robert M FRENCH (CNRS). (CVPR'21') Transformer Interpretability Beyond Attention Visualization. Naruya Kondo, Yuya Ikeda, Andrea Tagliasacchi, Yutaka Matsuo, Yoichi Ochiai, Shixiang Shane Gu. (arXiv 2021.10) A free lunch from ViT: Adaptive Attention Multi-scale Fusion Transformer for Fine-grained Visual Recognition. (arXiv 2021.12) ViR: the Vision Reservoir. ICCV 2021. [PDF], [2019 BMVC] Single Image 3D Hand Reconstruction with Mesh Convolutions. Object detection is the task of detecting instances of objects of a certain class within an image. Lau (City University of Hong Kong), On the Versatile Uses of Partial Distance Correlation in Deep Learning, Xingjian Zhen (University of Wisconsin-Madison)*; Zihang Meng (University of Wisconsin Madison); Rudrasis Chakraborty (Butlr); Vikas Singh (University of Wisconsin Madison), Object-Centric Unsupervised Image Captioning, Zihang Meng (University of Wisconsin Madison)*; David Yang (Facebook); Xuefei Cao (Facebook); Ashish Shah (Facebook AI); Ser-Nam Lim (Meta AI), Pose2Room: Understanding 3D Scenes from Human Activities, Yinyu Nie (Technical University of Munich)*; Angela Dai (Technical University of Munich); Xiaoguang Han (Shenzhen Research Institute of Big Data, the Chinese University of Hong Kong (Shenzhen)); Matthias Niessner (Technical University of Munich), Capturing, Reconstructing, and Simulating: the UrbanScene3D Dataset, Liqiang Lin (Shenzhen University); Yilin Liu (Shenzhen University); Yue Hu (Shenzhen University); Xingguang Yan (Shenzhen University); Ke Xie (Shenzhen University); Hui Huang (Shenzhen University)*, A Spectral View of Randomized Smoothing under Common Corruptions: Benchmarking and Improving Certified Robustness, Jiachen Sun (University of Michigan)*; Akshay Mehra (Tulane University); Bhavya Kailkhura (Lawrence Livermore National Laboratory); Pin-Yu Chen (IBM Research); Dan Hendrycks (UC Berkeley); Jihun Hamm (Tulane University); Zhuoqing Morley Mao (University of Michigan), CLIP-Actor: Text-Driven Recommendation and Stylization for Animating Human Meshes, Kim Youwang (POSTECH)*; Ji-Yeon Kim (POSTECH); Tae-Hyun Oh (POSTECH), Interpretable Image Classification with Differentiable Prototypes Assignment, Dawid Damian Rymarczyk (Jagiellonian University)*; ukasz Struski (Jagiellonian University); Micha Grszczak (Jagiellonian University); Koryna Lewandowska (Jagiellonian University); Jacek Tabor (Jagiellonian University); Bartosz Zieliski (Jagiellonian University), Efficient One-stage Video Object Detection by Exploiting Temporal Consistency, Guanxiong Sun (Queens University Belfast); Yang Hua (Queens University Belfast)*; Guosheng Hu (Oosto); Neil Robertson (Queens University Belfast), ConCL: Concept Contrastive Learning for Dense Prediction Pre-training in Pathology Images, Jiawei Yang (UCLA)*; Hanbo Chen (Tencent AI Lab); Yuan Liang (UCLA); Junzhou Huang (University of Texas at Arlington); Lei He (UCLA); Jianhua Yao (National Institutes of Health), Leveraging Action Affinity and Continuity for Semi-supervised Temporal Action Segmentation, Guodong Ding (National University of Singapore)*; Angela Yao (National University of Singapore), Fast and High Quality Image Denoising via Malleable Convolution, Yifan Jiang (University of Texas at Austin)*; Bartlomiej Wronski (Google Research); Ben Mildenhall (Google Research); Jonathan T Barron (Google Research); Zhangyang Wang (University of Texas at Austin); Tianfan Xue (Google), Data Association between Event Streams andIntensity Frames under Diverse Baselines, Dehao Zhang (Peking University)*; Qiankun Ding (Peking University); Peiqi Duan (Peking University); Chu Zhou (Peking University); Boxin Shi (Peking University), Self-Regulated Feature Learning via Teacher-free Feature Distillation, TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval, Yuqi Liu (Renmin University of China)*; Pengfei Xiong (Shopee); luhui xu (tencent); Cao Shengming (Tencent); Qin Jin (Renmin University of China), TAPE: Task-Agnostic Prior Embedding for Image Restoration, Lin Liu (University of Science and Technology of China)*; Lingxi Xie (Huawei Inc.); Xiaopeng Zhang (Noahs Ark Lab, Huawei Inc.); Shanxin Yuan (Huawei Noahs Ark Lab); Xiangyu Chen (University of Macau; SIAT); Wengang Zhou (University of Science and Technology of China); Houqiang Li (University of Science and Technology of China); Qi Tian (Huawei Cloud & AI), MVSalNet:Multi-View Augmentation for RGB-D Salient Object Detection, JiaYuan Zhou (Dalian University of Technology)*; Lijun Wang (Dalian University of Technology); Huchuan Lu (Dalian University of Technology); Kaining Huang (huang kaining); Xinchu Shi (Meituan Group); Bocong Liu (Meituan), Rethinking IoU-based Optimization for Single-stage 3D Object Detection, Hualian Sheng (College of Information Science and Electronic Engineering, Zhejiang University; DAMO Academy, Alibaba Group)*; Sijia Cai (DAMO Academy, Alibaba Group); Na Zhao (NUS); Bing Deng (Damo Academy, Alibaba Group); Jianqiang Huang (Damo Academy, Alibaba Group); Xian-Sheng Hua (Damo Academy, Alibaba Group); Min-Jian Zhao (Zhejiang University); Gim Hee Lee (National University of Singapore), Uncertainty Inspired Underwater Image Enhancement, Zhenqi Fu (Xiamen University)*; Wu Wang (Xiamen University); Yue Huang (Xiamen University); Xinghao Ding (Xiamen University); Kai-Kuang Ma (Nanyang Technological University, Singapore), Qihang Yu (Johns Hopkins University)*; Huiyu Wang (JHU); Siyuan Qiao (Google); Maxwell D Collins (Google Inc.); Yukun Zhu (Google Inc.); Hartwig Adam (Google); Alan Yuille (Johns Hopkins University); Liang-Chieh Chen (Google Inc.), Contrastive Vision-Language Pre-training with Limited Resources, Quan Cui (Waseda University)*; Boyan Zhou (ByteDance); Yu Guo (Fudan University); Weidong Yin (UBC); Hao Wu (Bytedance Inc.); Osamu Yoshie (Waseda University); Yubo Chen (Bytedance), Learning Linguistic Association Towards Efficient Text-Video Retrieval, Sheng Fang (ICT); Shuhui Wang (VIPL,ICT,Chinese academic of science)*; Junbao Zhuo (ICT CAS); Xinzhe Han (University of Chinese Academy of Sciences); Qingming Huang (University of Chinese Academy of Sciences), United Defocus Blur Detection and Deblurring via Adversarial Promoting Learning, Wenda Zhao (Dalian University of Technology)*; Fei Wei (Dalian University of Techology); You He (Naval Aviation University); Huchuan Lu (Dalian University of Technology), Unstructured Feature Decoupling for Vehicle Re-Identification, Wen Qian (Institute of Automation, Chinese Academy of Sciences)*; Hao Luo (Alibaba group); Silong Peng (The Chinese academy of science); Fan Wang (Alibaba Group); Chen Chen (The Chinese academy of science); Hao Li (Alibaba Group), Improving Adversarial Robustness of 3D Point Cloud Classification Models, Guanlin Li (Nanyang Technological University)*; Guowen Xu (Nanyang Technological University); Han Qiu (Tsinghua University); Ruan HE (Tencent); Jiwei Li (Shannon.AI); Tianwei Zhang (Nanyang Technological University), ASSISTER: Assistive Navigation via Conditional Instruction Generation, Zanming Huang (Boston University); Zhongkai Shangguan (Boston University); Jimuyang Zhang (Boston University); Gilad Bar (Rutgers University Camden); Matthew Boyd (Boston University); Eshed Ohn-Bar (Boston University)*, Deep Hash Distillation for Image Retrieval, Young Kyun Jang (Seoul National University)*; Geonmo Gu (NAVER corp); Byungsoo Ko (NAVER/LINE Corp.); Isaac Kang (Seoul National University); Nam Ik Cho (Seoul National University), Learning Spatial-Preserved Skeleton Representations for Few-Shot Action Recognition, Ning Ma (Zhejiang University)*; Hongyi Zhang (Zhejiang University); Xuhui Li (Zhejiang University); Sheng Zhou (Zhejiang University); Zhen Zhang (National University of Singapore); Jun Wen (Harvard University); Haifeng Li (Zhejiang University); Jingjun Gu (Zhejiang University); Jiajun Bu (Zhejiang University), Digging into Radiance Grid for Real-Time View Synthesis with Detail Preservation, Jian Zhang (Alibaba Group); Jinchi Huang (Alibaba Group); Bowen Cai (Alibaba Group); Huan Fu (Alibaba Group)*; Mingming Gong (University of Melbourne); Chaohui Wang (Laboratoire dInformatique Gaspard Monge, Universit Paris-Est); Jiaming Wang (Alibaba Group); Hongchen Luo (Alibaba Group); Rongfei Jia (Alibaba Group); Binqiang Zhao (Alibaba); Xing Tang (Alibaba Group), S^2Contact: Graph-based Network for 3D Hand-Object Contact Estimation with Semi-Supervised Learning, Tze Ho Elden Tse (University of Birmingham)*; Zhongqun Zhang (University of Birmingham); Kwang In Kim (UNIST); Ales Leonardis (University of Birmingham); Feng Zheng (SUSTech); Hyung Jin Chang (University of Birmingham), TD-Road: Top-Down Road Network Extraction with Holistic Graph Construction, Yang He (Amazon)*; Ravi Garg (Amazon com services inc); Amber Roy Chowdhury (Amazon), StyleGAN-Human: A Data-Centric Odyssey of Human Generation, Jianglin Fu (SenseTime)*; Shikai Li (SenseTime Research); Yuming Jiang (Nanyang Technological University); Kwan-Yee Lin (SenseTime Research); Chen Qian (SenseTime); Chen Change Loy (Nanyang Technological University); Wayne Wu (SenseTime Research); Ziwei Liu (Nanyang Technological University), Hourglass Attention Network for Image Inpainting, Ye Deng (Xian Jiaotong University)*; Siqi Hui (Xian Jiaotong University); Rongye Meng (IAIR, Xian Jiaotong University); Sanping Zhou (Xian Jiaotong University); Jinjun Wang (Xian Jiaotong University), Zhengzhong Tu (University of Texas at Austin)*; Hossein Talebi (Google); Han Zhang (Google); Feng Yang (Google Research); Peyman Milanfar (Google); Alan Bovik (University of Texas at Austin); Yinxiao Li (Google), Gen6D: Generalizable Model-Free 6-DoF Object Pose Estimation from RGB Images, Yuan Liu (The University of Hong Kong)*; Yilin Wen (The University of Hong Kong); Sida Peng (Zhejiang University); Cheng Lin (Tencent); Xiaoxiao Long (The University of Hong Kong); Taku Komura (The University of Hong Kong); Wenping Wang (The University of Hong Kong), ColorFormer: Image Colorization via Color Memory assisted Hybrid-attention Transformer, Xiaozhong Ji (Tencent)*; Boyuan Jiang (Tencent Youtu Lab); Donghao Luo (Tencent); Guangpin Tao (Nanjing University); Wenqing Chu (Tencent); Zhifeng Xie (Shanghai University); Chengjie Wang (Tencent; Shanghai Jiao Tong University); Ying Tai (Tencent YouTu), Spotting Temporally Precise, Fine-Grained Events in Video, James Hong (Stanford University)*; Haotian Zhang (Stanford University); Michal Gharbi (Adobe Research); Matthew Fisher (Adobe Research); Kayvon Fatahalian (Stanford), SegPGD: An Effective and Efficient Adversarial Attack for Evaluating and Boosting Segmentation Robustness, Jindong Gu (University of Munich)*; Hengshuang Zhao (University of Oxford); Volker Tresp (Siemens AG and Ludwig Maximilian University of Munich ); Philip Torr (University of Oxford), Adversarial Erasing Framework via Triplet with Gated Pyramid Pooling Layer for Weakly Supervised Semantic Segmentation, Sung-Hoon Yoon (KAIST)*; Hyeokjun Kweon (KAIST); Jegyeong Cho (KAIST); Shinjeong Kim (KAIST); Kuk-Jin Yoon (KAIST), Zejia Weng (Fudan University)*; Xitong Yang (University of Maryland); Ang Li (Google DeepMind); Zuxuan Wu (UMD); Yu-Gang Jiang (Fudan University), Learning an Isometric Surface Parameterization for Texture Unwrapping, Sagnik Das (Stony Brook University)*; Ke Ma (Stony Brook University); Zhixin Shu (Adobe Research); Dimitris Samaras (Stony Brook University), Mimic Embedding via Adaptive Aggregation: Learning Generalizable Person Re-identification, BOQIANG XU (University of Chinese Academy of SciencesInstitute of AutomationChinese Academy of Sciences)*; Jian Liang (CASIA); He Lingxiao (nlprcripac); Zhenan Sun (Chinese of Academy of Sciences), CryoAI: Amortized Inference of Poses for Ab Initio Reconstruction of 3D Molecular Volumes from Real Cryo-EM Images, Axel Levy (Stanford University); Frederic Poitevin (SLAC National Accelerator Laboratory); Julien N. P. Martel (Stanford University); Youssef Nashed (SLAC National Accelerator Laboratory); Ariana Peck (SLAC National Accelerator Laboratory); Nina Miolane (UCSB); Daniel Ratner (Stanford University ); Mike Dunne (SLAC National Accelerator Laboratory); Gordon Wetzstein (Stanford University)*, EAGAN: Efficient Two-stage Evolutionary Architecture Search for GANs, Guohao Ying (University of Southern California); Xin He (Hong Kong Baptist University); Bin Gao (National University of Singapore); Bo Han (HKBU / RIKEN); Xiaowen Chu (Hong Kong University of Science and Technology)*, ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer, Rui Yang (Tsinghua University)*; Hailong Ma (ByteDance Inc); Jie Wu (ByteDance Inc); Yansong Tang (Tsinghua University); Xuefeng Xiao (ByteDance Inc); Min Zheng (ByteDance); Xiu Li (Tsinghua University), PlaneFormers: From Sparse View Planes to 3D Reconstruction, Samir Agarwala (University of Michigan)*; Linyi Jin (University of Michigan); Chris Rockwell (University of Michigan); David Fouhey (University of Michigan), Domain Adaptive Video Segmentation via Temporal Pseudo Supervision, Yun Xing (Nanyang Technological University); Dayan Guan (Mohamed bin Zayed University of Artificial Intelligence); Jiaxing Huang (Nanyang Technological University); Shijian Lu (Nanyang Technological University)*, Diverse Learner: Exploring Diverse Supervision for Semi-supervised Object Detection, Linfeng Li (Baidu)*; Minyue Jiang (Baidu Inc.); Yue Yu (Baidu.Inc. (arXiv 2022.01) Q-ViT: Fully Differentiable Quantization for Vision Transformer. (arXiv 2022.04) OCFormer: One-Class Transformer Network for Image Classification. [PDF], Sub-Frame Appearance and 6D Pose Estimation of Fast Moving Objects. (arXiv 2022.03) Adaptive Transformers for Robust Few-shot Cross-domain Face Anti-spoofing. [PDF](Spotlight), Collaborative Learning of Gesture Recognition and 3D Hand Pose Estimation with Multi-Order Feature Analysis. [PDF], Point-to-Point Regression PointNet for 3D Hand Pose Estimation. img. (arXiv 2022.05) A Closer Look at Self-supervised Lightweight Vision Transformers. 2. [PDF] [Project] [Github], Occupancy Flow: 4D Reconstruction by Learning Particle Dynamics. (arXiv 2022.10) mm-Wave Radar Hand Shape Classification Using Deformable Transformers. [2020 CVPRW] Leaping from 2D Detection to Effcient 6DoF Object Pose Estimation. (arXiv 2022.09) DeViT: Deformed Vision Transformers in Video Inpainting. [PDF], LOGAN: Unpaired Shape Transform in Latent Overcomplete Space. Rui Yu, Yue Dong, Pieter Peers, Xin Tong. (arXiv 2022.03) Inverted Pyramid Multi-task Transformer for Dense Scene Understanding. [PDF], [2017 TPAMI] Dense Semantic 3D Reconstruction. [PDF] [Github], One-Shot Identity-Preserving Portrait Reenactment. [PDF], Deeply Learned Compositional Models for Human Pose Estimation. [PDF], [2013 CVPR] Tracking Human Pose by Tracking Symmetric Parts. SIGGRAPH 2022. Yurui Ren, Ge Li, Yuanqi Chen, Thomas H. Li, Shan Liu. Xiuming Zhang, Sean Fanello, Yun-Ta Tsai, Tiancheng Sun, Tianfan Xue, Rohit Pandey, Sergio Orts-Escolano, Philip Davidson, Christoph Rhemann, Paul Debevec, Jonathan T. Barron, Ravi Ramamoorthi, William T. Freeman. (arXiv 2021.10) Robustness Evaluation of Transformer-based Form Field Extractors via Form Attacks. (arXiv 2022.07) Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios. (arXiv 2022.07) AudioVisual Segmentation. [PDF], Cascaded Deep Monocular 3D Human Pose Estimation With Evolutionary Training Data. (arXiv 2022.02) Image-to-Graph Transformers for Chemical Structure Recognition. https://arxiv.org/abs/1909.06956, Improved Few-Shot Visual Classification Please feel free to pull requests, open an issue or send me email (chenxinghaothu@gmail.com) to add awesome papers. arxiv 2022. CVPR 2021. (arXiv 2021.12) SLIP: Self-supervision meets Language-Image Pre-training. [PDF] [Project] [Github] [pyRender], Learning Elementary Structures For 3D Shape Generation And Matching. (arXiv 2021.03) Instance-level Image Retrieval using Reranking Transformers. [PDF][Project], HandVoxNet: Deep Voxel-Based Network for 3D Hand Shape and Pose Estimation from a Single Depth Map. CVPR 2018. Ultimate-Awesome-Transformer-Attention . CVPR 2021 [PDF][Project], LLFF: Local Light Field Fusion: Practical View Synthesis with Prescriptive Sampling Guidelines. [PDF], [2021 ICRA] REDE: End-To-End Object 6D Pose Robust Estimation Using Differentiable Outliers Elimination. 2008. CVPR 2022. (arXiv 2022.10) Prompt Generation Networks for Efficient Adaptation of Frozen Vision Transformers. (arXiv 2021.08) TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation. [2] Workshops on Capturing and modeling human bodies, faces and hands: PeopleCap 2018, In conjunction with ECCV 2018, PeopleCap 2017, In conjunction with ICCV 2017, [2] The 2017 Hands in the Million Challenge on 3D Hand Pose Estimation, [arXiv 2011.07252] Ego2Hands: A Dataset for Egocentric Two-hand Segmentation and Detection. Shunsuke Saito, Tomas Simon, Jason Saragih, Hanbyul Joo. (arXiv 2022.05) Transformers for Multi-Object Tracking on Point Clouds. (arXiv 2021.03) Multimodal Motion Prediction with Stacked Transformers. On Cross-Modal Influence in Multimodal Transformers. (arXiv 2021.08) Light Field Image Super-Resolution with Transformers. CVPR 2021. Jiahui Zhang, Fangneng Zhan, Rongliang Wu, Yingchen Yu, Wenqing Zhang, Bai Song, Xiaoqin Zhang, Shijian Lu. (arXiv 2021.04) ConTNet: Why not use convolution and transformer at the same time. (arXiv 2022.05) Deeper vs Wider: A Revisit of Transformer Configuration. (arXiv 2021.04) Visual Transformer Pruning. Work fast with our official CLI. Amir Hertz, Or Perel, Raja Giryes, Olga Sorkine-Hornung, Daniel Cohen-Or.
Brondby Vs Midtjylland H2h Predictions, Best Pasta Salad With Artichoke Hearts, Cereal Crop Crossword Clue 6 Letters, How To Track Changes In Powerpoint Mac, Ready Mix Concrete Ingredients, Make Stuff Up Crossword Clue, Hillsboro Airport Hangar,