Research | Boxun Xu

★ Representative work ^* Co-first authors 🏆 Award / nomination

Efficient Generative Modeling

KV caching, sparse attention, and quantization for scalable visual & video autoregressive models.

AAAI’26

★ AMS-KV: Adaptive KV Caching in Multi-Scale Visual Autoregressive Transformers

Boxun Xu, Yu Wang, Zihu Wang, and Peng Li

In AAAI Conference on Artificial Intelligence (main track)(Acceptance Rate: 17.6%) , 2026

First efficient KV-caching design tailored for multi-scale visual AR transformers.
Preprint

★ Sparse Forcing: Native Trainable Sparse Attention for Real-time Autoregressive Video Generation

Boxun Xu, Yuming Du, Zichang Liu, Siyu Yang, Ziyang Jiang, Siqi Yan, Rajasi Saha, Albert Pumarola, Wenchen Wang, and Peng Li

2025

First native trainable sparse-attention framework enabling real-time autoregressive video generation.

Work done during internship at Meta Superintelligence Labs.

Project Page
ICCV’25

VAR-Q: Tuning-free Quantized KV Caching for Visual Autoregressive Models

Boxun Xu^*, Jiaji Lu^*, Zihu Wang, Yu Wang, Zirui Liu, and Peng Li

In IEEE/CVF International Conference on Computer Vision (ICCV) Workshop on Binary and Extreme Quantization for Computer Vision, 2025
CVPR’26

VEGAS: Mitigating Hallucinations in Large Vision-Language Models via Vision-Encoder Attention Guided Adaptive Steering

Zihu Wang, Boxun Xu, and others

In IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Findings, 2026

Hardware/Algorithm Co-design and EDA

Spiking transformers, 3D accelerators, and LLM-assisted EDA — from algorithm down to silicon.

ISCA’25

★ Bishop: Sparsified Bundling Spiking Transformers on Heterogeneous Cores with Error-Constrained Pruning

Boxun Xu, Yuxuan Yin, Vikram Iyer, and Peng Li

In International Symposium on Computer Architecture (ISCA)(Acceptance Rate: 22.2%) , 2025

First SW/HW co-design framework for neuromorphic transformers.
ICCAD’25

🏆 Nominated as William J. McCalla Best Paper Award in 2025

★ 3D Acceleration for Mixture-of-Experts and Multi-Head Attention Spiking Transformers with Dynamic Head Pruning

Boxun Xu, Junyoung Hwang, Pruek Vanna-iampikul, Yuxuan Yin, Sung Kyu Lim, and Peng Li

In ACM/IEEE International Conference on Computer-Aided Design (ICCAD)(Acceptance Rate: 24.7%) , 2025

First 3D-integrated accelerator for Mixture-of-Experts spiking transformers with dynamic head pruning.
ICCAD’24

🏆 Nominated as William J. McCalla Best Paper Award in 2024

★ Spiking Transformer Hardware Accelerators in 3D Integration

Boxun Xu, Junyoung Hwang, Pruek Vanna-iampikul, Sung-Kyu Lim, and Peng Li

In ACM/IEEE International Conference on Computer-Aided Design (ICCAD)(Acceptance Rate: 24%) , 2024

First 3D-integrated hardware accelerator for spiking transformers.
TCAD’25

SpikeX: Exploring Accelerator Architecture and Network-Hardware Co-Optimization for Sparse Spiking Neural Networks

Boxun Xu, Richard Boone, and Peng Li

In IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems(TCAD), 2025
ASAP’25

Trimming Down Large Spiking Vision Transformers via Heterogeneous Quantization Search

Boxun Xu^*, Yufei Song^*, and Peng Li

In IEEE International Conference on Application-specific Systems, Architectures and Processors (ASAP), 2025
TMLR

DS2TA: Denoising Spiking Transformer with Attenuated Spatiotemporal Attention

Boxun Xu, Hejia Geng, Yuxuan Yin, and Peng Li

In Transactions on Machine Learning Research (TMLR, under review), 2024
ICCAD’24

ADO-LLM: Analog Design Bayesian Optimization with In-Context Learning of Large Language Models

Yuxuan Yin, Yu Wang, Boxun Xu, and Peng Li

In ACM/IEEE International Conference on Computer-Aided Design (ICCAD), 2024

First work to bring LLMs into analog circuit design, pairing in-context priors with Bayesian optimization for sample-efficient sizing.
COLM’26

LASER: Language Model Regression for Semi-Structured Workflow Resource and Runtime Estimation

Yuxuan Yin, Shengke Zhou, Yunjie Zhang, Ajay Mohindra, Boxun Xu, and Peng Li

In Conference on Language Modeling (COLM, under review), 2026
ITC’25

Transfer Learning for Minimum Operating Voltage Prediction in Advanced Technology Nodes: Leveraging Legacy Data and Silicon Odometer Sensing

Yuxuan Yin, Rebecca Chen, Boxun Xu, Chen He, and Peng Li

In ACM/IEEE International Test Conference (ITC), 2025
JSSC’24

AIMMI: Audio and Image Multi-Modal Intelligence via a Low-Power SoC With 2-MByte On-Chip MRAM for IoT Devices

Zichen Fan, Hyochan An, Qirui Zhang, Boxun Xu, Li Xu, Chien-Wei Tseng, Yimai Peng, Ang Cao, Bowen Liu, Changwoo Lee, Zhehong Wang, Hun-Seok Kim, David Blaauw, and Dennis Sylvester

In IEEE Journal of Solid-State Circuits(JSSC), 2024
VLSI’22

Audio and Image Cross-Modal Intelligence via a 10TOPS/W 22nm SoC with Back-Propagation and Dynamic Power Gating

Zichen Fan, Hyochan An, Qirui Zhang, Boxun Xu, Li Xu, Chien-Wei Tseng, Yimai Peng, Ang Cao, Bowen Liu, Changwoo Lee, Zhehong Wang, Fanghao Liu, Guanru Wang, Shenghao Jiang, Hun-Seok Kim, David Blaauw, and Dennis Sylvester

In 2022 IEEE Symposium on VLSI Technology and Circuits (VLSI-Symposium), 2022

Other Publications

AAAI’26

Khan-GCL: Kolmogorov-Arnold Network Based Graph Contrastive Learning with Hard Negatives

Zihu Wang, Boxun Xu, Hejia Geng, and Peng Li

In AAAI Conference on Artificial Intelligence (main track)(Acceptance Rate: 17.6%) , 2026