Publications and Patents

Publications

^* indicates equal contribution, ^# indicates corresponding author

2026

Hydraulis: Balancing Large Transformer Model Training via Co-designing Parallel Strategies and Data Assignment
Haoyang Li, Fangcheng Fu^#, Sheng Lin, Hao Ge, Xuanyu Wang, Jiawen Niu, Jinbao Xue, Yangyu Tao, Di Wang, Jie Jiang, Bin Cui^#
SIGMOD 2026
LAER-MoE: Load-Adaptive Expert Re-layout for Efficient Mixture-of-Experts Training
Xinyi Liu, Yujie Wang, Fangcheng Fu^#, Xuefeng Xiao, Huixia Li, Jiashi Li, Bin Cui^#
ASPLOS 2026
Elastor: Elastic and Efficient Model Partitioning and Checkpointing for Fault-tolerant Distributed Training
Xuanyu Wang, Fangcheng Fu^#, Haoyang Li, Hao Ge, Sheng Lin , Jiawen Niu, Bin Cui^#
PPoPP 2026
BOute: Cost-Efficient LLM Serving with Heterogeneous LLMs and GPUs via Multi-Objective Bayesian Optimization
Youhe Jiang, Fangcheng Fu^#, Eiko Yoneki^#
MLSys 2026
HexiScale: Facilitating Large Language Model Training over Heterogeneous Hardware
Ran Yan, Youhe Jiang, Xiaonan Nie, Fangcheng Fu, Bin Cui, Binhang Yuan
MLSys 2026
Cascadia: An Efficient Cascade Serving System for Large Language Models
Youhe Jiang^*, Fangcheng Fu^*, Wanru Zhao, Stephan Rabanser, Jintao Zhang, Nicholas D. Lane, Binhang Yuan
ICLR 2026
Retrieval-Augmented Generation for AI-Generated Content: A Survey
Penghao Zhao, Hailin Zhang, Qinhan Yu, Zhengren Wang, Yunteng Geng, Fangcheng Fu^#, Ling Yang, Wentao Zhang^#, Jie Jiang, Bin Cui^#
Data Science and Engineering 2026 (To appear)

2025

Malleus: Straggler-Resilient Hybrid Parallel Training of Large-scale Models via Malleable Data and Model Parallelization
Haoyang Li^*, Fangcheng Fu^*#, Hao Ge, Sheng Lin, Xuanyu Wang, Jiawen Niu, Yujie Wang, Hailin Zhang, Xiaonan Nie, Bin Cui^#
SIGMOD 2025
PQCache: Product Quantization-based KVCache for Long Context LLM Inference
Hailin Zhang, Xiaodong Ji, Yilin Chen, Fangcheng Fu, Xupeng Miao, Xiaonan Nie, Weipeng Chen, Bin Cui
SIGMOD 2025
Memo: Fine-grained Tensor Management For Ultra-long Context LLM Training
Pinxue Zhao, Hailin Zhang, Fangcheng Fu^#, Xiaonan Nie, Qibin Liu, Fang Yang, Yuanbo Peng, Dian Jiao, Shuaipeng Li, Jinbao Xue, Yangyu Tao, Bin Cui^#
SIGMOD 2025
LobRA: Multi-tenant Fine-tuning over Heterogeneous Data
Sheng Lin^*, Fangcheng Fu^*#, Haoyang Li, Hao Ge, Xuanyu Wang, Jiawen Niu, Yaofeng Tu, Bin Cui^#
VLDB 2025
PS-MI: Accurate, Efficient, and Private Data Valuation in Vertical Federated Learning
Xiaokai Zhou, Xiao Yan, Fangcheng Fu, Ziwen Fu, Tieyun Qian, Yuanyuan Zhu, Qinbo Zhang, Bin Cui, Jiawei Jiang
VLDB 2025
FlexSP: Accelerating Large Language Model Training via Flexible Sequence Parallelism
Yujie Wang, Shiju Wang, Shenhan Zhu, Fangcheng Fu^#, Xinyi Liu, Xuefeng Xiao, Huixia Li, Jiashi Li, Faming Wu, Bin Cui^#
ASPLOS 2025
Spindle: Efficient Distributed Training of Multi-Task Large Models via Wavefront Scheduling
Yujie Wang, Shenhan Zhu, Fangcheng Fu^#, Xupeng Miao^#, Jie Zhang, Juan Zhu, Fan Hong, Yong Li, Bin Cui^#
ASPLOS 2025
ByteScale: Communication-Efficient Scaling of LLM Training with a 2048K Context Length on 16384 GPUs
Hao Ge^*, Junda Feng^*, Qi Huang^*, Fangcheng Fu^#, Xiaonan Nie, Lei Zuo, Haibin Lin^#, Bin Cui^#, Xin Liu^#
SIGCOMM 2025
ThunderServe: High-performance and Cost-efficient LLM Serving in Cloud Environments
Youhe Jiang^*, Fangcheng Fu^*, Xiaozhe Yao^*, Taiyi Wang, Bin Cui, Ana Klimovic, Eiko Yoneki
MLSys 2025
Demystifying Cost-Efficiency in LLM Serving over Heterogeneous GPUs
Youhe Jiang^*, Fangcheng Fu^*, Xiaozhe Yao^*, Guoliang He^*, Xupeng Miao, Ana Klimovic, Bin Cui, Binhang Yuan, Eiko Yoneki
ICML 2025
NetMoE: Accelerating MoE Training through Dynamic Sample Placement
Xinyi Liu, Yujie Wang, Fangcheng Fu, Xupeng Miao, Shenhan Zhu, Xiaonan Nie, Bin Cui
ICLR 2025 (Spotlight)
Training-free and Adaptive Sparse Attention for Efficient Long Video Generation
Yifei Xia, Suhan Ling, Fangcheng Fu^#, Yujie Wang, Huixia Li, Xuefeng Xiao, Bin Cui^#
ICCV 2025
Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning
Peichao Lai, Zhengfeng Zhang, Wentao Zhang, Fangcheng Fu, Bin Cui
ACL 2025
Towards Scalable and Efficient Graph Structure Learning
Siqi Shen, Wentao Zhang, Chengshuo Du, Chong Chen, Fangcheng Fu, Yingxia, Shao, Bin Cui
ICDE 2025
Hounding Data Diversity: Towards Participant Selection in Vertical Federated Learning
Xiaokai Zhou, Xiao Yan, Fangcheng Fu, Xinyan Li, Hao Huang, Quanqing Xu, Chuanhui Yang, Bo Du, Tieyun Qian, Jiawei Jiang
ICDE 2025
Detecting and Analyzing Motifs in Large-scale Online Transaction Networks
Jiawei Jiang, Hao Huang, Zhigao Zheng, Yi Wei, Fangcheng Fu, Xiaosen Li, Bin Cui
TKDE 37(2): 584-596 (2025)
HaCore: Efficient Coreset Construction with Locality Sensitive Hashing for Vertical Federated Learning
Qinbo Zhang, Xiao Yan, Yukai Ding, Fangcheng Fu, Quanqing Xu, Ziyi Li, Chuang Hu, Jiawei Jiang
AAAI 2025
Model Rake: A Defense Against Stealing Attacks in Split Learning
Qinbo Zhang, Xiao Yan, Yanfeng Zhao, Fangcheng Fu, Quanqing Xu, Yukai Ding, Xiaokai Zhou, Chuang Hu, Jiawei Jiang
IJCAI 2025
RAP: Random Projection is What You Need for Vertical Federated Learning
Qinbo Zhang, Xiao Yan, Yukai Ding, Fangcheng Fu, Chuang Hu, Quanqing Xu, Xu Chen, Jiawei Jiang
DASFFA 2025
Improving Low-Resource Sequence Labeling with Knowledge Fusion and Contextual Label Explanations
Peichao Lai, Jiaxin Gan, Feiyang Ye, Wentao Zhang, Fangcheng Fu, Yilei Wang, Bin Cui
EMNLP 2025

2024

Enabling Parallelism Hot Switching for Efficient Training of Large Language Models
Hao Ge^*, Fangcheng Fu^*#, Haoyang Li, Xuanyu Wang, Sheng Lin, Yujie Wang, Xiaonan Nie, Hailin Zhang, Xupeng Miao, Bin Cui^#
SOSP 2024
Efficient Multi-task LLM Quantization and Serving for Multiple LoRA Adapters
Yifei Xia, Fangcheng Fu^#, Wentao Zhang, Jiawei Jiang, Bin Cui^#
NeurIPS 2024
LSH-MoE: Communication-efficient MoE Training via Locality-Sensitive Hashing
Xiaonan Nie, Qibin Liu, Fangcheng Fu^#, Shenhan Zhu, Xupeng Miao, Xiaoyang Li, Yang Zhang, Shouda Liu, Bin Cui^#
NeurIPS 2024
ProjPert: Projection-based Perturbation for Label Protection in Split Learning based Vertical Federated Learning
Fangcheng Fu, Xuanyu Wang, Jiawei Jiang, Huanran Xue, and Bin Cui
TKDE 36(7): 3417-3428 (2024)
Improving Automatic Parallel Training via Balanced Memory Workload Optimization
Yujie Wang, Youhe Jiang, Xupeng Miao^#, Fangcheng Fu^#, Shenhan Zhu, Xiaonan Nie, Yaofeng Tu, Bin Cui^#
TKDE 36(8): 3906-3920 (2024)
Accelerating Text-to-image Editing via Cache-enabled Sparse Diffusion Inference
Zihao Yu, Haoyang Li, Fangcheng Fu, Xupeng Miao, Bin Cui
AAAI 2024
X-former Elucidator: Reviving Efficient Attention for Long Context Language Modeling
Xupeng Miao, Shenhan Zhu, Fangcheng Fu, Ziyu Guo, Zhi Yang, Yaofeng Tu, Zhihao Jia, Bin Cui
IJCAI 2024
Generative and Contrastive Paradigms Are Complementary for Graph Self-Supervised Learning
Yuxiang Wang, Xiao Yan, Chuang Hu, Quanqing Xu, Chuanhui Yang, Fangcheng Fu, Wentao Zhang, Hao Wang, Bo Du, Jiawei Jiang
ICDE 2024

2023

Angel-PTM: A Scalable and Economical Large-scale Pre-training System in Tencent
Xiaonan Nie, Yi Liu, Fangcheng Fu^#, Jinbao Xue, Dian Jiao, Xupeng Miao, Yangyu Tao, Bin Cui^#
VLDB 2023
OSDP: Optimal Sharded Data Parallel for Distributed Deep Learning
Youhe Jiang, Fangcheng Fu^#, Xupeng Miao, Xiaonan Nie, Bin Cui^#
IJCAI 2023
KVSAgg: Secure Aggregation of Distributed Key-Value Sets
Yuhan Wu, Siyuan Dong, Yi Zhou, Yikai Zhao, Fangcheng Fu, Tong Yang, Chaoyue Niu, Fan Wu, Bin Cui
ICDE 2023
P2CG: A Privacy Preserving Collaborative Graph Neural Network Training Framework
Xupeng Miao, Wentao Zhang, Yuezihan Jiang, Fangcheng Fu, Yingxia Shao, Lei Chen, Yangyu Tao, Gang Cao, Bin Cui
VLDB Journal 32(4): 717-736 (2023)
Accelerating Text-to-image Editing via Cache-enabled Sparse Diffusion Inference
Zihao Yu, Haoyang Li, Fangcheng Fu, Xupeng Miao, Bin Cui
MLSys Workshop NeurIPS 2023

2022

Towards Communication-efficient Vertical Federated Learning Training via Cache-enabled Local Update
Fangcheng Fu, Xupeng Miao, Jiawei Jiang, Huanran Xue, Bin Cui
VLDB 2022
BlindFL: Vertical Federated Machine Learning without Peeking into Your Data
Fangcheng Fu, Huanran Xue, Yong Cheng, Yangyu Tao, Bin Cui
SIGMOD 2022
VF-PS: How to Select Important Participants in Vertical Federated Learning, Efficiently and Securely?
Jiawei Jiang, Lukas Burkhalter, Fangcheng Fu, Bo Li, Bolin Ding, Bo Du, Anwar Hithnawi, Ce Zhang
NeurIPS 2022
Analyzing Online Transaction Networks with Network Motifs
Jiawei Jiang, Yusong Hu, Xiaosen Li, Wen Ouyang, Zhitao Wang, Fangcheng Fu, Bin Cui
SIGKDD 2022
K-Core Decomposition on Super Large Graphs with Limited Resources
Shicheng Gao, Jie Xu, Xiaosen Li, Fangcheng Fu, Wentao Zhang, Wen Ouyang, Yangyu Tao, Bin Cui
ACM SAC 2022

2021

VF²Boost: Very Fast Vertical Federated Gradient Boosting for Cross-Enterprise Learning
Fangcheng Fu, Yingxia Shao, Lele Yu, Jiawei Jiang, Huanran Xue, Yangyu Tao, Bin Cui
SIGMOD 2021

2020

Don’t Waste Your Bits! Squeeze Activations and Gradients for Deep Neural Networks via TinyScript
Fangcheng Fu, Yuzheng Hu, Yihan He, Jiawei Jiang, Yingxia Shao, Ce Zhang, Bin Cui
ICML 2020
SKCompress: Compressing Sparse and Nonuniform Gradient in Distributed Machine Learning
Jiawei Jiang^*, Fangcheng Fu^*, Tong Yang, Yingxia Shao, Bin Cui
VLDB Journal 29(5): 945-972 (2020)

2019

An Experimental Evaluation of Large Scale GBDT Systems
Fangcheng Fu, Jiawei Jiang, Yingxia Shao, Bin Cui
VLDB 2019

2018

SketchML: Accelerating Distributed Machine Learning with Data Sketches
Jiawei Jiang, Fangcheng Fu, Tong Yang, Bin Cui
SIGMOD 2018
DimBoost: Boosting Gradient Boosting Tree to Higher Dimensions
Jiawei Jiang, Bin Cui, Ce Zhang, Fangcheng Fu
SIGMOD 2018

Papers in Chinese

MQLserve：基于量化的多任务大语言模型服务系统/MQLserve: Quantization-based Multi-task LLM serve system
符芳诚,夏义扉,崔斌/Fangcheng Fu, Yifei Xia, Bin Cui
计算机学报/Chinese Journal of Computers, 2025, 48(3):517-536 (NDBC 2024 Best Paper)
面向高维特征和多分类的分布式梯度提升树/Distributed Gradient Boosting Decision Tree Algorithm for High-dimensional and Multi-classification Problems
江佳伟,符芳诚,邵蓥侠,崔斌/Jiawei Jiang, Fangcheng Fu, Yingxia Shao, Bin Cui
软件学报/Journal of Software, 2019, 30(3):784-798

Patents

基于深度神经网络最小方差梯度量化压缩及图像处理方法. ZL 2019 1 1029711.0
一种数据处理方法、装置、设备及计算机可读存储介质. ZL 2021 1 0576191.6
基于联邦学习的数据传输方法、装置以及可读存储介质. ZL 2021 1 0680161.X
基于联邦神经网络模型的数据处理方法、相关设备及介质. ZL 2021 1 0531392.4
联邦模型训练方法、装置、终端设备以及存储介质. ZL 2022 1 0363190.8
多方安全计算方法、装置、设备及存储介质. ZL 2021 1 0503941.7
联邦神经网络模型的训练方法、装置、设备及存储介质. ZL 2020 1 1167325.0
数据集合处理方法、数据处理方法、装置及存储介质. ZL 2021 1 0541183.8