https://papers.chlience.com/https://papers.chlience.com/archive/https://papers.chlience.com/papers/https://papers.chlience.com/papers/2025-09-10-defeating-nondeterminism-llm-inference/https://papers.chlience.com/papers/2409.19256-hybridflow-rlhf-framework/https://papers.chlience.com/papers/2501.12948-deepseek-r1-rl-reasoning/https://papers.chlience.com/papers/2503.14476-dapo-long-cot-rl-system/https://papers.chlience.com/papers/2510.19315-transformers-inherently-succinct/https://papers.chlience.com/papers/2605.14220-training-inference-mismatch-llm-rl/https://papers.chlience.com/papers/2605.30290-self-trained-verification/https://papers.chlience.com/papers/2605.31514-age-of-empires-anthropomorphism/https://papers.chlience.com/papers/2606.00135-agentic-tool-calling-rl-training/https://papers.chlience.com/papers/2606.04075-llms-hack-rewards-and-society/https://papers.chlience.com/papers/2606.04101-ultraep-rack-scale-moe-load-balancing/https://papers.chlience.com/papers/2606.04662-muon-outperforms-adam-curvature/https://papers.chlience.com/papers/2606.06453-vortex-sparse-attention-serving/https://papers.chlience.com/template/https://papers.chlience.com/workflow/