← 返回总览
84
论文总数
83
高分论文
7.8
平均评分
4
关键词数
自适应光学超分辨率成像
📝 作者: Robin Swanson, Esther Y. H. Lin, Masen Lamb, Suresh Sivanandam, Kiriakos N. Kutulakos
📄 中文摘要:
本研究提出了一种创新的计算成像方法,利用现代地面天文望远镜中现有的自适应光学(AO)系统,克服了视场(FoV)与图像分辨率之间的传统权衡问题。研究背景源于天文望远镜在追求更大视场时,科学相机往往对光学场欠采样,导致分辨率受限。作者通过操控AO系统的可变形镜(DM),施加一系列经过学习和精确控制的光学波前畸变,生成具有高频子像素偏移的图像序列。这些图像随后被联合上采样,生成最终的超分辨率图像。关键创新在于,该方法在维持AO系统核心功能(校正大气波前畸变)的同时,实现了超分辨率成像。研究采用端到端优化策略,同时优化镜面畸变和上采样算法,充分考虑了望远镜特有光学特性和大气波前畸变的时间统计特性。实验结果通过硬件原型和仿真验证,显示出相比非AO超分辨率基线高达12 dB的信噪比(SNR)改进,且无需额外硬件改动,仅利用现有望远镜光学系统。此外,研究通过精确的台式望远镜和AO系统复制品,证明了该方法可直接应用于实际运行的望远镜。结论表明,该技术能够在不影响科学数据的情况下显著提升分辨率,为现有天文台带来新的科学能力,具有重要的应用潜力。
自适应光学超分辨率成像天文望远镜计算成像波前畸变
适用于HabWorlds和Origins空间望远镜探测器阵列的空间合格信号处理读出电子设备开发
📝 作者: Tracee Jamison-Hooks, Lynn Miles, Sanetra Newman-Bailey, Oketa Basha, Abarna Karthikeyan, Sarah E. K
📄 中文摘要:
本文介绍了为可居住世界观测台(HWO)和Origins空间望远镜开发空间合格信号处理读出电子设备的研究进展,HWO是美国国家科学院推荐的下一代旗舰紫外/光学/红外空间望远镜。研究聚焦于微波动能电感探测器(MKID)的读出系统开发,MKID是一种天然适合频率复用读出的超导探测器,能够支持比以往任务更大的像素阵列。研究团队基于PRIMA任务(远红外天体物理探针任务)的技术与环境需求,设计了一种抗辐射的探测器读出系统,PRIMA作为关键的探路者任务,为HWO的辐射耐受性、资源限制和板载处理能力提供了重要参考。本文详细阐述了使用抗辐射AMD Kintex Ultrascale FPGA实现的算法、硬件架构和固件开发成果。核心方法包括数字信号处理(DSP)链设计,支持频率复用探测器阵列的波形生成、粗细通道化、时间戳和数据输出等功能。系统采用两阶段通道化策略,通过过采样多相滤波器组(PFB)和CORDIC数字下变频(DDC)实现高动态范围和高精度MKID信号读出,同时开发了实时宇宙射线干扰去除算法以提高数据质量。研究还展示了关键硬件实现结果,如关键采样多相滤波器组(CS-PFB)的固定点硬件设计,其信道隔离度达到-48dBc,满足MKID信号恢复需求。研究结论表明,该系统设计在资源受限的空间环境中表现出色,为HWO等未来空间观测任务奠定了技术基础,并计划进一步集成脉冲检测和音调跟踪算法以提升性能。
空间望远镜微波动能电感探测器信号处理FPGA抗辐射技术
非平衡动力学与随机过程的首次通过特性:从布朗运动到活跃粒子
📝 作者: Mathis Gu\'eneau
📄 中文摘要:
本论文研究了随机过程的非平衡动力学及其首次通过特性,涵盖了从经典布朗运动到活跃粒子的广泛模型。研究背景源于对复杂系统非平衡行为的理解需求,特别是在物理、生物和金融等领域中,传统的平衡假设往往失效。论文首先回顾了布朗运动的基本理论,包括其历史推导、朗之万方程及首次通过时间等属性,随后探讨了非高斯扩散、随机重置和活跃粒子模型(如跑步-翻滚粒子,RTP)等非平衡系统。研究方法包括理论分析和数值模拟,采用大偏差理论、Kesten方法和Siegmund对偶性等工具,推导出稳态分布、时刻和累积量表达式,并分析动态相变。关键发现包括:1)在随机重置噪声作用下,谐振势中粒子的稳态分布可通过Kesten方法精确求解,揭示非平衡稳态的性质;2)切换扩散模型中,长期累积量与自由累积量成比例,显示出高斯与非高斯行为的动态转变;3)RTP在任意势中的平均首次通过时间(MFPT)可精确计算,并在特定势中存在最优翻滚率以最小化MFPT;4)Siegmund对偶性被扩展至多种非平衡过程,连接空间分布与首次通过特性。结论指出,这些结果深化了对非平衡系统的理解,为搜索策略优化和复杂环境下的粒子动力学提供了新视角,同时为未来的理论和应用研究奠定了基础。
非平衡动力学随机过程首次通过时间活跃粒子大偏差理论
马尔可夫跳跃过程路径可观测量的随机微积分:扩散与跳跃动力学的统一
📝 作者: Lars Torbj{\o}rn Stutzer, Cai Dieball, Alja\v{z} Godec
📄 中文摘要:
本文研究了马尔可夫跳跃过程(MJP)的路径可观测量的随机微积分框架,旨在统一扩散过程与跳跃动力学的研究方法。路径可观测量是时间平均统计力学和热力学不等式(如不确定性关系、速度限制和相关性界限)的核心,对于在实验中无法完全访问系统耗散自由度时的热力学推断具有重要意义。作者通过与连续空间扩散过程的精确类比,开发了适用于MJP路径可观测量的完整随机微积分框架,提出了跳跃过程的“朗之万方程”,定义了广义路径可观测量,并建立了其协变结构,充分考虑了瞬态和时间非均匀动力学。研究证明了已知热力学不等式的最一般形式,包括不确定性关系、传输界限和相关性界限,并讨论了饱和条件。此外,作者分析了路径可观测量对一般扰动(包括热扰动)的响应,并通过连续极限实现了扩散与跳跃动力学的完全统一。研究结果表明,该框架不仅为离散状态系统提供了与生成扩散模型类似的新研究方向,还为从波动轨迹中学习随机热力学提供了理论基础。文章通过生物物理模型系统验证了理论结果的应用价值,展示了随机微积分在热力学推断中的强大潜力。
马尔可夫跳跃过程随机微积分路径可观测量热力学不等式扩散与跳跃动力学
d维粗糙势场中的扩散研究
📝 作者: Jacob Jeffries, Emilio Mendoza Reyes, Fadi Abdeljawad, Murray Daw, Enrique Martinez
📄 中文摘要:
本文研究了固体中扩散行为的预测问题,这对于理解非平衡状态下材料的微观结构演变至关重要。传统的原子级方法虽然能够较准确地预测扩散传输系数,但计算成本极高。为此,作者提出了一种在任意维度下分析噪声固溶体中扩散率的解析模型,基于平均首次通过时间(MFPT)分析方法。该模型假设能量障碍服从正态分布,并通过谐振跃迁状态理论(HTST)估算跃迁速率,推导出d维噪声势场中扩散率的解析表达式。研究结果表明,在低噪声极限下,该解析模型与动能蒙特卡洛(KMC)模拟结果高度一致。然而,在高噪声条件下,MFPT分析低估了扩散率,作者推测这是由于KMC模拟中未被模型捕捉的渗流路径(percolation pathways)导致的扩散率增加。此外,研究发现噪声总是降低扩散率,且随着维度的增加,噪声对扩散率的抑制作用减弱。本文还讨论了模型的局限性,例如仅适用于稀释步行者(dilute walkers)系统和假设能量障碍为正态分布的情况。总之,这项工作为无需冗长原子模拟即可计算复杂随机场中的传输系数提供了可能性,对理解非平衡材料演变具有重要意义。
固体扩散粗糙势场平均首次通过时间动能蒙特卡洛多维度分析
利用SAXS探究溶液中序列依赖性DNA构象的统计特性
📝 作者: Heidar J. Koning, Anuradha Pullakhandam, Andrew E. Whitten, Charles S. Bond, Michel Peyrard
📄 中文摘要:
本研究通过小角X射线散射(SAXS)技术,系统分析了四个与G抗原6(GAGE6)启动子部分序列密切相关的60碱基对DNA双链在溶液中的构象特性,旨在揭示DNA构象在溶液中的作用及其与DNA-蛋白质结合的潜在关系。研究背景聚焦于DNA在细胞内的复杂交互,如基因表达调控和遗传物质的紧凑包装,这些过程通常需要DNA弯曲以形成与蛋白质结合区域互补的表面。传统晶体学和冷冻电镜技术难以捕捉溶液中DNA的动态特性,而SAXS提供了一种无约束条件下研究DNA构象波动的方法。本研究采用了一种简化的聚合物模型,定量描述了DNA双螺旋的平均持久长度和扭转刚度,通过Monte-Carlo模拟广泛探索了构象空间,并从实验数据中提取了局部弯曲和扭转角度的统计分布。关键发现包括:SAXS数据能够以几碱基对的尺度精确检测DNA在溶液中的局部构象特征;序列不对称性允许将构象与具体序列相关联,揭示AT富集区域比GC区域更具柔性;然而,局部序列变化可能引发全局构象变化,表明集体效应在DNA构象中起重要作用。研究还探讨了GAGE6序列与SFPQ蛋白结合的可能机制,提出AT富集区域的弯曲或波动性开口可能增强蛋白质识别。结论指出,SAXS与晶体学和冷冻电镜技术互补,为研究DNA-蛋白质相互作用提供了动态视角,并强调了真实空间分析在检测局部效应中的重要性。
DNA构象SAXS序列依赖性蛋白质结合聚合物模型
无序能量景观上动态的局部-全局相关性
📝 作者: Jacob Calvert, Dana Randall
📄 中文摘要:
本文研究了连续时间马尔可夫链在无序能量景观上的动态行为,重点探讨了稳态分布的有效势(定义为稳态分布的负对数)与状态的局部属性(即退出率的対数)之间的高度相关性。研究背景源于随机热力学,旨在理解马尔可夫链如何描述物理系统的介观和宏观动态,并揭示局部动态信息与全局稳态分布之间的关系。作者通过分析基于高斯井和障碍的能量景观(分别对应规则图的顶点和边)上的可逆反应动力学,发现当障碍高度的变化显著小于井深度的变化时,相关性较高,且这种相关性与底层图的度数无关。作为应用,作者对随机能量模型(即Bouchaud陷阱模型)的动态行为给出了预期相关性的下界。研究方法结合了预期相关性的通用下界和高斯集中不等式,证明了相关性在特定条件下的高值。关键发现包括:障碍高度相对于井深度的较小变化是高相关性的充分条件;此外,随机能量模型的动态相关性下界与逆温度无关,显示出与模型相变行为的独立性。结论表明,该研究为理解局部-全局相关性提供了一个理论框架,并预期该方法可扩展至其他模型类别,如非规则图、非高斯分布及更复杂的能量景观依赖关系。本文为随机热力学和无序系统动态的研究提供了重要见解。
马尔可夫链无序能量景观局部-全局相关性随机能量模型随机热力学
随机反应-扩散系统的场论与量子方法
📝 作者: Mauricio J. del Razo, Tommaso Lamma, Wout Merbis
📄 中文摘要:
本文综述了随机反应-扩散系统的场论表示方法,重点是将理论物理中熟悉的技术(如二次量子化、福克空间、路径积分和量子场论)重新应用于经典反应-扩散系统领域。研究背景源于复杂系统建模的需求,这些系统涉及粒子或代理的移动和交互,且粒子数量因环境或内部动力学而变化。作者首先回顾了历史上发展的各种场论表示方法,并提出了一种统一的、与基无关的表示框架,解决了非线性交互和粒子数量变化带来的组合复杂性问题。主要方法包括利用福克空间和二次量子化技术直接在概率层面操作,避免显式处理组合问题,并通过路径积分和量子场论工具分析系统动态。研究还扩展了基于量子的方法和符号,直接在统一表示层面上工作,展示了如何以更简洁的方式获得已知结果,如数值离散化和多尺度模型参数关系。关键发现包括不同场论表示与化学物理模型在空间分辨率和宏观极限(大粒子数)下的对应关系,以及统一表示框架在处理空间依赖反应速率和多尺度模拟中的潜力。结论指出,该框架在物理化学、理论生态学、流行病学、博弈论和社会经济模型等领域具有广泛应用前景,尤其是在复杂系统的建模和多尺度模拟中。本文以自洽的教育性和统一性方式呈现,旨在为跨领域研究者提供可理解的指导。
随机反应-扩散场论量子方法福克空间多尺度模拟
基于扩散模型的热红外图像去噪:潜在域与小波域优化
📝 作者: Tai Hyoung Rhee, Dong-guw Lee, Ayoung Kim
📄 中文摘要:
热红外(TIR)成像在机器人感知任务中展现出巨大潜力,特别是在能见度低或光照条件恶劣的环境中。然而,TIR图像通常受到严重的非均匀固定模式噪声(FPN)的干扰,影响目标检测、定位和映射等任务。为解决这一问题,本文提出了一种基于扩散模型的TIR图像去噪框架,通过潜在空间表示和小波域优化实现去噪效果。该方法利用预训练的稳定扩散模型(Stable Diffusion),通过结合潜在空间损失和离散小波变换(DWT)/双树复小波变换(DTCWT)损失的新型损失函数对模型进行微调。此外,引入了级联精炼阶段以增强细节,确保高保真的去噪结果。在基准数据集上的实验表明,该方法在性能上优于现有的最先进的去噪方法,特别是在峰值信噪比(PSNR)、结构相似性指数(SSIM)等指标上表现出色。同时,该方法在多样且具有挑战性的真实世界TIR数据集上展现出强大的零样本泛化能力,证明了其在实际机器人部署中的有效性。研究的主要贡献包括:利用大型预训练扩散模型克服数据稀缺性并提升多样性;设计专门针对热红外图像去噪的小波变换和独特模型,结合潜在空间和小波域约束以平衡全局结构保存和细节增强;以及在未见数据集上的稳健零样本性能,为机器人感知系统在复杂环境中的应用奠定了基础。未来工作将扩展到更多成对数据集,并考虑室内外等多种条件的影响。
热红外图像去噪扩散模型小波变换机器人感知
StorySync:通过区域协调实现文本到图像生成中无训练的主体一致性
📝 作者: Gopalji Gaur, Mohammadreza Zolfaghari, Thomas Brox
📄 中文摘要:
本文提出了一种名为StorySync的无训练方法,用于解决文本到图像扩散模型在生成视觉故事序列时面临的主体一致性问题。研究背景在于,当前的文本到图像扩散模型在生成多幅图像时难以保持主体的一致性,这在视觉叙事、动画、游戏设计和视频创作等领域至关重要。传统方法通常依赖于模型微调或重新训练,计算成本高且耗时,同时可能干扰模型原有能力。StorySync通过引入三种技术创新来解决这一问题:(1)掩码跨图像注意力共享,通过动态对齐批量图像中的主体特征,确保注意力交互局限于主体区域;(2)区域特征协调,优化主体细节的视觉相似性,提升一致性;(3)基础布局插值,增强生成图像的多样性,同时保持对输入提示的遵循。实验结果表明,StorySync在多种场景下成功生成了视觉一致的主体,优于现有的无训练方法,并在保持扩散模型创造力的同时,展现出与多种预训练模型(如SDXL、Kandinsky 3和FLUX.1-schnell)的无缝集成能力。定性和定量分析均表明,StorySync在主体一致性和提示遵循性之间取得了最佳平衡。作者还讨论了方法的局限性,如对主体掩码的依赖可能导致不一致性,以及区域特征协调偶尔会误识别对应区域。总之,StorySync为视觉叙事和内容创作提供了一种高效、模型无关的解决方案,具有显著的应用潜力。
文本到图像生成主体一致性无训练方法区域协调视觉叙事
低秩Tucker表示模型用于多维数据补全
📝 作者: Wenwu Gong, Lili Yang
📄 中文摘要:
多维数据补全在计算机视觉和信号处理等领域是一个关键问题。传统方法通常依赖全局低秩近似或局部平滑正则化,但这些方法存在计算成本高、破坏数据内在结构或需要大量手动参数调整等问题。本文提出了一种新颖的低秩Tucker表示(LRTuckerRep)模型,通过Tucker分解统一了全局和局部先验建模。LRTuckerRep通过对因子矩阵的自适应加权核范数和稀疏Tucker核心编码低秩性,同时通过无参数的基于Laplacian的正则化捕捉因子空间中的平滑性。为了解决由此产生的非凸优化问题,作者开发了两种具有可证明收敛保证的迭代算法,即近端交替线性化最小化(PALM)和近端交替方向乘子(ProADM)算法。广泛的实验表明,在多维图像修复和交通数据插补任务中,LRTuckerRep在高缺失率下表现出优于基线方法的补全精度和鲁棒性。模型通过稀疏Tucker核心和加权核范数提供了低秩表示的新视角,并通过无参数平滑正则化避免了手动调参的复杂性。实验结果验证了模型在极端缺失场景(如95%缺失率)下的高效性和泛化能力。未来的研究方向包括通过快速傅里叶变换或张量T-积分解降低大规模矩阵运算的计算成本,并将模型应用于张量鲁棒主成分分析和模式发现等任务。
张量补全低秩Tucker表示先验建模图像修复交通数据插补
基于神经网络的可扩展黑箱优化方法
📝 作者: Pavankumar Koratikere, Leifur Leifsson
📄 中文摘要:
本文提出了一种名为可扩展神经网络黑箱优化(SNBO)的新方法,旨在解决高维黑箱优化问题中的可扩展性挑战。传统的贝叶斯优化(BO)依赖高斯过程(GP)模型,在高维空间和大量函数评估中因计算复杂度高而受限。相比之下,神经网络(NN)具有更好的可扩展性和建模复杂函数的能力,但现有基于NN的BO方法通常需要估计模型不确定性,这在高维情况下计算成本高且复杂。SNBO通过避免依赖模型不确定性估计,提出了一种创新的三阶段采样策略,分别关注探索和利用,同时自适应调整采样区域以提高优化效率。该方法在10到102维的多种优化问题上进行了评估,并与四种最先进的基准算法进行了比较。结果表明,SNBO在大多数测试问题中取得了优于最佳基准算法的函数值,同时减少了40-60%的函数评估次数,并将运行时间至少降低一个数量级。SNBO在解析问题上表现出色,特别是在高维设置中展现了强大的样本效率和较低的计算时间;在现实世界优化任务(如漫游车轨迹优化和半猎豹问题)中,SNBO表现与基准方法相当,但其性能受超参数设置的影响较大。未来工作将探索SNBO在约束优化问题中的应用,并考虑支持多个并行局部优化以进一步提升采样效率。本研究为高维黑箱优化提供了一种高效的替代方案,具有显著的实际应用潜力。
黑箱优化神经网络高维优化贝叶斯优化代理模型优化
使用动态符号执行生成语法挖掘的输入
📝 作者: Andreas Pointner (University of Applied Sciences Upper Austria, Austria), Josef Pichler (University
📄 中文摘要:
本文提出了一种通过动态符号执行(Dynamic Symbolic Execution, DSE)自动生成语法挖掘输入的新方法,旨在解决软件系统中解析器输入规范不完整或过时的问题。研究背景在于,许多软件组件处理结构化输入,但由于软件演化,原始规范可能已无法准确反映其接受的输入范围。传统的语法挖掘方法依赖于充足的输入数据来覆盖整个输入语言,但实践中往往只能获取软件运行时记录的有限输入,导致生成的语法不完整,忽略了边缘情况或不再使用的功能。本文基于语法挖掘工具Mimid,开发了一种全自动输入生成方法,通过DSE逐步扩展输入,并引入了三阶段策略以克服DSE在处理结构化输入解析器时的路径爆炸问题。第一阶段收集函数前缀和初始输入片段,第二阶段生成更长的函数输入片段,第三阶段完成输入生成。方法在11个基准应用程序上进行了评估,结果表明其生成的语法在精度和召回率上接近甚至优于现有技术(如Mimid),尤其在发现解析器中的微妙特性和边缘情况方面表现出色。实验数据支持该方法在多个领域的高性能,且无需预先输入样本。结论指出,该方法为软件工程领域提供了一种自动化、可扩展且精确的语法挖掘解决方案,减少了手动输入生成的工作量,并提高了提取语法的鲁棒性和全面性,对遗留系统解析器的规范重建具有重要意义。
动态符号执行语法挖掘程序分析输入生成软件逆向工程
极端尺度湍流数据集的智能采样用于精确高效的时空模型训练
📝 作者: Wesley Brewer, Murali Meena Gopalakrishnan, Matthias Maiterth, Aditya Kashi, Jong Youl Choi, Pei Zha
📄 中文摘要:
本文提出了一种名为SICKLE(Sparse Intelligent Curation frameworK for Learning Efficiently)的稀疏智能数据筛选框架,旨在通过智能子采样技术减少数据量,提高大规模湍流数据集上时空模型训练的精度和能效。研究背景聚焦于后摩尔定律时代高性能计算(HPC)中数据移动的高能耗问题,以及科学基础模型训练对海量数据的需求。作者以湍流模拟为案例,湍流作为多尺度、混沌和非线性的物理现象,其直接数值模拟(DNS)生成的数据量可达PB级,带来了存储和处理挑战。研究开发了基于最大熵(MaxEnt)的采样方法,并与随机采样和相空间采样进行了对比。SICKLE框架在Frontier超算上进行了大规模测试,涵盖从MB到TB级的多个DNS数据集。关键发现表明,MaxEnt采样在各向异性湍流数据中表现尤为优异,能以更少的样本捕捉流场关键结构,相较于全数据集训练,模型精度有所提升,同时能耗显著降低,某些情况下能耗减少高达38倍。此外,框架展示了良好的并行可扩展性,但对各向同性湍流数据的优势不明显。结论指出,智能子采样是一种高效且可持续的策略,适用于科学基础模型训练,未来可扩展至其他领域如气候和聚变研究,并与在线训练和联邦学习框架集成。研究还开源了SICKLE框架以支持可重复性和进一步应用。
智能采样湍流模拟最大熵采样能效优化高性能计算
基于神经过程的不确定性感知精确高程建模用于越野导航
📝 作者: Sanghun Jung, Daehoon Gwak, Byron Boots, James Hays
📄 中文摘要:
本文提出了一种基于神经过程(Neural Processes, NPs)的创新方法,用于越野导航中的地形高程建模,旨在实时精确估计地形几何变化并量化相应的不确定性。研究背景源于越野导航中对可靠地面估计的需求,特别是在处理负障碍(如沟渠或坑洞)时,传统方法如高斯过程(GPs)和基于神经网络的方法往往因计算需求高、几何变化估计不足或不确定性建模时精度下降而表现不佳。作者受NPs的启发,结合了GPs的贝叶斯不确定性估计与神经网络的高效性和灵活性,提出了一种语义条件化的NPs方法,通过融合LiDAR和相机传感器的语义特征,提升了未观测区域的插值和外推精度。此外,引入了一种局部球查询注意力机制(ball-query attention),将全局注意力的计算复杂度降低了17%,同时保留了关键的局部和空间信息。实验在包含小径、沙漠和山丘等多种越野数据集上进行,结果表明该方法在高程、坡度和曲率精度方面优于基线方法,尤其在估计陡峭几何变化和提供有意义的不确定性估计方面表现出色。作者还通过时间聚合进一步提升了预测一致性,验证了方法在复杂越野环境中的有效性和表达能力。结论指出,该方法不仅缓解了现有方法高程过平滑的问题,还为规划和控制算法提供了可靠的不确定性信息,具有显著的应用潜力。然而,研究也指出了时间聚合和自适应分辨率表示等方面的局限性,为未来工作提供了方向。
地形高程建模越野导航神经过程不确定性估计语义特征
基于点的形状表示生成与对应关系保持的扩散模型
📝 作者: Shen Zhu, Yinzhu Jin, Ifrah Zawar, P. Thomas Fletcher
📄 中文摘要:
本文提出了一种基于扩散模型的生成方法,用于生成具有对应关系的点云形状表示。传统的统计形状模型广泛考虑了点对应关系,但当前的深度学习方法主要关注无序点云,忽略了生成形状之间的点对应关系。本研究旨在构建一个能够生成逼真的基于点的形状表示的扩散模型,并保持训练数据中的点对应关系。研究使用来自开放访问影像研究系列3(OASIS-3)的数据集,提取具有对应关系的形状表示数据,重点分析海马体形状。实验结果表明,与现有方法相比,该对应关系保持模型生成的基于点的海马体形状表示具有更高的真实性。模型通过共享线性权重和对应嵌入模块,结合掩码注意力机制,成功捕捉点之间的空间关系,避免了传统点云生成中的排列不变性问题,从而保持了点对应关系。进一步的下游任务应用展示了该模型在条件生成健康和阿尔茨海默病(AD)受试者形状以及通过反事实生成预测疾病进展形态变化方面的潜力。定量和定性结果表明,该模型在生成质量、对应关系保持以及形态变化捕捉方面均优于基线方法(如Luo等人和Zeng等人的扩散模型以及主成分分析)。此外,研究还探讨了模型在不同解剖结构(如杏仁核)上的泛化能力,并讨论了未来改进方向,包括处理训练数据噪声和开发更鲁棒的模型版本。本研究为生物医学领域的形状分析提供了重要贡献,尤其是在理解疾病进展和脑结构变化方面具有潜在应用价值。
点云形状表示生成模型扩散模型对应关系
亚线性时间内计数不同平方子串
📝 作者: Panagiotis Charalampopoulos, Manal Mohamed, Jakub Radoszewski, Wojciech Rytter, Tomasz Wale\'n,
📄 中文摘要:
本文提出了一种在打包字符串(packed string)环境下,以亚线性时间 O(n/logσn) 解决计数不同平方子串(distinct square substrings)问题的方法,这是该领域首次实现亚线性时间算法。研究背景源于字符串算法中对重复模式(如平方子串)的计数需求,这在理论计算机科学和生物信息学中有重要应用。传统方法在一般字符串上需要线性时间 O(n),而本文针对打包表示的字符串,利用 word-RAM 模型中机器字的优势,将输入压缩为 O(n/logσn) 个机器字。研究方法包括利用 Crochemore 等人提出的从运行(runs)中提取平方子串的技术,并针对打包模型开发了新颖的表示方法,处理长周期运行(long-period runs)和层级运行(layer runs)等复杂情况。通过引入稀疏 Lyndon 根(sparse-Lyndon roots)和字符串同步集(string synchronizers),解决了打包字符串中 Lyndon 根位置计算的难题。关键发现是所有长周期运行的表示可以在 O(n/logσn) 时间内构建,并通过金字塔状结构(pyramidal-shaped groups)高效计数特殊平方子串。结论表明,该算法不仅解决了打包环境下的平方子串计数问题,还可扩展至更高次幂的计数,且能在 O(n/logσn + k) 时间内报告 k 个不同平方子串。本研究为字符串算法在压缩表示下的高效处理提供了重要突破。
平方子串打包模型运行Lyndon 词亚线性时间
管理数据以实现可扩展和交互式事件序列可视化
📝 作者: Sayef Azad Sakin, Katherine E. Isaacs
📄 中文摘要:
本文提出了一种名为ESeMan(事件序列管理器)的数据管理系统,旨在解决大规模事件序列可视化中并行时间线图表的交互性能与视觉准确性之间的双重挑战。研究背景聚焦于事件序列数据在医疗、制造和计算机程序监控等领域的广泛应用,这些领域常因数据量巨大而导致交互操作(如缩放、平移和过滤)时出现显著延迟。ESeMan通过采用分层数据结构和智能缓存机制,仅提供生成准确汇总所需的数据,从而显著减少数据获取时间,同时支持可调的准确性渲染。研究方法包括构建分层空间索引(如一维和二维KD树以及凝聚聚类),并通过像素窗口大小调整来平衡延迟与准确性。关键发现表明,ESeMan在多种程序执行跟踪数据集上的查询时间优于现有方法(如求和面积表、M4优化和统计子采样),实现了低于100毫秒的交互响应时间,同时保持像素级别的视觉准确性。实验结果显示,ESeMan在范围查询和条件范围查询中均表现出色,尤其是一维KD树配置在性能和准确性上表现最佳。此外,ESeMan允许用户通过调整像素窗口大小来权衡速度与视觉准确性,适应不同规模的数据需求。结论指出,ESeMan在可扩展事件序列可视化方面迈出了重要一步,为跨领域的大规模探索性数据分析提供了新的可能性。
事件序列可视化并行时间线图表分层索引交互性能数据管理
高性能统计计算(HPSC):挑战、机遇与未来方向
📝 作者: Sameh Abdulah, Mary Lai O. Salvana, Ying Sun, David E. Keyes, Marc G. Genton
📄 中文摘要:
本文探讨了高性能统计计算(HPSC)的兴起及其在现代数据科学中的重要性,旨在将统计计算(SC)与高性能计算(HPC)相结合,以应对数据规模和复杂性不断增长的挑战。研究背景指出,统计计算社区在开发跨学科软件方面具有广泛影响力,但其在HPC领域(如Top500或Green500榜单中的平台)的参与度较低。作者提出了HPSC的概念,强调通过社区适应和技术创新,将统计方法与现代HPC技术相结合,以加速快速且可扩展的统计应用的发展。主要方法包括对统计算法进行并行化改造、优化数据管理和移动、解决数值稳定性和精度问题,以及设计便携性和可重现性的软件。文章还回顾了HPSC在气候科学、地球科学、基因组学、物理学、经济学和金融等领域的应用,展示了其在处理大规模数据集和复杂模型方面的潜力。关键发现表明,当前统计应用尚未充分利用MPI+X方法,导致性能提升受限,而HPC工具(如GPU加速和分布式框架)可显著提高计算效率。此外,文章指出了未来的研究方向,包括专用硬件(如GPU、TPU)的应用、联邦统计计算与隐私保护推理、标准化与互操作性,以及新型统计方法的开发。结论强调,构建一个繁荣的HPSC社区需要跨学科合作、教育培训、软件标准化和资金支持,以推动统计科学在HPC环境中的进一步发展。
高性能统计计算统计算法并行化高性能计算数据管理数值稳定性
DTPA:用于可控文本生成的动态词级前缀增强
📝 作者: Jiabing Yang, Yixiang Chen, Zichen Wen, Chenhang Cui, Peiyan Li, Yuan Xu, Bowen Fang, Yan Huang, Lia
📄 中文摘要:
可控文本生成(CTG)是自然语言处理(NLP)中的一个重要子领域,旨在生成符合特定属性的文本。然而,现有研究多集中于短序列文本的可控生成,而长文本生成的可控性问题尚未得到充分探索。本文基于强大的前缀方法Air-Decoding,观察到其生成文本的可控性随序列长度增加而下降,推测主要原因在于对前缀的注意力衰减。同时,不同类型的前缀(如软前缀和硬前缀)对性能的影响也至关重要。基于这些洞察,作者提出了一种轻量且有效的框架——动态词级前缀增强(DTPA),用于可控文本生成。具体而言,DTPA首先针对给定任务选择最优前缀类型;然后通过指数增长的缩放因子动态增强对前缀的注意力,以提升属性分布的可控性;此外,根据任务需求,可选择性地对原始提示进行类似增强,以平衡文本质量。在属性分布重构后,生成的文本能够很好地满足属性约束。多项CTG任务的实验表明,DTPA在属性控制方面普遍优于其他方法,同时在流畅性、多样性和主题相关性方面保持竞争力。进一步分析显示,DTPA在长文本生成中表现出卓越的有效性。作者还探讨了不同前缀类型的影响及注意力衰减现象,验证了DTPA通过增强前缀注意力显著缓解了长序列生成中的可控性下降问题。总之,DTPA为长文本生成提供了一种创新解决方案,尽管在去毒性任务和流畅性方面仍有改进空间,但其在可控性上的突破为未来研究奠定了基础。
可控文本生成自然语言处理前缀增强长文本生成注意力机制
Uni-DocDiff:基于扩散模型的统一文档修复模型
📝 作者: Fangmin Zhao, Weichao Zeng, Zhenhang Li, Dongbao Yang, Binbin Li, Xiaojun Bi, Yu Zhou
📄 中文摘要:
本文提出了一种名为Uni-DocDiff的统一文档修复模型,旨在解决文档图像中多种退化问题(如变形、模糊、阴影、不均匀照明、二值化和手写痕迹去除),以提升数字化和下游文档分析的性能。传统方法通常针对单一任务设计专用模型,导致系统复杂且通用性不足,而近期统一模型的研究因手工提示设计和繁琐预处理而扩展性受限,且未能充分利用任务间的协同效应。Uni-DocDiff基于扩散模型构建,创新性地引入了可学习任务提示设计,确保了跨任务的高扩展性。为解决多任务干扰问题,作者设计了一个新颖的先验池(Prior Pool),结合局部高频特征和全局低频特征,并通过先验融合模块(Prior Fusion Module, PFM)自适应选择与任务相关的先验信息。此外,模型采用双流架构,将坐标预测与像素预测解耦,分别处理几何变形和像素修复任务,从而降低学习成本和任务干扰。广泛的实验表明,Uni-DocDiff在多个任务上的性能与任务专用专家模型相当甚至更优,同时展现出无缝适应新任务的扩展能力。研究还通过消融实验验证了先验池、PFM和频率感知损失等组件的有效性。作者指出,未来将探索更多任务类别及其交互关系,进一步丰富模型的应用场景。结论表明,Uni-DocDiff为文档修复领域提供了一种高效、通用且可扩展的解决方案,具有重要的理论和应用价值。
文档修复扩散模型图像处理多任务学习先验融合
SCOUT:一种用于实时监测牛肠道甲烷排放的体内传感系统及其体外验证
📝 作者: Yuelin Deng, Hinayah Rojas de Oliveira, Richard M. Voyles, Upinder Kaur
📄 中文摘要:
本研究开发并验证了SCOUT(Smart Cannula-mounted Optical Unit for Trace-methane),这是首个用于持续、高分辨率监测牛瘤胃甲烷浓度的体内传感系统,旨在解决畜牧业可持续性发展中肠道甲烷排放精确测量的关键瓶颈。研究背景指出,肠道甲烷排放是畜牧业温室气体排放的重要来源,占全球排放的14%,同时造成8-12%的饲料能量损失,影响经济效益。传统环境采样方法存在数据保留率低、环境干扰和时间分辨率有限的问题。SCOUT通过创新的闭环气体循环设计,直接从瘤胃头空间采样,避免了氧气干扰,实现了82%的数据保留率,远高于传统嗅探系统的17%,且甲烷浓度测量值比环境方法高100-1000倍。研究在两头不同饮食处理的西门塔尔小母牛上进行了全面验证,并与现有环境嗅探系统进行跨平台比较,结果显示在生物学相关的40分钟时间窗口内,SCOUT与嗅探系统呈现显著的尺度相关性(r=-0.564±0.007),统计显著性达100%。高频监测揭示了行为-排放耦合的新见解,例如体态转换引发的快速浓度变化(14.5±11.3kppm),这些发现是现有技术无法获取的。结论表明,SCOUT系统在基因选择和可持续精密畜牧管理中具有重要应用潜力,为农业传感器性能设定了新基准,并为气候意识型农业系统提供了关键工具。
甲烷排放体内传感精密畜牧自动化监测牛
基于POD的全局时间迭代解耦算法的降阶建模用于Biot固结模型
📝 作者: Huipeng Gu, Francesco Ballarin, Mingchao Cai, Jingzhi Li
📄 中文摘要:
本文研究了针对三场Biot固结模型的高效数值算法,重点解决多物理场耦合系统在长时间域或高空间分辨率下的计算成本问题。Biot固结模型描述了多孔介质中流体流动与力学变形的相互作用,广泛应用于地质力学、石油工程和生物力学等领域。由于解析解难以获得,数值方法成为主要研究手段。作者提出了一种创新的单块和全局时间迭代解耦算法,结合后向差分公式(BDF)进行时间离散化。在每次迭代中,该算法首先在整个时间域上求解扩散子问题,随后求解广义Stokes子问题。为加速全局时间迭代过程,引入了基于正交分解(POD)的降阶建模(ROM)方法,主要针对计算成本较高的广义Stokes子问题,通过构建降阶基函数显著降低计算负担。理论分析和数值实验均验证了该方法的有效性,表明其在保持解精度的同时大幅减少了计算成本。研究还探讨了不同快照选择策略对精度的影响,提出了一种自适应策略,即在早期迭代中使用较稀疏的快照集,随着迭代进行逐步增加快照数量,以在效率和精度之间取得平衡。数值实验进一步确认了算法的二阶时间精度,并展示了降阶模型在异质多孔弹性介质问题中的应用潜力。作者指出,未来的研究方向包括引入后验误差估计技术以指导快照选择,以及将框架扩展至非线性多孔弹性模型和更复杂的实际系统。
Biot固结模型全局时间迭代解耦算法后向差分公式正交分解降阶建模
卷积自编码器用于三维界面多相流的重构
📝 作者: Murray Cutforth, Shahab Mirjalili
📄 中文摘要:
本研究对卷积自编码器在三维多相流降维建模中的应用进行了全面探讨,重点关注使用标准卷积架构重构多相流体积/质量分数的精度。研究分析了不同界面表示方法(扩散界面、锐利界面、水平集)的优缺点,并结合具有复杂界面拓扑的合成数据和高分辨率多相均匀各向同性湍流模拟数据进行训练和验证。研究揭示了界面表示类型、形状复杂性、训练集大小和压缩比对自编码器性能的影响。结果表明,锐利界面和适度扩散界面在重构精度上存在权衡:锐利界面更适合重构大尺度特征,而适度扩散界面(界面宽度为网格间距的1-4倍)在保留小尺度结构和整体精度之间取得了最佳平衡;水平集表示(签名距离函数)在重构性能上表现较差。此外,研究还发现锐利界面表示在跨数据集的泛化能力上表现更优,且合成数据增强对真实湍流数据集的迁移效果显著。本研究阐明了使用自编码器降低多相流维度的最佳实践,为在低维潜在空间上训练时间动态或输入/输出模型(如神经算子FNOs、DeepONets和神经ODEs)奠定了基础。未来工作将集中在引入守恒约束、探索变分自编码器以及纳入更多多相流相关状态变量以进一步改进模型。本研究的成果不仅对多相流领域具有重要意义,也可能对计算机图形学、计算机视觉和机器人学等领域产生广泛影响。
自编码器多相流降维模型深度学习界面捕捉
尽管存在无序混沌的多项式时间采样
📝 作者: Eric Ma, Tselil Schramm
📄 中文摘要:
本文研究了在采样问题中无序混沌(disorder chaos)是否必然导致多项式时间算法的困难性。作者以硬核模型(hardcore model)在Erdős-Rényi随机图G(n,1/2)上的采样问题为研究对象,探讨了无序混沌与高效采样算法之间的关系。研究背景源于理论计算机科学与统计物理的交叉领域,采样问题被认为是优化问题的扩展,且在某些情况下被认为比优化更难。近期研究提出,传输无序混沌(transport disorder chaos)作为采样困难性的一种指标,可以对平滑算法(smooth algorithms)提供无条件下界。然而,本文通过理论分析和算法设计,证明了无序混沌并不必然阻碍多项式时间采样。作者主要方法包括:首先证明在G(n,1/2)上,硬核模型在逃逸率(fugacity)λ=1时表现出无序混沌,即小规模随机扰动会导致稳态分布在Wasserstein距离上的显著变化;其次,设计并分析了Glauber动力学(Glauber dynamics)算法,证明其在O(n)时间内能够近似采样硬核模型的分布(以Wasserstein距离衡量)。关键发现是,尽管存在无序混沌,经典算法仍可在多项式时间内实现有效采样,这一结果挑战了无序混沌作为采样困难性充分条件的假设。结论表明,无序混沌并非所有采样问题的普遍障碍,特别是在经典模型和算法的背景下。本研究为理解平均情况下的采样复杂性提供了新视角,并对硬核模型在随机图上的高效采样问题具有独立意义。
无序混沌硬核模型多项式时间采样Glauber动力学Erdős-Rényi随机图
IDCNet:基于引导视频扩散的度量一致RGBD场景生成与精确相机控制
📝 作者: Lijuan Liu, Wenfa Li, Dongbo Zhang, Shuo Wang, Shaohui Jiao
📄 中文摘要:
本文提出了一种名为IDC-Net(图像-深度一致性网络)的新框架,旨在在明确的相机轨迹控制下生成RGB-D视频序列。与以往分别处理RGB和深度生成的方法不同,IDC-Net在一个统一的几何感知扩散模型中联合合成RGB图像和对应的深度图。这种联合学习框架增强了帧间的空间和几何对齐能力,使得生成的视频序列在相机控制方面更加精确。为了支持这一相机条件模型的训练并确保高几何保真度,作者构建了一个相机-图像-深度一致的数据集,该数据集包含度量对齐的RGB视频、深度图和精确的相机姿态,为模型提供了显著改善的帧间几何一致性监督。此外,作者引入了一种几何感知的Transformer模块,通过细粒度的相机控制增强了生成序列的控制能力。广泛的实验表明,IDC-Net在生成的场景序列的视觉质量和几何一致性方面均优于现有最先进方法。值得注意的是,生成的RGB-D序列可以直接用于下游的3D场景重建任务,无需额外的后处理步骤,充分展示了联合学习框架的实用价值。研究背景源于高保真、可导航3D场景在游戏、电影制作和机器人仿真等领域的广泛应用需求,传统方法往往需要大量人工干预或视角灵活性有限,而IDC-Net通过数据驱动的生成模型和联合RGB-D学习,克服了现有方法的计算成本高、输出不稳定及空间不一致等问题,为3D场景生成提供了新的范式。
RGB-D视频生成相机轨迹控制几何一致性扩散模型3D场景重建
通过能量扩散发现准团结构
📝 作者: Yu Zhang, Yilong Luo, Mingyuan Ma, Yao Chen, Enqiang Zhu, Jin Xu, Chanjuan Liu
📄 中文摘要:
本文提出了一种基于能量扩散的准团发现算法EDQC(Energy Diffusion-Driven Quasi-Clique Discovery),用于解决图挖掘中的最大准团问题(MQCP)。准团是一种边密度不低于给定阈值的子图,在社交网络、生物信息学和电子商务等领域具有广泛应用。传统启发式方法通常依赖贪婪规则、相似性度量或元启发式搜索,但往往难以在效率和解的一致性之间取得平衡。EDQC受能量扩散的启发,通过从源顶点进行随机能量扩散,自然地在结构上具有高内聚性的区域内聚集能量,从而高效地发现密集子图,而无需穷举搜索或针对特定数据集进行参数调整。算法通过模拟能量扩散过程,利用谱准则提取准团,避免了显式子图枚举,并对随机种子和参数设置表现出较低的敏感性。实验在30个真实世界数据集上进行,结果表明,EDQC在大多数数据集上发现了比现有最先进基线更大的准团,同时解的质量方差更低,运行时间具有竞争力。此外,消融研究进一步验证了EDQC关键设计策略的有效性。作者指出,EDQC是首个将能量扩散引入准团发现的方法,为图挖掘领域提供了一种新颖且稳健的解决方案。未来工作将探索其在加权图和属性图上的扩展,以及在社区检测、欺诈分析和生物信息学等实际任务中的应用。
准团发现能量扩散图挖掘密集子图最大准团问题
低光图像增强的不确定性感知空间颜色相关性研究
📝 作者: Jin Kuang, Dong Liu, Yukuang Zhang, Shengsheng Wang
📄 中文摘要:
本文提出了一种名为U2CLLIE的新型低光图像增强框架,旨在解决极暗条件下特征表示的不确定性问题以及噪声主导和梯度退化对模型可靠性和因果推理的影响。研究背景聚焦于低光图像增强的挑战,包括噪声、颜色失真和细节丢失等问题,这些问题严重影响视觉感知和高级任务(如检测和夜间驾驶)。传统方法和现有深度学习方法在全局照明恢复和局部细节保留方面存在局限性,往往引入伪影和噪声,而本文通过引入不确定性感知增强和空间-颜色因果相关性建模来应对这些挑战。
U2CLLIE框架包含两个核心组件:首先,不确定性感知双域去噪模块(UaD)利用基于高斯引导的自适应频域特征增强(G2AF)技术,抑制频域噪声并优化熵驱动的表示,从而增强空间纹理提取和频域噪声抑制,有效缓解梯度消失和噪声主导问题。其次,层次因果感知框架通过亮度增强网络(LEN)对暗区进行粗略亮度增强,随后在编码器-解码器阶段,采用邻域相关性状态空间(NeCo)和自适应空间-颜色校准(AsC)两个非对称因果相关性建模模块,协作构建层次因果约束,重建并增强特征空间中的邻域结构和颜色一致性。
通过在多个基准数据集上的广泛实验,U2CLLIE在定量指标(如PSNR、SSIM和LPIPS)和感知质量上均取得了最先进的性能,展现了在各种场景下的鲁棒性和强泛化能力。关键发现表明,基于熵的不确定性指导和因果建模能够显著提升低光图像增强的效果,尤其是在极暗区域的细节恢复和颜色一致性方面。结论指出,U2CLLIE通过频域不确定性熵指导和非对称因果建模,为低光图像增强提供了一种高效且创新的解决方案。
低光图像增强不确定性感知空间颜色相关性双域去噪因果建模
PKSS-Align:基于预肯德尔形状空间的鲁棒点云配准
📝 作者: Chenlei Lv, Hui Huang
📄 中文摘要:
点云配准是3D视觉和计算机图形学领域的经典课题。传统的配准方法通常对相似变换(平移、缩放和旋转)、噪声点以及不完整的几何结构较为敏感,特别是点云的非均匀尺度和缺陷部分容易导致配准任务陷入局部最优解。本文提出了一种鲁棒的点云配准方法PKSS-Align,能够有效应对相似变换、非均匀密度、随机噪声点以及缺陷部分等多种影响。该方法在预肯德尔形状空间(PKSS)上测量点云之间的形状特征相似性,采用了一种基于形状测量的方案,无需点对点或点对平面的度量标准。所使用的测量方式可视为一种流形度量,对欧几里得坐标系中的各种表示形式具有鲁棒性。得益于此测量方法,PKSS-Align能够同时为具有上述影响的点云直接生成变换矩阵。该方法无需数据训练和复杂的特征编码,通过简单的并行加速即可显著提升效率和实际应用的可行性。实验结果表明,PKSS-Align在性能上优于相关的最先进方法,展现了其在处理复杂点云配准任务中的强大能力。作者通过对比实验验证了该方法在鲁棒性和准确性方面的优势,尤其是在面对噪声和不完整数据时的表现。总之,PKSS-Align为点云配准提供了一种高效且鲁棒的解决方案,具有重要的理论价值和应用前景。
点云配准预肯德尔形状空间鲁棒性相似变换3D视觉
多边际随机流匹配:针对不规则时间点高维快照数据的研究
📝 作者: Justin Lee, Behnaz Moradijamei, Heman Shakeri
📄 中文摘要:
在定量生物学及相关领域中,从不规则时间点获取的有限快照数据对高维系统的演化建模构成了重大挑战。传统方法通常依赖降维技术,但这种方法可能会过度简化动态过程,难以捕捉非平衡系统中的关键瞬态行为。本研究提出了一种新颖的方法——多边际随机流匹配(MMSFM),这是对无仿真分数和流匹配方法的多边际扩展,旨在对不规则时间点测量的高维数据进行对齐,而无需降低维度。通过使用测度值样条(measure-valued splines),该方法增强了对不规则快照时间的鲁棒性,同时分数匹配技术有效防止了高维空间中的过拟合问题。我们在多个合成数据集和基准数据集上验证了该框架的有效性,包括不均匀时间点采集的基因表达数据和图像进展任务,充分展示了该方法的通用性和适用性。研究结果表明,MMSFM能够在保持数据高维特性的同时,准确建模系统的动态演化,为处理复杂非平衡系统提供了新的工具。结论指出,该方法在处理高维不规则时间数据方面具有显著优势,可能为生物学和其他领域的研究提供重要支持。
多边际随机流匹配高维数据不规则时间点测度值样条分数匹配
云模型特征函数自编码器:将云模型理论与MMD正则化相结合以增强生成建模
📝 作者: Biao Hu, Guoyin Wang
📄 中文摘要:
本文提出了一种新颖的生成模型——云模型特征函数自编码器(CMCFAE),该模型将云模型理论集成到Wasserstein自编码器(WAE)框架中。通过利用云模型的特征函数对潜在空间进行正则化,CMCFAE能够更准确地建模复杂数据分布。与传统方法依赖标准高斯先验和传统散度度量不同,本研究采用云模型先验,为潜在空间提供了更灵活、更真实的表示方式,从而缓解了重建样本中观察到的同质化问题。作者推导了云模型的特征函数,并提出了在WAE框架内相应的正则化方法。在MNIST、FashionMNIST、CIFAR-10和CelebA数据集上的广泛定量和定性评估表明,CMCFAE在重建质量、潜在空间结构和样本多样性方面均优于现有模型。本研究不仅实现了云模型理论与基于MMD的正则化的新颖结合,还为增强基于自编码器的生成模型提供了有前景的新视角。CMCFAE的提出为处理复杂数据分布的生成建模任务开辟了新的可能性,其方法论创新和实验结果验证了云模型在潜在空间建模中的潜力。未来,该方法可进一步扩展到其他生成模型框架中,以解决更广泛的实际问题。
云模型自编码器生成建模MMD正则化潜在空间
文本到图像模型中通过渐进对齐实现零残差概念擦除
📝 作者: Hongxu Chen, Zhen Wang, Taoran Mei, Lin Li, Bowei Zhu, Runshi Li, Long Chen
📄 中文摘要:
本文研究了概念擦除(Concept Erasure)问题,旨在防止预训练的文本到图像模型生成与语义有害概念(即目标概念)相关的内容。概念擦除近年来受到越来越多的关注,现有技术通常将此任务形式化为一个优化问题,通过将目标概念与语义无害的锚点概念对齐,并采用闭合形式解来更新模型参数。尽管这些闭合形式方法效率较高,但本文指出其存在两个被忽视的局限性:一是由于‘非零对齐残差’导致擦除不完全,尤其是在文本提示较为复杂时;二是参数更新集中于少数深层网络层,可能导致生成质量下降。为解决这些问题,本文提出了一种新的闭合形式方法ErasePro,旨在实现更彻底的概念擦除并更好地保持整体生成质量。具体而言,ErasePro首先在优化目标中引入严格的零残差约束,确保目标概念与锚点概念特征之间的完美对齐,从而实现更彻底的擦除。其次,ErasePro采用渐进式、逐层更新的策略,从浅层到深层逐步将目标概念特征转移到锚点概念特征上。随着层深增加,所需的参数变化逐渐减小,从而减少对敏感深层的偏差,保护生成质量。实验结果表明,ErasePro在不同概念擦除任务(包括实例、艺术风格和裸露内容擦除)中均表现出色,验证了其有效性。本研究为文本到图像模型的内容安全性和生成质量提供了重要的技术支持,具有较高的应用价值。
概念擦除文本到图像模型零残差约束渐进对齐生成质量
QuantVSR:面向真实世界视频超分辨率的低比特后训练量化
📝 作者: Bowen Chai, Zheng Chen, Libo Zhu, Wenbo Li, Yong Guo, Yulun Zhang
📄 中文摘要:
扩散模型在真实世界视频超分辨率(VSR)任务中展现出了卓越的性能。然而,扩散模型的处理速度慢且资源消耗大,限制了其实际应用和部署。量化技术为压缩VSR模型提供了一种潜在解决方案,但由于VSR模型具有时间特性和高保真要求,量化过程面临较大挑战。为解决这些问题,本文提出了QuantVSR,一种针对真实世界VSR的低比特量化模型。我们设计了一种时空复杂度感知(STCA)机制,首先利用校准数据集测量每一层的空间和时间复杂度,并根据这些统计数据为低秩全精度(FP)辅助分支分配层特定的秩。随后,我们联合优化全精度和低比特分支,以实现同步优化。此外,我们提出了一种可学习的偏置对齐(LBA)模块,以减少量化误差中的偏置影响。在合成和真实世界数据集上的广泛实验表明,我们的方法在性能上与全精度模型相当,并显著优于近期领先的低比特量化方法。实验结果验证了QuantVSR在压缩VSR模型的同时保持高质量输出的能力,为扩散模型在实际应用中的部署提供了有效的解决方案。代码已公开,可在指定链接获取。
视频超分辨率低比特量化扩散模型时空复杂度偏置对齐
用于精准低延迟在线视频时间定位的分层事件记忆
📝 作者: Minghang Zheng, Yuxin Peng, Benyuan Sun, Yi Yang, Yang Liu
📄 中文摘要:
本文研究了在线视频时间定位(OnVTG)的任务,该任务要求模型在视频流中根据给定的文本查询定位相关事件。与常规视频时间定位不同,OnVTG需要在不观察未来帧的情况下进行预测。由于在线视频是流式输入且可能无限持续,存储所有历史输入既不实际也不高效。现有的OnVTG模型使用记忆存储最近的历史视频帧特征,并预测当前帧是否对应目标事件的开始或结束时间。然而,这些方法缺乏有效的事件建模,且无法保留长期历史信息,导致性能较低。为解决这些挑战,本文提出了一种用于OnVTG的分层事件记忆方法。我们设计了一个基于事件的OnVTG框架,通过对不同持续时间的事件级信息进行建模,基于事件提案进行预测。为了保留历史上有价值的事件信息,我们引入了分层事件记忆机制,使模型能够访问近期和长期信息。此外,为了实现实时预测,我们提出了一个未来预测分支,用于预测目标事件是否即将发生,并进一步回归事件的开始时间。实验结果表明,我们的方法在TACoS、ActivityNet Captions和MAD数据集上取得了最先进的性能,验证了所提方法的有效性和优越性。本文的代码已公开,供进一步研究和应用。
在线视频时间定位分层事件记忆事件建模实时预测计算机视觉
双向服装转移:统一的扩散框架用于穿衣与脱衣合成
📝 作者: Angang Zhang, Fang Deng, Hao Chen, Zhongjian Chen, Junyan Li
📄 中文摘要:
近年来,虚拟试穿(VTON)技术在将服装真实地转移到人体对象上取得了显著进展。然而,其逆向任务——虚拟脱衣(VTOFF),即从穿衣的人体重建规范的服装模板,仍未得到充分探索和系统研究。现有的工作大多将两者视为独立任务:VTON专注于服装穿戴,而VTOFF则处理服装提取,忽视了两者之间的互补对称性。为了填补这一基本空白,本文提出了双向服装转移模型(TWGTM),据我们所知,这是首个统一的框架,通过双向特征解耦,联合解决基于掩码引导的VTON和无掩码的VTOFF任务。具体而言,我们的框架利用参考图像的潜在空间和像素空间的双重条件指导,无缝连接这两个双重任务。另一方面,为了解决基于掩码引导的VTON与无掩码VTOFF之间固有的掩码依赖不对称性,我们设计了一种分阶段训练范式,逐步弥合这种模态差距。在DressCode和VITON-HD数据集上进行的大量定性和定量实验验证了我们提出的方法的有效性和竞争优势。研究结果表明,TWGTM不仅在服装穿戴和提取任务上均表现出色,还通过统一的框架揭示了两任务之间的内在联系,为未来的服装合成研究提供了新的视角和方法论支持。结论指出,该框架在虚拟试穿和脱衣领域具有重要的应用潜力,并为相关技术的发展奠定了基础。
虚拟试穿虚拟脱衣双向服装转移特征解耦扩散模型
一模型通用的部分扩散方法:支持任意姿势的统一试穿与脱衣
📝 作者: Jinxi Liu, Zijian He, Guangrun Wang, Guanbin Li, Liang Lin
📄 中文摘要:
近年来,基于扩散模型的图像虚拟试穿方法取得了显著进展,实现了更加逼真和端到端的服装合成。然而,现有方法大多依赖于展示服装和分割掩码,并且在处理灵活的姿势变化方面能力有限。这些限制降低了其在现实场景中的实用性,例如用户无法轻松地将一个人的服装转移到另一个人身上,且生成的试穿结果通常局限于参考图像的相同姿势。本文提出了一种名为OMFA(One Model For All)的统一扩散框架,用于虚拟试穿和脱衣任务,无需展示服装并支持任意姿势。OMFA能够从源人物图像中移除服装(脱衣)并将其转移到目标人物上(试穿),同时允许生成的目标人物呈现新颖的姿势,即使没有该人物的多姿势图像。OMFA基于一种新颖的部分扩散策略,通过对联合输入的各个组成部分(如服装、人物图像或面部)选择性地应用噪声和去噪,实现动态子任务控制和高效的双向服装-人物转换。该框架完全无需掩码,仅需单个肖像和目标姿势作为输入,非常适合现实应用。此外,通过利用基于SMPL-X的姿势条件,OMFA支持从单张图像实现多视角和任意姿势的试穿。大量实验表明,OMFA在试穿和脱衣任务上均取得了最先进的结果,为虚拟服装合成提供了实用且可推广的解决方案。
虚拟试穿扩散模型部分扩散任意姿势服装合成
TAlignDiff:基于扩散变换学习的自动牙齿对齐方法
📝 作者: Yunbi Liu, Enqi Tang, Shiyu Li, Lei Ma, Juncheng Li, Shu Lou, Yongchu Pan, Qingshan Liu
📄 中文摘要:
牙齿对齐是正畸治疗的核心,直接影响患者的咬合功能、面部美观及生活质量。当前深度学习方法主要通过点对点的几何约束预测变换矩阵来实现牙齿对齐。然而,这些变换矩阵与人类口腔的解剖结构密切相关,具有特定的分布特性,而现有方法中的确定性几何约束无法充分捕捉这些特性。为解决这一问题,本文提出了一种新的自动牙齿对齐方法TAlignDiff,该方法基于扩散变换学习构建。TAlignDiff包含两个主要组成部分:一个基于点云的回归网络(PRN)和一个基于扩散的变换矩阵去噪模块(DTMD)。PRN通过几何约束损失函数监督学习,实现点云层面的对齐;DTMD作为辅助模块,从临床数据中学习变换矩阵的潜在分布。本文将点云变换回归与扩散变换建模集成到一个统一框架中,实现了几何约束与扩散精炼之间的双向反馈。大量的消融实验和对比实验验证了该方法的有效性和优越性,表明其在正畸治疗中具有显著的潜力。通过结合几何约束和数据驱动的分布学习,TAlignDiff不仅提高了牙齿对齐的精度,还为正畸领域的智能化发展提供了新的思路。研究结果显示,该方法在捕捉变换矩阵的复杂分布特性方面表现出色,为未来的临床应用奠定了基础。
牙齿对齐深度学习扩散模型正畸治疗变换矩阵
DDTracking:一种用于扩散MRI纤维束追踪的深度生成框架,结合流线局部-全局时空建模
📝 作者: Yijie Li, Wei Zhang, Xi Zhu, Ye Wu, Yogesh Rathi, Lauren J. O'Donnell, Fan Zhang
📄 中文摘要:
本文提出了一种名为DDTracking的新型深度生成框架,用于扩散MRI纤维束追踪,将流线传播建模为条件去噪扩散过程。DDTracking引入了一种双路径编码网络,该网络联合建模局部空间编码(捕捉每个流线点的精细结构细节)和全局时间依赖性(确保整个流线的长距离一致性)。此外,作者设计了一个条件扩散模型模块,利用学习到的局部和全局嵌入,以端到端可训练的方式预测流线传播方向,用于纤维束追踪。本研究在多个独立获取的多样化dMRI数据集上进行了全面评估,包括合成数据和临床数据。在两个具有真实标注的知名基准测试(ISMRM挑战赛和TractoInferno)上的实验表明,DDTracking在性能上显著优于当前最先进的纤维束追踪方法。实验结果还突显了DDTracking在异构数据集上的强大泛化能力,涵盖了不同的健康状况、年龄组、成像协议和扫描仪类型。总体而言,DDTracking提供了符合解剖学规律且鲁棒的纤维束追踪方案,是一种可扩展、适应性强且端到端可学习的解决方案,适用于广泛的dMRI应用。相关代码已公开于GitHub。
扩散MRI纤维束追踪深度生成模型条件扩散时空建模
平方打包问题的最优解:浪费面积为O(x^{0.6})
📝 作者: Hong Duc Bui
📄 中文摘要:
本研究针对平方打包问题提出了一种新的构造方法,并证明其效率高于以往的研究成果。平方打包问题是一个经典的几何优化问题,旨在将多个正方形尽可能紧密地排列在一个有限区域内,以最小化浪费的面积。研究背景源于对资源利用效率的追求,广泛应用于物流、制造和计算机图形学等领域。作者通过创新的算法设计,构建了一种新的打包策略,成功将浪费面积控制在O(x^{0.6})的范围内,显著优于之前的理论界限。在方法上,研究结合了几何分析和计算复杂性理论,提出了一个基于分层优化的框架,通过逐步调整正方形的位置和大小来逼近最优解。关键发现表明,该方法在理论上保证了较低的浪费面积,并且在多种测试场景下表现出良好的实用性。此外,作者还探讨了该方法在高维空间中的潜在扩展性,为未来的研究奠定了基础。结论指出,这一成果不仅在理论上推进了平方打包问题的研究,还为实际应用提供了高效的解决方案,具有重要的学术价值和应用前景。
平方打包几何优化浪费面积算法设计计算复杂性
多任务学习与随机插值方法
📝 作者: Hugo Negrel, Florentin Coeurdoux, Michael S. Albergo, Eric Vanden-Eijnden
📄 中文摘要:
本文提出了一种学习概率分布之间映射的框架,广泛推广了流模型和扩散模型的时间动态。为了实现这一目标,作者将随机插值方法进行了扩展,将标量时间变量替换为向量、矩阵或线性算子,从而能够在多维空间中连接概率分布。这种方法使得构建多功能生成模型成为可能,这些模型无需针对特定任务进行训练即可完成多项任务。基于算子的插值方法不仅为现有的生成模型提供了统一的理论视角,还扩展了它们的能力。通过数值实验,作者展示了该方法在条件生成、图像修复、微调与后验采样以及多尺度建模等任务上的零样本效果。实验结果表明,该方法在无需任务特定训练的情况下表现出色,表明其作为通用任务无关模型的潜力,可以替代专门设计的模型。作者进一步讨论了该框架在理论上的统一性,以及其在实际应用中可能带来的广泛影响,尤其是在需要同时处理多种生成任务的场景中。该研究为生成模型的设计和应用提供了一种新的思路,可能对未来的多任务学习和生成式人工智能领域产生深远影响。
多任务学习随机插值生成模型概率分布零样本学习
层次剪枝:面向大规模扩散模型的位置感知压缩
📝 作者: Young D. Kwon, Rui Li, Sijia Li, Da Li, Sourav Bhattacharya, Stylianos I. Venieris
📄 中文摘要:
本文提出了一种名为HierarchicalPrune的新型压缩框架,针对当前最先进的文本到图像扩散模型(DMs)参数规模庞大(8-11B)导致在资源受限设备上推理困难的问题。研究基于一个关键观察:扩散模型的各个模块呈现出明显的功能层次性,早期模块负责构建语义结构,而后期模块则处理纹理细节。HierarchicalPrune结合了三种技术:(1)层次位置剪枝,通过识别并移除后期较不重要的模块来实现压缩;(2)位置权重保护,系统性地保护对语义结构完整性至关重要的早期模型部分;(3)敏感性引导的知识蒸馏,根据模块敏感性差异调整知识转移强度。实验结果表明,该框架显著降低了大规模扩散模型的资源需求,使其更适合设备端推理,同时保持了输出图像的质量。具体而言,结合INT4权重量化后,HierarchicalPrune实现了77.5-80.4%的内存占用减少(例如从15.8 GB降至3.2 GB)和27.9-38.0%的延迟降低(在服务器和消费级GPU上测试),相比原始模型,GenEval评分仅下降2.6%,HPSv2评分下降7%。此外,通过对85名参与者的用户研究表明,HierarchicalPrune在感知质量上与原始模型相当,且显著优于先前工作。本研究为大规模扩散模型的实际部署提供了有效的解决方案,具有重要的应用价值。
扩散模型模型压缩层次剪枝文本到图像设备端推理
可控表面扩散生成模型用于神经发育轨迹研究
📝 作者: Zhenshan Xie, Levente Baljer, M. Jorge Cardoso, Emma Robinson
📄 中文摘要:
早产会干扰皮质神经发育的典型轨迹,增加认知和行为障碍的风险。然而,早产儿的发育结果差异很大,这为早期预测带来了显著挑战。个体化模拟为解决这一问题提供了有前景的方案,通过建模特定个体的神经发育轨迹,可以识别与正常模式细微偏离的潜在风险生物标志物。尽管生成模型在模拟神经发育方面显示出潜力,但以往方法往往难以保留个体特定的皮质折叠模式或重现特定区域的形态变化。本研究提出了一种新颖的图扩散网络,支持可控的皮质成熟模拟。研究利用发展中人类连接组项目(dHCP)的皮质表面数据,展示了该模型在保持个体特定皮质形态的同时,能够有效模拟皮质成熟,其表现足以欺骗一个独立训练的年龄回归网络,预测准确率达到0.85±0.62。研究背景聚焦于早产对神经发育的影响,方法上创新性地结合了图扩散网络与生成模型,关键发现表明该模型不仅能保留个体特征,还能精确模拟发育过程,为早期风险预测提供了新工具。结论指出,该模型在神经发育研究和临床应用中具有重要潜力,可能为个性化医疗和干预策略的发展奠定基础。
神经发育早产图扩散网络生成模型皮质成熟
TaxSolver:设计最优所得税改革的方法论
📝 作者: Mark Verhagen, Menno Schellekens, Michael Garstka
📄 中文摘要:
在发达国家,日益复杂的所得税法亟需简化和改进,然而实施改革的难度较大。即使改革的目标明确,设计合适改革方案的工具仍然不足。为解决这一问题,本研究开发了 exttt{TaxSolver},一种帮助政策制定者实现最优所得税改革的方法论。 exttt{TaxSolver} 允许政策制定者专注于他们希望通过改革实现的目标,例如财富再分配、激励劳动力市场参与或降低税收复杂性,同时设定改革的财政保障条件,如限制纳税人收入波动、保护家庭免于陷入贫困或避免总体税收收入的剧烈波动。在给定目标和财政保障的前提下, exttt{TaxSolver} 能够找到满足所有标准的最优税则组合,或者证明某些需求在数学上不可行。本研究通过对多种模拟税法案例进行改革展示了 exttt{TaxSolver} 的应用,其中包括反映现实世界税制复杂性和规模的案例。研究结果表明, exttt{TaxSolver} 为政策制定者提供了一种系统化的工具,可以在复杂的税收环境中设计出符合多重目标和约束条件的改革方案。这一方法不仅提高了税收改革的科学性和可操作性,也为解决长期存在的税收政策设计难题提供了新的思路。未来,该方法论可进一步应用于实际税制改革中,以验证其在真实环境下的有效性和适应性。
所得税改革税收政策最优化方法财政保障财富再分配
马尔可夫链多面体及其应用
📝 作者: Mordecai J. Golin, Albert John Lalim Patupat
📄 中文摘要:
本文研究了在一个大型马尔可夫链集合中寻找最小成本的m状态马尔可夫链(S_0, ..., S_{m-1})的问题。所研究的马尔可夫链中,每个状态都关联着一个奖励值,而链的成本定义为其“收益”,即在稳态分布下的平均奖励值。作者首先介绍了马尔可夫链的基本理论框架,并提出了一个基于多面体几何的创新方法来描述和求解这一优化问题。通过将马尔可夫链的稳态分布和奖励结构映射到多面体空间,作者构建了一个数学模型,用于高效计算最小成本链。此外,本文还探讨了该模型在实际应用中的潜力,例如在金融风险分析、资源分配优化以及网络流量控制等领域。通过数值实验,作者验证了所提出方法的有效性和计算效率,发现该方法在处理大规模马尔可夫链问题时具有显著优势。研究结果表明,利用多面体几何的视角不仅能够简化复杂的优化问题,还能为相关领域提供新的理论工具和实践指导。作者最后总结指出,该方法为马尔可夫链的优化问题提供了一种全新的视角,并为未来的研究奠定了基础,尤其是在需要处理高维状态空间和复杂奖励机制的场景中具有广阔的应用前景。
马尔可夫链多面体几何优化问题稳态分布平均奖励
时空畸变感知的全向视频超分辨率研究
📝 作者: Hongyu An, Xinfeng Zhang, Shijie Zhao, Li Zhang, Ruiqin Xiong
📄 中文摘要:
全向视频(ODV)通过捕捉360度场景提供沉浸式视觉体验。随着虚拟/增强现实、元宇宙以及生成式人工智能的快速发展,对高质量ODV的需求激增。然而,由于其宽广的视野以及捕获设备和传输带宽的限制,ODV常面临低分辨率问题。视频超分辨率(SR)技术虽然是一种有效的视频质量增强方法,但现有方法在应用于ODV时,因其独特的时空特性而受到性能上限和实际泛化能力的限制。为解决ODV的空间投影畸变和时间闪烁问题,本研究提出了一种时空畸变感知网络(STDAN),结合时空对齐与重建技术。具体而言,我们引入了时空连续对齐(STCA)模块,以减轻离散几何伪影,同时与时间对齐并行操作。随后,提出了交错多帧重建(IMFR)方法以增强时间一致性。此外,我们采用了纬度显著性自适应(LSA)权重,重点关注纹理复杂度和人类观看兴趣较高的区域。通过探索时空联合框架和现实世界的观看策略,STDAN在一个新的ODV-SR数据集上有效增强了时空一致性,并保证了合理的计算成本。大量实验结果表明,STDAN在提升ODV的视觉保真度和动态平滑性方面优于现有最先进方法,为全向视频质量增强提供了新的解决方案。本研究不仅在技术上具有创新性,还为虚拟现实和元宇宙应用提供了重要的技术支持。
全向视频超分辨率时空畸变计算机视觉虚拟现实
DiffGAN:一种用于深度神经网络图像分析差异测试的测试生成方法
📝 作者: Zohreh Aghababaeyan, Manel Abdellatif, Lionel Briand, Ramesh S
📄 中文摘要:
深度神经网络(DNNs)在各类应用中得到了广泛部署,但确保其可靠性仍是一个挑战。在许多情况下,存在功能和准确率相似的替代模型。然而,传统的基于准确率的评估方法往往无法捕捉模型之间的行为差异,尤其是在测试数据集有限的情况下,这使得有效选择或组合模型变得困难。差异测试通过生成能够暴露DNN模型行为差异的测试输入来解决这一问题,但现有方法存在显著局限性:许多方法依赖于模型内部结构或受限于可用的种子输入。为了应对这些挑战,本文提出了DiffGAN,一种用于DNN模型差异测试的黑盒测试图像生成方法。DiffGAN利用生成对抗网络(GAN)和非支配排序遗传算法II(NSGA-II)生成多样且有效的触发输入,以揭示模型之间的行为差异。DiffGAN采用两个定制的适应度函数,分别关注多样性和发散性,指导GAN输入空间的探索,并识别模型输出之间的差异。通过策略性地搜索输入空间,DiffGAN生成具有特定特征的输入,触发模型行为差异。作为一种黑盒方法,DiffGAN适用性更广。作者在八对训练于广泛使用的图像数据集上的DNN模型上评估了DiffGAN。结果表明,DiffGAN显著优于最先进的基线方法,在相同预算内生成的触发输入数量是基线的四倍,且多样性和有效性更高。此外,生成的输入提升了基于机器学习的模型选择机制的准确性,该机制根据输入特征选择最佳模型,并可作为使用替代模型时的智能输出投票机制。
深度神经网络差异测试生成对抗网络图像分析模型选择
高阶可微渲染的随机梯度估计
📝 作者: Zican Wang, Michael Fischer, Tobias Ritschel
📄 中文摘要:
本文提出了一种计算渲染算子高阶微分(Hessian矩阵和Hessian-向量积)的方法。研究方法基于对表示渲染参数微分的卷积进行重要性采样,并证明该方法适用于光栅化和路径追踪两种渲染技术。作者进一步提出了一种聚合采样策略,用于同时对一个卷积核的多个维度进行重要性采样,从而提高计算效率。研究表明,利用这些高阶微分信息可以在多种逆向渲染任务中显著改善优化器的收敛性。相比于基于梯度下降的基准方法,采用高阶优化器(如牛顿法或共轭梯度法)能够更有效地利用Hessian信息,从而在优化过程中展现出更快的收敛速度和更高的精度。实验结果验证了该方法在逆向渲染任务中的应用价值,特别是在需要精确估计渲染参数的场景中。通过对渲染算子高阶微分的准确计算,本文为计算机图形学中的逆向渲染问题提供了一种新的解决方案,可能对未来的渲染优化技术产生深远影响。作者还讨论了方法的局限性,例如计算复杂度和采样策略对结果的影响,并指出了未来研究的方向,包括如何进一步降低计算成本和提高采样效率。
高阶微分随机梯度估计逆向渲染重要性采样渲染优化
Pinco:用于前景条件修复的扩散变换器中位置诱导的一致性适配器
📝 作者: Guangben Lu, Yuzhen Du, Zhimin Sun, Ran Yi, Yifan Qi, Yizhe Tang, Tianyi Wang, Lizhuang Ma, Fangyuan
📄 中文摘要:
前景条件修复旨在利用提供的前景主体和文本描述,无缝填充图像的背景区域。尽管现有的基于T2I的图像修复方法可应用于此任务,但它们存在主体形状扩展、变形或与文本描述对齐能力受损的问题,导致视觉元素与文本描述之间不一致。为解决这些挑战,本文提出了一种即插即用的前景条件修复适配器Pinco,该适配器在生成高质量背景的同时保持良好的文本对齐,并有效保留前景主体的形状。首先,设计了一种自一致性适配器,将前景主体特征集成到与布局相关的自注意力层中,通过确保模型在处理整体图像布局时有效考虑前景主体的特性,缓解文本与主体特征之间的冲突。其次,提出了一种解耦图像特征提取方法,采用不同的架构分别提取语义和空间特征,显著提高主体特征提取质量,确保主体形状的高质量保留。第三,为了精确利用提取的特征并将注意力集中在主体区域,引入了共享位置嵌入锚点,大幅提升模型对主体特征的理解并提高训练效率。大量实验表明,该方法在前景条件修复中实现了卓越的性能和效率,生成的背景图像不仅与文本描述高度一致,而且能够准确保留前景主体的形状和细节,为图像修复领域提供了重要的技术支持。
前景条件修复扩散变换器自一致性适配器图像特征提取位置嵌入
CreatiLayout:用于创意布局到图像生成的孪生多模态扩散变换器
📝 作者: Hui Zhang, Dexiang Hong, Yitong Wang, Jie Shao, Xinglong Wu, Zuxuan Wu, Yu-Gang Jiang
📄 中文摘要:
扩散模型因其生成视觉上吸引人且具有高艺术质量图像的能力而受到广泛认可。基于此,布局到图像(Layout-to-Image, L2I)生成方法被提出,通过利用区域特定的位置和描述来实现更精确和可控的图像生成。然而,现有方法主要集中于基于UNet的模型(如SD1.5和SDXL),而对多模态扩散变换器(MM-DiT)的探索较少,尽管后者在图像生成领域展现了强大的能力。将MM-DiT应用于布局到图像生成看似简单,但由于布局引入、整合以及多模态平衡的复杂性,实际操作中面临诸多挑战。为此,本研究探索了多种网络变体,以高效地将布局引导融入MM-DiT,最终提出了SiamLayout方法。为了继承MM-DiT的优势,本研究使用一组独立的网络权重来处理布局,将其视为与图像和文本模态同等重要。同时,为了缓解多模态之间的竞争,本研究将图像-布局交互解耦为一个孪生分支,与图像-文本分支并行,并在后期进行融合。此外,本研究贡献了一个大规模布局数据集LayoutSAM,包含270万图像-文本对和1070万实体,每个实体均标注了边界框和详细描述。进一步构建了LayoutSAM-Eval基准,作为评估L2I生成质量的综合工具。最后,引入了布局设计师(Layout Designer),利用大型语言模型在布局规划中的潜力,将其转化为布局生成和优化的专家。这些组件共同构成了CreatiLayout——一个集布局模型、数据集和规划器于一体的系统化解决方案,用于创意布局到图像生成。研究结果表明,CreatiLayout在生成质量和控制精度上均取得了显著提升,为未来的图像生成研究提供了重要参考。
布局到图像生成多模态扩散变换器孪生网络图像生成创意设计
生成模型如何描绘软件工程师?基于稳定扩散模型偏见的案例研究
📝 作者: Tosin Fadahunsi, Giordano d'Aloisio, Antinisca Di Marco, Federica Sarro
📄 中文摘要:
生成模型如今被广泛用于生成图形内容,应用于网页、艺术和广告等多个领域。然而,研究表明,这些模型生成的图像可能会强化特定情境中已存在的社会偏见。本文聚焦于探讨生成模型在生成与软件工程任务相关的图像时是否会表现出类似偏见。软件工程(SE)社区本身就存在性别和种族差异,而这些差异可能因生成模型的使用而被进一步放大。如果在不加注意的情况下使用这些模型,人工生成的图像可能会在软件工程领域内加剧这些偏见。本研究对三种版本的稳定扩散(Stable Diffusion, SD)模型(一种广受欢迎的开源文本到图像模型)——SD 2、SD XL 和 SD 3——在软件工程任务中的性别和种族偏见进行了广泛的实证评估。我们通过向每个模型输入两组描述不同软件相关任务的提示词,生成了6720张图像:一组提示词包含“软件工程师”关键词,另一组未指定执行任务的人员。随后,我们评估了生成图像中的性别和种族差异。结果显示,所有模型在描绘软件工程师时明显偏向于男性形象。在种族方面,SD 2 和 SD XL 强烈偏向于白人形象,而 SD 3 则略微偏向于亚洲人形象。然而,无论使用何种提示词风格,所有模型都显著低估了黑人和阿拉伯人的形象比例。本研究的分析结果凸显了在软件工程任务中使用这些模型生成内容所带来的严重问题,同时也为未来在该情境下进行偏见缓解研究开辟了新的方向。
生成模型稳定扩散软件工程性别偏见种族偏见
理解生成模型中的平坦性:其作用与益处
📝 作者: Taehwan Lee, Kyeongkook Seo, Jaejun Yoo, Sung Whan Yoon
📄 中文摘要:
本研究系统性地探讨了生成模型中损失曲面平坦性的作用,特别聚焦于扩散模型,从理论和实证两个方面进行了深入分析。在监督学习中,平坦极小值已被证明能够提升泛化能力和鲁棒性,但其在生成模型中的作用尚未被充分研究。本文提出了一项理论主张,即更平坦的极小值能够提高模型对目标先验分布扰动的鲁棒性,从而带来诸多益处,例如减少暴露偏差(即噪声估计误差在迭代中的累积)以及显著提升模型量化的鲁棒性,即使在强量化约束下也能保持生成性能。此外,研究发现,显式控制平坦度的锐度感知最小化(SAM)方法在扩散模型中有效增强了平坦性,相较之下,间接促进平坦性的方法,如输入扰动(IP,强制满足Lipschitz条件)、基于集成的随机权重平均(SWA)和指数移动平均(EMA)等,效果较差。通过在CIFAR-10、LSUN Tower和FFHQ数据集上的广泛实验,研究证实了扩散模型中的平坦极小值不仅提升了生成性能,还显著增强了模型的鲁棒性。这些发现为生成模型的优化提供了新的视角,表明通过控制损失曲面的平坦性可以有效提升模型的性能和稳定性,为未来的研究和应用奠定了基础。
生成模型平坦极小值扩散模型鲁棒性锐度感知最小化
经验超元素积分方法(EHEIM)及其统一积分准则在高效超降维FE2仿真中的应用
📝 作者: Nils Lange, Geralf H\"utter, Bjoern Kiefer
📄 中文摘要:
本文提出了一种经验超元素积分方法(EHEIM),旨在通过统一的积分准则提高有限元方法(FEM)在机械多尺度建模中的数值均匀化效率。FE2方法作为一种获取结构-性能关系的优雅手段,在低尺度成分行为已知的情况下表现出色,但其计算成本极高,因此降维方法显得尤为重要。针对微观节点位移的降维,适当正交分解(POD)已成为标准技术,而对投影节点力的计算成本的降低,即所谓的超降维,仍是一个挑战。文献中提出了多种超降维策略,其中经验立方体方法(ECM)因其鲁棒性而被广泛认可,该方法将总体积守恒作为优化问题的约束条件,同时其他研究也提出了基于能量的准则。本文通过整合这些方法,提出了EHEIM,统一了积分准则,以减少计算复杂度并保持仿真精度。研究表明,EHEIM在多种测试案例中显著降低了计算成本,同时保持了与全阶模型相当的精度,尤其在复杂的多尺度力学问题中表现出色。关键发现包括:EHEIM能够在保证数值稳定性的同时大幅减少自由度,尤其适用于非线性材料行为的仿真。此外,该方法在并行计算环境下的扩展性也得到了验证。结论指出,EHEIM为FE2仿真提供了一种高效且通用的超降维工具,具有广泛的应用前景,尤其是在工程设计和材料科学领域。
超降维有限元方法多尺度建模经验积分计算力学
基于像素的平面推送扩散策略仿真与现实协同训练的实证分析
📝 作者: Adam Wei, Abhinav Agarwal, Boyuan Chen, Rohan Bosworth, Nicholas Pfaff, Russ Tedrake
📄 中文摘要:
本文研究了在机器人仿真学习中,利用仿真环境和真实硬件生成的示范数据进行协同训练(sim-and-real cotraining)的基本原理,旨在为仿真设计、数据集构建和策略训练提供指导。研究背景聚焦于机器人模仿学习中的数据扩展问题,特别是在真实数据有限的情况下,如何通过仿真数据提升性能。作者通过实验验证了仿真数据在协同训练中的显著作用,尤其是在真实数据不足时,性能提升尤为明显。研究发现,增加仿真数据量可以在一定程度上提升性能,直至达到一个平台期;而增加真实世界数据则能进一步提高性能上限。此外,实验结果表明,对于非抓取或接触密集型任务,减少物理域差距可能比视觉保真度更重要。令人意外的是,研究还发现一定的视觉差距对协同训练有益,通过二元探测分析,高性能策略需要学会区分仿真域和真实域。作者进一步探讨了这一细微差别以及促进仿真与现实正向迁移的机制。本研究聚焦于经典的基于像素的平面推送任务,以便进行深入分析。实验涵盖了50多个真实世界策略(基于1000多次试验评估)和250个仿真策略(基于50000多次试验评估)。研究结论为机器人学习中的仿真与现实协同训练提供了重要见解,强调了数据设计和域适应策略的重要性。相关视频和代码可在项目网站上获取。
仿真与现实协同训练机器人模仿学习平面推送扩散策略域适应
超越广角图像:通过无监督时空适应进行结构到细节的视频肖像校正
📝 作者: Wenbo Nie, Lang Nie, Chunyu Lin, Jingwen Chen, Ke Xing, Jiyuan Wang, Kang Liao
📄 中文摘要:
广角相机因其在内容创作中的广泛应用而备受欢迎,但其镜头边缘的畸变会导致面部拉伸,降低了视觉吸引力。为解决这一问题,本文提出了一种名为ImagePC的结构到细节肖像校正模型。该模型将Transformer的长距离感知能力和扩散模型的多步去噪技术集成到一个统一框架中,实现了全局结构鲁棒性和局部细节精炼。此外,考虑到获取视频标签的高成本,作者将ImagePC模型扩展到无标签广角视频校正(称为VideoPC),通过时空扩散适应,结合空间一致性和时间平滑约束来实现。对于空间一致性,作者鼓励去噪后的图像接近遵循广角畸变分布模式的伪标签;对于时间平滑性,作者利用反向光流推导出校正轨迹并进行平滑处理。与ImagePC相比,VideoPC在空间上保持高质量的面部校正,同时在无监督场景下有效缓解了潜在的时间抖动。为了建立评估基准并训练框架,作者构建了一个视频肖像数据集,该数据集在人数、照明条件和背景方面具有较大的多样性。实验结果表明,所提出的方法在定量和定性上均优于现有解决方案,为高保真广角视频提供了稳定且自然的肖像效果。相关代码和数据集将公开发布。本研究为广角视频校正领域提供了重要的技术贡献,具有潜在的广泛应用前景。
广角相机肖像校正时空适应扩散模型计算机视觉
广义HyperLTL的复杂性研究:带有结巴和上下文的完整版本
📝 作者: Ga\"etan Regaud, Martin Zimmermann
📄 中文摘要:
本文研究了带有结巴和上下文的广义HyperLTL的可满足性与模型检查的复杂性问题。HyperLTL是一种用于指定同步超属性的逻辑语言,但其表达能力受限于同步场景,无法直接处理异步超属性。广义HyperLTL通过引入结巴(stuttering)和上下文(contexts)机制,扩展了HyperLTL的表达能力,使其能够描述异步超属性,这在许多实际应用(如分布式系统和并发程序验证)中具有重要意义。研究首先分析了广义HyperLTL的语法和语义,提出了形式化的定义,并探讨了其在异步系统建模中的应用场景。接着,作者详细研究了该逻辑的可满足性问题(即是否存在一个模型满足给定的公式)和模型检查问题(即给定一个模型和公式,检查是否满足)。通过理论分析和算法设计,作者确定了这些问题的计算复杂性,揭示了引入结巴和上下文后复杂性的显著提升,并与标准HyperLTL的复杂性进行了对比。研究结果表明,广义HyperLTL在表达能力增强的同时,带来了更高的计算代价,但其在异步超属性验证中的潜力不容忽视。最后,作者讨论了可能的优化方法和未来研究方向,包括开发高效的求解工具和探索更实际的应用场景。这项工作为形式化验证领域提供了重要的理论基础,尤其是在处理复杂异步系统时具有潜在的应用价值。
广义HyperLTL异步超属性可满足性模型检查计算复杂性
MARRS:基于掩码自回归单元的反应合成
📝 作者: Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong Liu
📄 中文摘要:
本研究致力于解决一个具有挑战性的任务:人类动作-反应合成,即基于另一个人的动作序列生成相应的反应动作。目前,基于向量量化(VQ)的自回归建模方法在运动生成任务中取得了显著的性能。然而,VQ存在固有的缺陷,包括量化信息丢失和码本利用率低等问题。此外,尽管将人体划分为独立单元可能带来益处,但计算复杂性需被充分考虑,同时单元之间的相互感知重要性往往被忽视。本文提出了一种新颖的框架MARRS,旨在使用连续表示生成协调且细粒度的反应动作。首先,我们提出了单元区分运动变分自编码器(UD-VAE),将整个身体分割为不同的身体和手部单元,并对每个单元进行独立编码。其次,我们提出了动作条件融合(ACF)方法,通过随机掩码一部分反应令牌,从主动令牌中提取身体和手部的特定信息。此外,我们引入了自适应单元调制(AUM),通过一个单元的信息自适应地调制另一个单元,促进身体和手部单元之间的交互。最后,在扩散模型中,我们为每个不同的身体单元采用紧凑的多层感知机(MLP)作为噪声预测器,并结合扩散损失来建模每个令牌的概率分布。定量和定性结果均表明,我们的方法取得了优越的性能。代码将在论文被接受后发布。本研究为动作-反应合成提供了一种创新的解决方案,可能在虚拟现实、游戏开发和人机交互等领域具有广泛应用前景。
动作-反应合成自回归建模变分自编码器扩散模型单元调制
双专家一致性模型:高效且高质量的视频生成
📝 作者: Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu
📄 中文摘要:
扩散模型在视频合成领域取得了显著成果,但其迭代去噪步骤导致了巨大的计算开销。一致性模型在加速扩散模型方面取得了重要进展,然而直接将其应用于视频扩散模型时,常常导致时间一致性和外观细节的严重退化。本研究通过分析一致性模型的训练动态,发现了蒸馏过程中的一个关键冲突学习动态:不同时间步的优化梯度和损失贡献存在显著差异。这种差异使得蒸馏后的学生模型无法达到最优状态,从而导致时间一致性受损和外观细节退化。为解决这一问题,本文提出了一种参数高效的 extbf{双专家一致性模型(DCM)},其中语义专家专注于学习语义布局和运动,而细节专家则专注于精细细节的优化。此外,本文引入了时间一致性损失(Temporal Coherence Loss)以提升语义专家的运动一致性,并应用生成对抗网络(GAN)和特征匹配损失(Feature Matching Loss)来增强细节专家的合成质量。实验结果表明,该方法在显著减少采样步骤的同时,实现了最先进的视觉质量,证明了专家特化在视频扩散模型蒸馏中的有效性。本研究的代码和模型已公开,供进一步研究和应用。
视频生成扩散模型一致性模型双专家模型时间一致性
Ctrl-Z采样:具有受控随机之字形探索的扩散采样
📝 作者: Shunqi Mao, Wei Guo, Chaoyi Zhang, Jieting Long, Ke Xie, Weidong Cai
📄 中文摘要:
扩散模型在条件生成任务中表现出色,通过逐步去噪高斯样本以逼近目标数据分布。这一去噪过程可被视为在学习到的潜在空间中进行的一种爬山过程,模型迭代地优化样本,使其趋向概率较高的区域。然而,由于潜在空间的复杂性及初始化的不理想,这种学习到的爬山过程常常收敛到局部最优,导致生成的样本看似合理但并非最优。尽管之前的研究尝试通过增强引导信号或引入固定的探索策略来解决这一问题,但这些方法在逃离陡峭的局部极大值时能力有限。相比之下,本文提出了受控随机之字形采样(Ctrl-Z Sampling),一种新颖的采样策略,通过受控探索自适应地检测并逃离此类陷阱。在每个扩散步骤中,我们首先利用奖励模型识别潜在的局部极大值。一旦检测到,我们会注入噪声并回退到之前的、更具噪声的状态以逃离当前平台。随后,奖励模型评估候选轨迹,仅接受那些带来改进的轨迹;若附近替代方案失败,则计划逐步深入的探索。这种受控的之字形过程允许在向前优化和向后探索之间动态切换,从而提升生成输出的对齐性和视觉质量。所提出的方法与模型无关,且与现有扩散框架兼容。实验结果表明,Ctrl-Z采样在仅增加约6.72倍函数评估次数的情况下,显著提升了生成质量。
扩散模型受控采样之字形探索局部最优生成质量
老化多元宇宙:通过无训练扩散生成条件感知的面部老化树
📝 作者: Bang Gong, Luchao Qi, Jiaye Wu, Zhicheng Fu, Chunbo Song, David W. Jacobs, John Nicholson, Roni Seng
📄 中文摘要:
本文提出了‘老化多元宇宙’框架,旨在从单张图像生成多种可能的面部老化轨迹,每种轨迹均受外部因素如环境、健康和生活方式的条件约束。与以往将老化建模为单一确定性路径的方法不同,本研究构建了一个老化树,以可视化多样化的未来老化结果。为实现这一目标,作者提出了一种无训练的扩散方法,该方法在身份保持、年龄准确性和条件控制之间取得了平衡。主要贡献包括注意力混合技术,用于调节编辑强度,以及模拟老化正则化策略,用于稳定编辑效果。广泛的实验和用户研究表明,该方法在身份保持、老化真实性和条件一致性方面均达到了最先进的性能,优于现有的编辑和年龄进展模型,这些模型往往无法同时满足所有编辑标准。通过将老化转变为一个多维、可控且可解释的过程,该方法为数字叙事、健康教育和个性化可视化等领域开辟了新的创意和实用前景。本研究不仅在技术上实现了创新,还为理解和展示老化过程的多样性提供了新视角,具有重要的应用价值和研究意义。
面部老化扩散模型条件控制身份保持老化树
量规流模型
📝 作者: Alexander Strunk, Roland Assam
📄 中文摘要:
本文提出了一种新型的生成流模型——量规流模型(Gauge Flow Models)。该模型在流常微分方程(Flow ODE)中引入了可学习的量规场(Gauge Field),并提供了详细的数学框架,阐述了模型的构建方法及其性质。通过在高斯混合模型上应用流匹配(Flow Matching)进行的实验表明,量规流模型相较于传统流模型表现出显著的性能优势,即使与更大规模的传统模型相比也毫不逊色。实验结果验证了量规流模型在生成任务中的潜力。此外,尚未发表的研究进一步暗示,该模型在更广泛的生成任务中可能具有更高的性能表现。本文的研究为生成模型领域提供了一种创新方法,通过引入量规场的概念,不仅提升了模型的表达能力,还为未来的研究开辟了新的方向。作者详细讨论了量规流模型的理论基础,包括其数学推导和实现细节,并通过对比实验展示了其在生成质量和计算效率上的改进。总之,量规流模型为生成流模型的发展提供了重要的理论支持和实践依据,可能对未来的生成任务和相关应用产生深远影响。
量规流模型生成流模型量规场流匹配高斯混合模型
XSpecMesh:通过多头推测解码实现质量保持的自回归网格生成加速
📝 作者: Dian Chen, Yansong Qu, Xinyang Li, Ming Li, Shengchuan Zhang
📄 中文摘要:
当前的自回归模型能够生成高质量、拓扑精确的网格,但其推理过程需要进行数千甚至数万次下一令牌预测,导致显著的延迟。本研究提出了一种名为XSpecMesh的质量保持加速方法,专门针对自回归网格生成模型进行优化。XSpecMesh采用了一种轻量级的多头推测解码方案,在单次前向传递中并行预测多个令牌,从而显著提升推理速度。为了确保生成质量,研究进一步提出了一种验证和重采样策略:骨干模型对每个预测令牌进行验证,并对不符合质量标准的令牌进行重采样。此外,研究还设计了一种蒸馏策略,通过从骨干模型中蒸馏知识来训练轻量级解码头,促使其预测分布趋于一致,从而提高推测预测的成功率。大量实验表明,该方法在不牺牲生成质量的前提下实现了1.7倍的加速效果。作者表示相关代码将公开发布,为后续研究和应用提供了便利。这一方法在计算机图形学领域具有重要的应用潜力,尤其是在需要快速生成高质量网格的场景中,如游戏开发、虚拟现实和三维建模等。
自回归模型网格生成推测解码加速方法计算机图形学
最佳臂识别中的Thompson探索与最佳挑战者规则
📝 作者: Jongyeong Lee, Junya Honda, Masashi Sugiyama
📄 中文摘要:
本文研究了在经典单参数指数模型下的固定置信度最佳臂识别(Best Arm Identification, BAI)问题。在多臂老虎机(bandit)框架中,针对该问题已提出了多种策略,但大多数策略需要在每一轮解决一个优化问题,或者被迫至少探索某个臂一定次数,除非局限于高斯模型。为了解决这些局限性,本文提出了一种新策略,将Thompson采样与一种计算效率高的方法——最佳挑战者规则(Best Challenger Rule)相结合。虽然Thompson采样最初是为最大化累积奖励设计的,但本文证明它可以自然地用于BAI中的臂探索,而无需强制执行特定探索次数。理论分析表明,该策略在双臂老虎机问题中具有渐近最优性,并且在一般K臂(K≥3)老虎机问题中接近最优。在数值实验中,与渐近最优策略相比,该策略在样本复杂度方面表现出竞争性能,同时计算成本更低。此外,本文通过将其与β-最优性(一种放宽的渐近最优性概念)进行比较,突出了该策略的优势。β-最优性常用于分析包括本文提出的策略在内的一类策略的性能。总之,本文提出的策略在计算效率和性能之间取得了良好的平衡,为BAI问题提供了一种实用且高效的解决方案,并为未来的研究奠定了基础。
最佳臂识别Thompson采样最佳挑战者规则多臂老虎机渐近最优性
基于链接的非参数数据序列聚类的指数一致性研究
📝 作者: Bhupender Singh, Ananth Ram Rajagopalan, Srikrishna Bhashyam
📄 中文摘要:
本文研究了从未知分布生成的M个独立同分布(i.i.d.)数据序列的非参数聚类问题。这些数据序列的分布属于K个潜在的分布簇。已有关于指数一致性非参数聚类算法的研究(如基于单链接的SLINK聚类和k-medoids分布聚类)通常假设最大簇内距离(d_L)小于最小簇间距离(d_H)。本文首先在固定样本大小(FSS)设置下证明,SLINK聚类可以在更宽松的假设条件d_I < d_H下实现指数一致性,其中d_I是簇内任意两个子簇之间的最大距离,且通常d_I < d_L。这一结果表明,SLINK聚类在比以往已知更广泛的问题类别中具有指数一致性。通过仿真实验,本文还发现了一些k-medoids聚类无法找到真实簇的案例,而SLINK聚类仍能保持指数一致性。随后,本文提出了一种基于SLINK的顺序聚类算法SLINK-SEQ,并证明其同样具有指数一致性。仿真结果显示,SLINK-SEQ算法在相同错误概率下所需的期望样本数少于FSS SLINK算法。这一研究扩展了非参数聚类算法的适用范围,为数据序列聚类提供了更高效的解决方案,同时在理论上和实践上均具有重要意义。
非参数聚类指数一致性SLINK算法数据序列顺序聚类
强逼近的可计算界限及其应用
📝 作者: Haoyu Ye, Morgane Austern
📄 中文摘要:
Komlós-Major-Tusnády (KMT) 不等式是概率论中最著名的结果之一,用于描述部分和的强逼近。然而,由于其依赖于未知常数,实际应用受到限制。本文针对有界独立同分布 (i.i.d.) 随机变量,提出了一种可计算的 KMT 不等式版本,通过引入一个额外的对数因子,使得不等式仅依赖于变量的范围和标准差,克服了未知常数的限制。此外,本文还推导出了该不等式的经验版本,即使在标准差未知的情况下也能实现标称覆盖率。为了验证所提出界限的实用性,作者将其应用于在线变点检测和首次命中时间概率的计算。通过这些应用,展示了该方法在实际问题中的有效性和可操作性。研究结果表明,所提出的可计算界限不仅在理论上具有重要意义,还为概率论在统计和数据分析中的应用提供了新的工具。作者通过数值模拟和理论推导,验证了界限的准确性和适用性,并讨论了其在更广泛场景下的潜在扩展方向。总之,本文为强逼近理论的实际应用提供了重要贡献,填补了理论与实践之间的部分空白。
强逼近KMT 不等式可计算界限在线变点检测首次命中时间
随机动力系统家族平稳测度的有效计算与李雅普诺夫景观
📝 作者: Stefano Galatolo, Charles Lopez Vereau, Luigi Marangio, Isaia Nisoli
📄 中文摘要:
本文提出了一种高效且经过验证的方法,用于近似计算具有平滑加性噪声的随机动力系统的平稳测度。该方法利用了相关转移算子的强正则化特性,通过基于傅里叶近似的有限维降维来实现计算。研究提供了明确的误差界,使得该方法适用于计算机辅助证明和严格的数值研究。特别是,该方法的效率使得对参数空间的系统性探索成为可能。作者通过将复杂的随机动力系统问题转化为有限维近似问题,显著降低了计算复杂度,同时保证了结果的精度。这种方法不仅在理论上具有重要意义,还在实际应用中展现了强大的潜力,尤其是在需要大规模参数分析的场景中。研究还探讨了李雅普诺夫景观的概念,通过分析系统的长期行为,揭示了噪声对系统稳定性的影响。关键发现包括噪声如何塑造系统的平稳测度分布,以及在不同参数配置下系统的动态特性变化。结论指出,该方法为随机动力系统的研究提供了一个新的计算框架,能够有效处理高维问题,并为未来的理论发展和应用研究奠定了基础。
随机动力系统平稳测度傅里叶近似李雅普诺夫景观数值计算
多保真随机信任区域方法与自适应采样的研究
📝 作者: Yunsoo Ha, Juliane Mueller
📄 中文摘要:
仿真优化常常因运行仿真所需的高成本而受到限制。多保真方法通过引入成本较低的低保真仿真来减少计算时间,提供了有前景的解决方案。然而,低保真模型中的偏差可能误导搜索方向,导致解决方案偏离高保真最优解。为解决这一问题,本文提出了一种自适应采样的多保真仿真优化信任区域方法——ASTRO-MFDF。该方法包含两个关键策略:首先,它自适应地确定样本大小并选择合适的采样策略,以降低计算成本;其次,仅在预期低保真模型与高保真模型高度相关时有选择地使用低保真信息,从而减少偏差风险。通过使用SimOpt库进行数值实验,本文验证了ASTRO-MFDF在性能和计算效率方面的优越性。实验结果表明,该方法能够在保证优化精度的同时显著降低计算成本,为仿真优化领域提供了一种高效的解决方案。研究还探讨了方法在不同场景下的适用性,分析了其在处理复杂优化问题时的表现,并指出了未来改进方向,如进一步优化采样策略和提高模型相关性预测的准确性。总之,ASTRO-MFDF为多保真仿真优化提供了一种创新且实用的工具,具有广泛的应用潜力,尤其是在需要高计算资源的工程设计和决策支持领域。
多保真方法仿真优化自适应采样信任区域方法计算效率
弱相互作用次椭圆扩散的参数估计
📝 作者: Yuga Iguchi, Alexandros Beskos, Grigorios A. Pavliotis
📄 中文摘要:
本文研究了由N个弱相互作用的多变量次椭圆随机微分方程(SDEs)组成的相互作用粒子系统(IPSs)的参数估计问题。作者提出了一种局部高斯近似方法来描述过渡动力学,该方法针对噪声(扩散矩阵)的退化结构进行了精心设计,从而形成了明确定义的全似然函数。这种方法使得对一类广泛的次椭圆IPSs进行统计推断成为可能,而这些系统在近期依赖Euler-Maruyama方案的研究中未被覆盖。基于所开发的似然函数,作者分析了一种对比估计量,该估计量基于在固定时间段[0,T]内对n个高频粒子观测数据的研究,并证明了当n和N趋于无穷大时,该估计量具有渐近正态性,同时要求步长Δn = T/n满足NΔn趋于0的条件,假设所有粒子坐标(如位置和速度)均可观测。在实际情况下,当仅能获得部分观测数据(如粒子位置而非速度)时,提出的局部高斯近似方法结合已有的贝叶斯技术,为推断提供了更大的灵活性。特别是,与基于Euler-Maruyama的方法不同,本文无需对次椭圆IPSs施加限制性结构。作者通过数值实验展示了该方法的有效性,涵盖了完整和部分粒子观测两种情况。研究结果表明,该方法在处理弱相互作用次椭圆扩散的参数估计问题上具有显著优势,为相关领域的统计推断提供了新的工具和视角。
参数估计弱相互作用次椭圆扩散局部高斯近似统计推断
矩阵Rosenthal不等式与马尔可夫链的集中不等式及其在统计学习中的应用
📝 作者: Yang Peng, Yuchen Xin, Zhihua Zhang
📄 中文摘要:
本文研究了依赖随机矩阵和的光谱范数的高阶矩和集中不等式,特别是在马尔可夫链的背景下。研究背景源于统计学习和概率论中对依赖数据结构的分析需求,尤其是在处理时间序列或状态转移数据时,传统的独立性假设往往不成立,因此需要新的理论工具来刻画依赖矩阵的统计行为。作者提出了基于矩阵Rosenthal不等式的新框架,用于分析马尔可夫链生成的随机矩阵和的光谱范数分布。主要方法包括利用马尔可夫链的混合性质和矩阵分解技术,推导出适用于依赖数据的集中不等式。这些不等式在理论上扩展了经典的Rosenthal不等式,并提供了更精确的尾概率界限。关键发现包括:对于满足一定混合条件的马尔可夫链,矩阵和的光谱范数表现出类似于独立情形的集中行为;此外,作者还证明了这些不等式在高维统计学习中的适用性,例如在主成分分析(PCA)和协方差矩阵估计中对依赖数据的误差控制。研究结论表明,这些新工具不仅在理论上填补了依赖矩阵分析的空白,还在实际应用中为统计学习算法提供了更鲁棒的理论保证,尤其是在处理时间依赖数据时具有重要意义。本文的工作为后续研究依赖随机结构的统计方法奠定了基础,同时也为机器学习中处理非独立数据提供了新的视角。
矩阵不等式马尔可夫链集中不等式统计学习光谱范数
(α,β)-变换的规范性Hausdorff维数研究
📝 作者: Hiroki Takahasi
📄 中文摘要:
本文研究了动力系统中规范性(specification)这一重要概念,特别是在(α,β)-变换中的应用。规范性由Bowen提出,是描述动力系统复杂行为的关键性质。已有研究表明,对于β>1,相应的β-变换具有规范性的β值集合的Hausdorff维数为1(Schmeling的研究结果);同样,对于(-β)-变换,Hu等人证明了相关集合的Hausdorff维数也为1。本文进一步扩展了这一研究,聚焦于参数空间(α,β)∈[0,1)×(1,∞)中的(α,β)-变换,证明了具有规范性的参数对(α,β)集合的Hausdorff维数为2。这一结果表明,在二维参数空间中,规范性集合几乎占据了整个空间的维度,显示出更复杂的几何结构。研究中的一个新难点在于需要同时控制两个关键符号序列,这两个序列共同决定了变换空间的结构。为了克服这一挑战,作者通过在参数空间中构造两个厚Cantor集的交集,实现了对参数的精确控制。这一方法不仅解决了技术难题,还为理解多参数动力系统的规范性提供了新的视角。文章的结论强调了(α,β)-变换中规范性集合的高维特性,为后续研究动力系统的复杂性和分形结构奠定了基础。
规范性Hausdorff维数(αβ)-变换动力系统Cantor集
随机正交矩阵计数统计波动的普适性
📝 作者: J. Marzo, L. D. Molag, J. Ortega-Cerd\`a
📄 中文摘要:
本文研究了n×n随机正交矩阵特征值数量在给定集合A中的波动情况,特征值受势函数Q的影响。已知这些特征值构成一个行列式点过程,并且在Q满足温和条件时,特征值会聚集在一个称为液滴的紧凑集合上。当A是液滴内部的一个Borel集合时,作者证明了A中特征值数量N_A^{(n)}的方差具有极限行为。这一结果揭示了随机正交矩阵特征值分布的普适性波动规律,表明在液滴内部的局部统计行为具有一定的独立性和一致性。研究方法主要依赖于行列式点过程的性质以及势函数Q的分析,通过严格的数学推导和概率论工具,作者建立了特征值数量波动的渐近表达式。此外,本文还探讨了不同势函数Q对波动行为的影响,指出在某些条件下,波动表现出普适性特征,与具体势函数的细节无关。关键发现包括波动方差的极限形式及其与液滴边界距离的关系,这为理解随机矩阵的局部统计特性提供了新的视角。结论表明,这一普适性结果不仅适用于随机正交矩阵,还可能推广到其他类型的随机矩阵模型,为随机矩阵理论的进一步研究奠定了基础。这一工作在理论数学和统计物理领域具有重要意义,尤其是在研究复杂系统的特征值分布和相关统计量时。
随机正交矩阵特征值波动行列式点过程普适性液滴
匹配司机与乘客:一种两阶段鲁棒方法
📝 作者: Omar El Housni, Vineet Goyal, Oussama Hanguir, Clifford Stein
📄 中文摘要:
在共享出行平台中,高效地将需求(乘客)与供给(司机)进行匹配是一个基本问题。平台需要在乘客请求到达时几乎立即完成匹配,而此时对未来乘车请求的了解仅是部分的。一种短视的方法,即仅针对当前请求计算最优匹配而忽略未来的不确定性,可能会导致结果高度次优。本文提出了一种两阶段鲁棒优化框架来解决这一匹配问题,其中未来的需求不确定性通过一组需求场景(显式或隐式指定)进行建模。目标是在第一阶段将当前请求与司机匹配,使得第一阶段匹配的成本以及第二阶段匹配在所有场景下的最坏情况成本之和最小化。我们证明,在多种成本函数下,两阶段鲁棒匹配问题是NP难的,并为不同设置的两阶段问题提供了常数近似算法。此外,我们在深圳市的真实出租车数据上测试了我们的算法,结果表明,与短视解决方案相比,我们的方法显著提高了性能,并减少了第二阶段乘客的最大等待时间。通过这种两阶段鲁棒方法,本研究为共享出行平台在不确定性环境下优化资源分配提供了有效的解决方案,同时也为处理类似动态匹配问题提供了理论和实践指导。研究结果表明,该方法在实际应用中具有较强的适应性和优越性,为未来的研究和应用奠定了基础。
共享出行鲁棒优化两阶段匹配算法近似动态匹配
庞加莱不等式与次椭圆算子的定量De Giorgi方法
📝 作者: Francesca Anceschi, Helge Dietert, Jessica Guerand, Am\'elie Loher, Cl\'ement Mouhot, Anna
📄 中文摘要:
本文提出了一种基于轨迹的系统性方法,用于证明次椭圆方程的弱非负次解的庞加莱不等式,适用于任意数量的Hörmander交换子情况,涵盖局部和非局部两种情形。研究背景源于对次椭圆算子相关方程解的性质分析,这类方程在数学物理和概率论中有广泛应用,尤其是在描述非均匀扩散过程时。通过引入轨迹分析,作者成功地将几何和分析工具结合,系统性地建立了庞加莱不等式,为次椭圆方程的弱解提供了重要的不等式估计。作为该方法的一个直接推论,本文进一步导出了弱Harnack不等式和Hölder正则性结果。这些结果沿用了De Giorgi方法的思路,通过定量分析揭示了解的局部行为和正则性特征。关键发现包括:庞加莱不等式的证明不仅适用于经典的局部情形,也适用于非局部情形,展现了方法的普适性;同时,弱Harnack不等式和Hölder正则性的推导为次椭圆方程解的进一步研究奠定了基础。结论指出,该方法为处理次椭圆算子相关问题提供了一种新的视角,可能对偏微分方程领域中类似问题的研究产生深远影响,尤其是在非均匀介质中的扩散问题和随机过程的数学建模方面。
庞加莱不等式次椭圆算子De Giorgi方法Harnack不等式Hölder正则性
$ ext{S}^2$Q-VDiT:基于显著数据和稀疏令牌蒸馏的精确量化视频扩散变换器
📝 作者: Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Mic
📄 中文摘要:
[基于标题推测] 本论文可能提出了一种名为$ ext{S}^2$Q-VDiT的新型量化视频扩散变换器模型,旨在提高视频生成或处理任务中的效率和精度。研究可能聚焦于通过显著数据选择和稀疏令牌蒸馏技术,优化视频扩散模型在量化过程中的性能表现。这种方法可能在保持高质量视频生成的同时,显著降低计算资源需求。论文可能探讨了如何通过提取视频中的关键信息(显著数据)并结合稀疏化技术对模型进行蒸馏,从而在低资源环境下实现高效的视频处理或生成。此外,研究可能还包括对模型在不同视频任务上的实验验证,分析其在准确性和计算效率方面的改进。这样的工作对于推动视频生成技术在边缘设备上的应用具有重要意义,尤其是在需要实时处理的高需求场景中。
视频扩散变换器量化模型显著数据稀疏令牌蒸馏计算机视觉
负二项回归及基于预训练变换器的推断
📝 作者: Valentine Svensson
📄 中文摘要:
负二项回归在分析过分散计数数据时至关重要,特别是在比较研究中。然而,在需要进行数百万次比较的大规模筛选中,参数估计的计算复杂度成为一大挑战。本研究探索了一种利用预训练变换器从观测计数数据中估计负二项回归参数的方法。该方法通过合成数据生成进行训练,学习从参数生成计数数据的逆过程。研究结果表明,变换器方法在参数估计精度上优于最大似然优化,同时速度快20倍。然而,令人意外的是,比较结果显示矩估计方法在精度上与最大似然优化相当,但速度快1000倍,并且能够提供更好校准且更具统计效能的检验,因此成为该应用场景下最高效的解决方案。本研究的关键发现是,尽管预训练变换器在速度和精度上表现出色,但矩估计方法在计算效率和统计性能上的综合优势使其更适合大规模数据分析场景。研究结论指出,在负二项回归参数估计中,选择合适的方法需综合考虑精度、速度和统计检验效能,矩估计方法可能在大规模应用中具有更大的实用价值。
负二项回归预训练变换器参数估计矩估计计数数据
4D高斯溅射:使用原生4D基元建模动态场景
📝 作者: Zeyu Yang, Zijie Pan, Xiatian Zhu, Li Zhang, Jianfeng Feng, Yu-Gang Jiang, Philip H. S. Torr
📄 中文摘要:
[基于标题推测] 本论文可能提出了一种名为4D高斯溅射的新方法,用于建模和渲染动态场景。通过引入原生4D基元(即在时间维度上扩展的3D高斯函数),该方法可能在处理复杂动态场景时展现出更高的精度和效率。研究可能聚焦于如何利用4D基元捕捉时间和空间的变化,以实现更真实的动态场景重建和渲染效果。这种方法或可应用于虚拟现实、增强现实、电影特效以及游戏开发等领域。论文可能探讨了该技术的理论基础、算法实现以及在实际场景中的应用效果,同时可能与其他动态场景建模方法进行了对比分析,突显其创新性和潜在优势。
4D高斯溅射动态场景建模原生4D基元计算机图形学场景渲染
一种基于教师类布局辅助新手创建类图的方法
📝 作者: Yuta Saito, Takehiro Kokubu, Takafumi Tanaka, Atsuo Hazeyama, Hiroaki Hashiura
📄 中文摘要:
在信息技术领域的高等教育中,软件开发对象的建模练习已成为教学的重要组成部分。然而,学习者在练习中创建的模型常常存在诸多缺陷,例如元素缺失,并且类图中元素的布局与教师提供的正确答案差异显著。本研究针对这一问题,提出了一种方法,通过在练习过程中自动将学习者的类图布局转换为教师的布局,为学习者提供有效的支持,同时向学习者指示模型中元素的正确性。该方法不仅关注模型内容的准确性,还强调布局的一致性,以帮助新手更好地理解和掌握类图设计的核心原则。研究中提出的方法被实现为一个工具,并进行了评估。实验结果表明,自动布局转换作为一种反馈机制,对学习者具有显著的帮助作用。通过这种方式,学习者能够更直观地发现自身模型与标准答案之间的差异,从而改进他们的建模技能。此外,该工具的使用还减少了学习者在布局调整上的时间投入,使他们能够更专注于模型内容的完善。研究结论表明,这种基于教师布局的辅助方法在软件工程教育中具有潜在的应用价值,可以有效提升新手的学习效率和建模质量,为未来的教育工具开发提供了新的思路。
类图软件建模教育工具自动布局反馈机制
具有优先级队列的图的线性布局
📝 作者: Emilio Di Giacomo, Walter Didimo, Henry F\"orster, Torsten Ueckerdt, Johannes Zink
📄 中文摘要:
本文研究了图的线性布局问题,提出了一种新的布局方式——优先级队列布局。线性布局是指对图的顶点进行线性排序,并将其边划分为多个页面,使得同一页面内的边满足特定约束。传统的堆栈布局和队列布局分别禁止同一页面内的边交叉和嵌套,而本文将这一概念扩展到带权图,引入了优先级队列布局,即每个页面内的边根据边的权重存储在优先级队列中。研究首先证明了存在一些带权图需要线性数量的优先级队列来实现布局。其次,作者刻画了无论边权函数如何变化都能用单个优先级队列实现布局的图的特征,并给出了一个高效的识别算法。接着,研究表明所需优先级队列的数量上限受图的路径宽度限制,但对于树宽度为2的图,所需队列数量可能任意大。最后,作者证明了在顶点线性顺序固定的情况下,确定最小优先级队列数量是一个NP完全问题。本文通过引入优先级队列的概念,扩展了图线性布局的研究框架,为带权图的布局问题提供了新的视角和方法,同时揭示了该问题在理论和计算复杂度上的挑战。
图论线性布局优先级队列路径宽度NP完全
通过条件化结果生成准确的合成生存数据
📝 作者: Mohd Ashhad, Ricardo Henao
📄 中文摘要:
本研究聚焦于合成数据生成在生存分析中的应用,旨在解决数据隐私、公平性和可访问性问题。生存分析中的一个核心挑战是删失数据,即某些事件的时间未知。现有方法在生成合成数据时,难以准确重现已观察事件时间和删失事件时间的分布。本文提出了一种概念上简单的方法,通过利用现有的表格数据生成模型,基于事件时间和删失指标生成协变量,而无需对删失机制做出假设。该方法避免了传统方法中对删失分布的强假设,从而提高了生成数据的准确性。作者在多个真实世界数据集上进行了实验,结果表明,该方法在生成数据的质量上持续优于基线方法。此外,使用合成数据训练的下游生存模型性能也得到了显著提升,验证了该方法在实际应用中的有效性。研究还讨论了合成数据在保护隐私和促进数据共享方面的潜力,特别是在医疗和公共健康领域。本文为生存分析中的数据生成提供了一种新颖且实用的解决方案,可能对相关领域的研究和应用产生积极影响。
合成数据生存分析删失数据数据隐私表格数据生成
宽带近场定位的子空间拟合方法
📝 作者: Ruiyun Zhang, Zhaolin Wang, Zhiqing Wei, Yuanwei Liu, Zehui Xiong, Zhiyong Feng
📄 中文摘要:
本文提出了两种用于宽带近场定位的子空间拟合方法。不同于传统的远场系统,在远场系统中距离和角度可以分别估计,而在近场系统中,由于球面波传播的特性,距离和角度参数是耦合的。因此,本研究首先推导了一个适用于多目标宽带系统的频域近场信号模型,并基于此开发了一种基于子空间拟合的MUSIC方法,该方法能够联合估计距离和角度参数。为了降低计算复杂度,本文进一步引入了一种基于菲涅耳近似的MUSIC算法,通过近似方法解耦距离和角度参数,从而简化计算过程。数值仿真结果验证了两种所提出方法的有效性,表明它们在宽带近场定位中具有良好的性能。研究背景方面,近场定位在无线通信、雷达和声呐等领域具有重要应用价值,而宽带信号的使用增加了定位的复杂性。本文的方法通过子空间拟合技术,充分利用了信号的频域特性,为解决近场定位中的参数耦合问题提供了新的思路。关键发现包括:联合估计方法在精度上优于传统方法,而菲涅耳近似算法在保持较高精度的同时显著降低了计算复杂度。结论指出,这两种方法为宽带近场定位提供了一种高效且实用的解决方案,未来可进一步扩展到更复杂的多目标场景或实际应用中。
宽带近场定位子空间拟合MUSIC方法菲涅耳近似参数估计
基于泊松点过程的随机泰勒展开
📝 作者: Weichao Wu, Athanasios C. Micheas
📄 中文摘要:
本文通过引入基于泊松点过程模型的随机形式,推广了泰勒定理。作者利用这一方法提出了一种新颖的非线性回归框架,并对模型参数进行了统计推断。文中证明了所提出的估计器的理论性质,包括其一致几乎必然收敛到真实函数的特性。研究涵盖了单变量和多变量情况,并通过模拟实验和对股票市场数据的应用,展示了所提出方法的有效性。具体而言,本文首先回顾了泰勒定理的经典形式,随后引入了泊松点过程作为随机化的基础工具,用以构建随机泰勒展开的数学框架。在此基础上,作者设计了一种非线性回归模型,能够捕捉数据中的复杂非线性关系,并通过统计推断方法估计模型参数。理论分析表明,该估计器在一定条件下能够一致收敛到真实函数,从而保证了方法的可靠性。此外,本文还探讨了该方法在单变量和多变量场景下的适用性,并通过数值模拟验证了其性能。最后,作者将该方法应用于股票市场数据,展示了其在实际问题中的应用价值。研究结果表明,基于泊松点过程的随机泰勒展开不仅在理论上具有创新性,而且在处理复杂数据时表现出较强的实用性,为非线性回归和统计建模提供了新的视角和工具。
随机泰勒展开泊松点过程非线性回归统计推断一致收敛
排列中的彭尼游戏
📝 作者: Sergi Elizalde, Yixin Lin
📄 中文摘要:
本文研究了彭尼游戏在排列中的类比问题。彭尼游戏是一种经典的概率游戏,本研究将其扩展到排列的情境中。两位玩家依次选择一个长度为k(k≥3)的排列,随后生成一个由连续分布产生的独立随机值序列,直到最后k个数字的相对顺序与某位玩家选择的排列一致,该玩家即为胜者。研究探讨了在这种游戏框架下的策略选择、胜率计算以及概率分布的影响。作者通过数学建模和概率分析,推导了玩家在不同排列选择下的期望胜率,并探讨了最优策略的存在性与具体形式。关键发现包括:与原始彭尼游戏类似,排列游戏中玩家的胜率高度依赖于排列的选择,且存在某些排列组合使得后选玩家具有显著优势。此外,研究还揭示了连续分布假设对游戏结果的影响,确保了游戏的公平性与随机性。结论指出,这种排列游戏不仅扩展了彭尼游戏的理论框架,还为概率论和博弈论中的策略优化问题提供了新的研究视角。未来研究可以进一步探索非连续分布下的游戏行为,或将模型扩展到更复杂的排列结构中,以揭示更广泛的数学规律。
彭尼游戏排列概率分析博弈论策略优化
基于内点法的分室系统H2控制器合成
📝 作者: Zhaohua Yang, Nachuan Yang, Pengyu Wang, Haishan Zhang, Xiayan Xu, Ling Shi
📄 中文摘要:
本文研究了分室系统的H2最优控制器设计问题,旨在增强系统鲁棒性的同时保持质量守恒定律。作者提出了一种新颖的问题转换方法,证明原始问题等价于一个带有闭合多面体约束的新优化问题。现有研究主要采用一阶方法处理不等式约束,但一阶方法在收敛速度和精度方面的表现有限,限制了其在实际应用中的潜力。因此,开发一种速度快、精度高的新算法显得尤为重要。本文通过对数障碍函数重构问题,提出了两种解决方法:一阶内点法(FIPM)和二阶内点法(SIPM),并证明了这两种方法能够收敛到新问题的驻点。此外,作者还提出了一种初始化方法,以确保初始值的内点性质。最后,通过一个房间温度控制的实例,对FIPM和SIPM进行了比较,分析了它们的优缺点。研究结果表明,SIPM在收敛速度和精度上通常优于FIPM,但计算复杂度较高,而FIPM则在计算效率上更具优势。作者通过理论分析和数值实验验证了所提出方法的有效性,为分室系统的最优控制设计提供了新的思路和工具。这项研究不仅在理论上具有创新性,还为实际工程应用中的控制器设计提供了可行的解决方案。
H2控制器分室系统内点法最优控制鲁棒性
分布函数估计的调查数据整合
📝 作者: Jeremy Flood, Sayed Mostafa
📄 中文摘要:
本文研究了在调查抽样领域中,将概率样本与非概率样本整合用于有限总体总量(或均值)估计的问题。尽管这一框架近年来受到广泛关注,但据作者所知,尚未将其扩展到累积分布函数(CDF)的估计上。为填补这一空白,本文提出了一种新颖的CDF估计方法,该方法结合了概率样本和潜在的大规模非概率样本的数据。假设两类样本中均观测到一组共享的协变量,而响应变量仅在非概率样本中可观测,作者提出的估计量利用在便利样本上训练的回归残差的调查加权经验CDF来估计响应变量的CDF。在某些假设条件下,本文推导了CDF估计量的渐近偏差和方差,并证明了在可忽略性(ignorability)成立的情况下,该估计量对于有限总体CDF是渐近无偏的。实证结果表明,在可忽略性成立时,提出的CDF估计量对模型误设定具有鲁棒性;在模型误设定时,对可忽略性也具有鲁棒性。然而,当两种假设均被违反时,尽管效率有所下降,基于残差的CDF估计量仍然优于其“插入式”质量插补和朴素估计方法。通过理论推导和实证分析,本文为调查数据整合在分布函数估计中的应用提供了新的视角和方法,具有重要的理论和实践意义。
累积分布函数调查抽样数据整合概率样本非概率样本
PiT:渐进式扩散变换器
📝 作者: Jiafu Wu, Yabiao Wang, Jian Li, Jinlong Peng, Yun Cao, Chengjie Wang, Jiangning Zhang
📄 中文摘要:
[基于标题推测] 本论文可能聚焦于一种名为'渐进式扩散变换器'(Progressive Diffusion Transformer, PiT)的新型模型架构,旨在解决机器学习领域中与生成模型或数据处理相关的问题。扩散模型近年来在图像生成、音频合成等领域表现出色,而变换器(Transformer)架构因其强大的序列建模能力被广泛应用。PiT可能结合了两者的优势,通过渐进式策略优化扩散过程或提升模型性能。研究内容可能包括模型设计、训练方法以及在特定任务(如图像生成或自然语言处理)中的应用效果对比。论文可能还探讨了如何通过渐进式方法减少计算成本或提高生成质量,为相关领域提供新的技术思路和实践指导。虽然具体内容尚不明确,但从标题来看,该研究可能对生成模型的发展具有一定推动作用。
渐进式扩散变换器生成模型机器学习