← 返回总览
102
论文总数
102
高分论文
7.9
平均评分
5
关键词数
CatSouth类星体候选目录及基于Gaia DR3的全天统一目录
📝 作者: Yuming Fu, Xue-Bing Wu, R. J. Bouwens, Karina I. Caputi, Yuxuan Pang, Rui Zhu, Da-Ming Yang, Jin Qin
📄 中文摘要:
本文介绍了基于Gaia DR3数据构建的CatSouth类星体候选目录,重点覆盖南半球天空,并通过整合CatNorth目录形成了全天统一的CatGlobe类星体候选目录。研究背景在于Gaia DR3提供了超过660万类星体候选样本,但其纯度较低,限制了在天体物理和宇宙学研究中的应用。作者通过结合SkyMapper、CatWISE和VISTA等多波段外部数据,采用机器学习方法显著提高了候选样本的纯度。研究方法包括使用XGBoost分类器对高置信度的恒星、光谱确认的类星体和星系进行训练,以区分不同天体类型;对于具有Gaia BP/RP光谱的源,采用预训练的卷积神经网络(RegNet)推算光谱红移;同时,基于XGBoost、TabNet和FT-Transformer的集成模型用于光度红移估计,在验证集上取得了RMSE为0.2256和归一化中值绝对偏差为0.0187的优异结果。关键发现包括CatSouth目录包含南半球约92.2万类星体候选者,与CatNorth合并后形成的CatGlobe目录包含近190万源(G<21),显著提高了样本的完整性和纯度,为后续光谱观测和宇宙学研究提供了宝贵资源。研究还通过适当运动分布分析验证了CatGlobe目录相较于原始Gaia DR3候选目录在纯度上的显著提升。结论指出,多波段数据与先进机器学习技术的结合有效改进了类星体候选的筛选和红移估计,为南半球类星体研究及天文参考框架构建奠定了基础。
类星体机器学习红移估计Gaia DR3天文目录
通过机器学习势能模拟水的介电常数:考虑长程库仑相互作用
📝 作者: Kehan Cai, Chunyi Zhang, Xifan Wu
📄 中文摘要:
本文在机器学习框架内提出了一种统一的方法,用于计算液态水的介电常数,系统地纳入了不同的电边界条件。研究背景聚焦于水的高介电常数(约80)这一基本性质,其在物理、化学和生物过程中具有重要作用。传统计算方法因偶极子波动的时间和空间尺度收敛困难而面临挑战,而基于经典力场的分子动力学(MD)无法准确捕捉氢键网络的电极化波动。本研究采用基于混合密度泛函理论(DFT)数据训练的长程包容深度势能(DPLR)模型,通过深度神经网络(DNN)预测最大局域Wannier函数中心,评估介电响应。研究探讨了金属、绝缘和Kirkwood-Fröhlich三种电边界条件对偶极子关联波动和介电弛豫动力学的影响,提出了一致的方法计算Kirkwood关联因子、关联长度和介电常数,其中长程静电相互作用至关重要。关键发现包括:在金属边界条件下,横向偶极子弛豫时间约为8.1皮秒,与实验值(8.28皮秒)接近;在绝缘边界条件下,纵向弛豫时间缩短至0.3皮秒;Kirkwood关联长度约为16Å,关联因子约为2.4。最终,通过偶极子波动和关联方法,在不同边界条件下均得到介电常数约为102,略高于实验值,可能是由于未考虑核量子效应和DFT交换关联近似的局限性。结论指出,该方法为极性液体介电性质建模提供了稳健且可推广的平台,未来可扩展至复杂水溶液系统。
介电常数机器学习长程库仑相互作用液态水电边界条件
多场相干伊辛机中的学习
📝 作者: Daan de Bos, Marc Serra-Garcia
📄 中文摘要:
本文提出了一种由耦合振荡器网络构成的超材料模型,该模型能够通过非线性系统演化从示例中学习,完成分类任务的训练和推理。研究背景聚焦于波基计算的潜力,其具有大规模并行性、光速运算和低能耗的特点,但传统超材料设计依赖自上而下的算法,缺乏生物大脑中持续学习和适应性。为此,作者引入了物理学习的概念,旨在通过模仿生物突触可塑性机制,使人工材料具备自学习能力。研究方法上,作者设计了一种多场相干伊辛机,利用材料的多稳态性实现长期记忆,通过对称性和热噪声实现学习规则,并采用对比学习规则更新系统参数。具体而言,系统包含两个副本(自由和固定),通过两者振幅差异更新权重,实现学习过程。关键发现包括:该超材料能够在不依赖外部电路或手动更新的情况下,通过材料自身的自然演化完成学习;学习机制不仅受突触可塑性启发,还与细菌进化策略中的应激突变率增加有相似之处。实验结果表明,该系统在鸢尾花分类任务中准确率从初始的33.2%提升至71.9%,最佳情况下达到87.3%,显示出显著的物理学习能力。作者还讨论了对称性、多稳态和噪声在计算中的潜力,提出了一种基于对称性的自学习材料设计原则。结论指出,该模型为物理计算机训练机器学习模型提供了新方向,并可能启发研究无序、老化和相变对学习行为的影响。
物理学习超材料相干伊辛机对比学习波基计算
基于多极球谐函数的机器学习模型通用形式
📝 作者: Michelangelo Domina, Stefano Sanvito
📄 中文摘要:
本研究提出了一种基于多极球谐函数(MultiSHs)的通用形式,用于构建机器学习模型中的局部化学环境描述符。研究背景源于近年来材料计算领域中机器学习势(MLPs)的快速发展,旨在以较低计算成本达到与从头算方法(如密度泛函理论)相当的精度。作者通过分析局部原子密度的扩展系数,揭示了描述符的变换性质(如旋转、反演和复共轭)完全依赖于密度扩展所选的基底,而与密度的具体数学形式无关。核心方法是将描述符扩展到多极球谐函数上,利用其正交性和变换规则,简化了如λ-SOAP核等公式的推导和性质分析。研究详细探讨了MultiSHs的正交性、旋转协变性等核心性质,并通过这些性质直接推导出功率谱、双谱和SOAP核等常见机器学习描述符,而无需依赖扩展系数的具体形式。关键发现包括:MultiSHs形式不仅简化了描述符的推导,还证明了其性质的普适性,与具体密度形式无关;此外,该形式为构建标量和张量场的线性机器学习模型提供了通用方法,并通过与原子簇扩展(ACE)和谱邻域分析势(SNAP)等模型的连接,揭示了现有模型的局限性,如SNAP未完全覆盖旋转不变空间。作者还探讨了与内部坐标表示的联系,推导了Moments Tensor Potential(MTP)和Jacobi-Legendre Potential(JLP)模型。最后,研究扩展到协变张量模型,提出了针对张量谐波分量的线性模型构建方法。结论表明,MultiSHs形式为机器学习模型提供了统一的理论框架,具有广泛的适用性和分析深度。
多极球谐函数机器学习势局部化学环境描述符旋转不变性计算物理
生成式神经退火器用于黑箱组合优化的研究
📝 作者: Yuan-Hang Zhang, Massimiliano Di Ventra
📄 中文摘要:
本文提出了一种名为生成式神经退火器(Generative Neural Annealer, GNA)的端到端求解器,用于解决黑箱组合优化问题,特别是在非确定性多项式时间(NP)问题上,强调样本效率和解的质量。研究背景源于组合优化在现实世界中的广泛应用,如调度、路由和电路设计,而黑箱目标函数只能通过查询访问,且查询可能成本高昂。受退火算法的启发,作者将黑箱目标视为能量函数,并训练神经网络以建模相关的玻尔兹曼分布。通过对温度进行条件化,网络能够捕捉从高温下的近均匀分布到低温下的全局最优解附近尖锐分布的连续变化,从而学习能量景观的结构并促进全局优化。在查询成本高的情况下,温度依赖分布自然支持数据增强,提高样本效率;在查询成本低但问题难度高的情况下,模型学习隐式变量交互,有效“打开”黑箱。GNA基于仅解码器的Transformer架构设计,针对有限查询和无限查询两种场景分别制定了训练策略。实验在五个组合优化问题上验证了GNA的性能,包括Ising稀疏化、污染控制、3-SAT、3-XORSAT和子集和问题,结果显示GNA在有限和无限查询预算下均表现出与最先进的黑箱优化器相当的竞争力。关键发现包括GNA能够有效学习目标函数结构,捕捉变量间交互,且在困难问题上表现尤为突出。作者还通过可视化注意力机制揭示了模型如何学习问题几何结构。结论指出,GNA是一种灵活通用的框架,尽管存在对初始样本敏感和超参数调优需求等局限,但其模块化设计使其可扩展至包含额外结构信息的现实优化问题,未来可作为元优化框架的基础。
组合优化黑箱优化生成模型模拟退火神经网络
屏幕之重要性:智能手机原生与电脑原生青少年在认知与行为上的差异
📝 作者: Kanan Eldarov
📄 中文摘要:
本研究探讨了不同数字交互方式(即电脑与智能手机)对青少年注意力、挫折感和创造性表现的影响。研究通过数字任务日志、基于网络摄像头的视线估计以及任务成果的专家评估,分析了来自全球824名11-17岁学生的多样化数据。参与者被随机分层分配到设备组,以控制年龄、性别和先前经验的影响。结果显示,在持续注意力(p < 0.001, d = 0.65)、感知挫折感(p < 0.05)和创造性输出(p < 0.01, η2 = 0.07)方面存在中等但具有统计学意义的差异。研究发现,电脑用户在注意力持续时间、任务参与度以及创造性任务的表现上显著优于智能手机用户,表明设备类型及其界面设计对认知沉浸和情感调节有重要影响。智能手机用户表现出更高的认知负荷和视觉注意力分散,而电脑用户则展现出更强的专注力和创造性思维能力。这些结果提示,数字交互的性质——不仅仅是屏幕时间——可能影响与教育设计相关的认知和行为结果。研究还讨论了用户界面开发和学习环境的实际应用意义,强调应从屏幕时间的数量转向交互质量和功能性的关注。作者建议,教育技术领域应注重设备设计如何支持创造性和探索性学习,而非仅仅限制使用时间。未来研究可通过纵向设计和神经生理测量进一步验证这些效应的长期影响和潜在机制。
数字交互认知发展注意力创造性表现教育技术
不言而喻:可视化素养与视觉注意的双向预测
📝 作者: Minsuk Chang, Yao Wang, Huichen Will Wang, Yuanhong Zhou, Andreas Bulling, Cindy Xiong Bearfield
📄 中文摘要:
本研究探讨了可视化素养与视觉注意之间的关系,旨在通过考虑个体差异来提升可视化设计的有效性。研究基于一项涉及235名参与者的用户实验,涵盖了三种可视化素养测试(mini-VLAT、CALVI和SGL),揭示了不同素养水平参与者在视觉数据探索中的注意力模式差异:高素养者(专家)表现出强烈的注意力集中,而低素养者(新手)注意力较为分散,探索范围更广。基于此发现,作者提出了两个计算模型:Lit2Sal,一个根据可视化素养水平预测观察者注意力的视觉显著性模型;以及Sal2Lit,一个通过人类视觉注意力数据预测可视化素养的模型。Lit2Sal在考虑素养差异的显著性预测中优于现有模型,而Sal2Lit使用单一注意力图即可实现86%的素养预测准确率,若使用三张图则准确率超过87%,为素养评估提供了一种高效的补充方法,耗时不到一分钟。研究结果表明,专家在可视化中关注特定区域,形成集中的“热点”,而新手的注意力分布更广,焦点强度较低。这些模型为个性化视觉数据沟通开辟了新方向,有助于增强不同素养水平用户的理解能力。此外,研究还讨论了自适应可视化设计的潜力,如通过检测注意力模式为新手提供视觉提示,以及通过注意力行为评估批判性思维的可能性。总之,本研究通过结合个体差异的显著性模型和素养评估中的视觉注意力,为可视化领域的个性化设计和教育应用提供了创新视角和实用工具。
可视化素养视觉注意力显著性模型个性化设计用户研究
企业级大规模实体解析的鲁棒高效流水线
📝 作者: Sandeepa Kannangara, Arman Abrahamyan, Daniel Elias, Thomas Kilby, Nadav Dar, Luiz Pizzato, Anna Leo
📄 中文摘要:
实体解析(Entity Resolution, ER)是数据管理中的一个重要挑战,尤其是在处理大规模数据集时。本文提出了一种名为MERAI(Massive Entity Resolution using AI)的鲁棒且高效的流水线,专门设计用于解决企业级高容量数据集中的记录去重和链接问题。研究背景源于企业环境中数据系统异构性和数据量激增所带来的挑战,例如澳大利亚联邦银行(CBA)管理约1700万客户数据时面临的复杂数据一致性问题。MERAI通过创新的算法优化和架构设计,满足了企业级对准确性、可扩展性和可靠性的需求。其主要方法包括数据预处理、索引、实体匹配和聚类四个阶段,采用改进的阻塞算法和监督机器学习技术以实现线性计算复杂度和高精度匹配。实验结果表明,MERAI在处理高达1570万条记录的数据集时表现出色,相比于两个知名实体解析库Dedupe和Splink,MERAI在去重和记录链接任务中均取得了更高的F1分数,展现出更高的匹配准确性和可扩展性。此外,MERAI在银行内部多个项目中成功应用,处理了高达3300万条记录的数据集,证明了其在现实应用中的鲁棒性和效率。结论指出,MERAI为企业级大规模实体解析提供了一种可靠的解决方案,不仅适用于银行业,还可推广至其他领域。未来工作将探索定制化特征工程以进一步提升性能。
实体解析记录去重记录链接大规模数据企业级应用
利用预测进行设施选址的机制设计
📝 作者: Toby Walsh
📄 中文摘要:
本文研究了在设施选址问题中利用预测最优设施位置的机制设计方法。作者从平等主义视角出发,同时考虑了代理到设施的最大距离和最小效用,揭示了与仅关注最大距离的传统视角相比的新见解。研究聚焦于机制在预测准确时的性能(一致性)和预测不准确时的最差情况性能(鲁棒性)。通过分析现有机制在预测不准确时的表现缺陷,作者设计了新的确定性和随机化机制,以提高鲁棒性,并通过参数调整实现一致性与鲁棒性之间的权衡。对于单一设施选址问题,提出了如MINMAXPγ和LRMTP等机制,通过限制极端预测值显著改善了鲁棒性,同时保持了一致性。对于双设施选址问题,作者设计了新型策略证明机制(如MINMAX2Pλ和RAND ENDS2P),利用两个预测位置实现了有界的一致性和鲁棒性,解决了现有研究中一致性和鲁棒性随代理数量线性增长的问题。此外,研究还证明了在非极端预测下,MINMAXP机制是唯一在最大距离和最小效用上具有最优一致性的确定性机制。本文的研究成果不仅在设施选址问题上具有重要意义,还为其他机制设计领域(如公平分配和学校选择)提供了预测裁剪等有价值的思路。
设施选址机制设计预测增强一致性鲁棒性
Bernoulli-LoRA:随机低秩适应的理论框架
📝 作者: Igor Sokolov, Abdurakhmon Sadiev, Yury Demidovich, Fawaz S Al-Qahtani, Peter Richt\'arik
📄 中文摘要:
本文提出了一种新的理论框架Bernoulli-LoRA,用于参数高效微调(PEFT)中的低秩适应(LoRA),以适应大型基础模型到特定任务的需求。研究背景源于随着模型规模的指数级增长,传统的全参数微调变得计算成本高昂,而LoRA通过两个低秩矩阵的乘积表达适应更新,显著减少了参数数量,但其理论基础仍不完善。受近期RAC-LoRA工作的启发,本文引入了Bernoulli-LoRA,通过伯努利概率机制随机选择更新矩阵,统一并扩展了现有的LoRA更新策略,同时保持理论可分析性。方法上,作者在非凸优化文献的标准假设下,分析了多个框架变体,包括Bernoulli-LoRA-GD、SGD、PAGE、MVR、QGD、MARINA和EF21,针对平滑非凸函数和凸非平滑函数,分别建立了收敛保证。此外,框架还扩展到联邦学习场景,结合通信压缩和误差反馈技术,提出了Fed-Bernoulli-LoRA系列算法。关键发现包括:随机选择机制避免了优化陷入固定子空间,提升了收敛稳定性;实验验证了理论结果,在线性回归和MNIST分类任务中,Bernoulli-LoRA在优化性能和泛化能力上均表现出色,尤其是在资源受限的联邦学习环境中。结论指出,Bernoulli-LoRA为PEFT方法提供了理论支持与实践效能的结合,是迈向理论驱动的低秩适应的重要一步。
参数高效微调低秩适应Bernoulli-LoRA非凸优化联邦学习
VAE-DNN:参数化偏微分方程的节能可分部分训练代理模型
📝 作者: Yifei Zong, Alexandre M. Tartakovsky
📄 中文摘要:
本文提出了一种名为VAE-DNN的可分部分训练代理模型,用于求解正向和逆向参数化非线性偏微分方程(PDE)。该模型通过编码器将高维输入参数场降维到低维潜在空间,随后利用全连接神经网络将参数场的潜在空间映射到PDE解的潜在空间,最后通过解码器重构解场。VAE-DNN的创新之处在于其三个组成部分(编码器、神经网络和解码器)可以独立训练,相较于现有的操作符学习模型如FNO和DeepONet,显著降低了训练时间和能耗。编码器和解码器分别作为变分自编码器(VAE)的一部分进行训练,分别处理参数场和解场的数据。研究以描述地下水流的非线性扩散方程为案例,验证了VAE-DNN在正向和逆向问题求解中的性能。结果表明,VAE-DNN不仅在计算效率上优于FNO和DeepONet,而且在正向预测和逆向参数估计的精度上也表现出色。具体而言,VAE-DNN在Freyberg地下水模型的正向问题中实现了最低的相对误差(4.57×10^-4),并且在逆向问题中取得了最优的参数估计精度(相对误差1.44×10^-1)。此外,VAE-DNN的模块化设计降低了内存需求,便于迁移学习,适用于大规模PDE问题的求解。作者还探讨了非线性降维对复杂问题的重要性,指出VAE-DNN在潜在空间中求解逆向问题能够有效提高精度。总之,VAE-DNN为参数化PDE的高效求解提供了一种新的、节能且高精度的代理模型框架。
变分自编码器偏微分方程代理模型机器学习地下水流
数据驱动的频谱需求预测:基于迁移学习的时空框架
📝 作者: Amin Farajzadeh, Hongzhao Zheng, Sarah Dumoulin, Trevor Ha, Halim Yanikomeroglu, Amir Ghasemi
📄 中文摘要:
本文提出了一种创新的数据驱动频谱需求预测时空框架,旨在解决现代无线通信网络中频谱分配、监管规划及可持续发展的问题。随着5G、即将到来的6G以及物联网(IoT)等新兴技术的快速发展,频谱需求激增,准确预测频谱需求对政府和监管机构制定公平的频谱分配政策、改进拍卖机制至关重要。传统国际电信联盟(ITU)模型因依赖静态假设和不切实际的输入而存在局限性,难以适应动态和区域特定的场景。针对这一问题,本研究利用众包用户端关键性能指标(KPIs)和监管数据集,通过先进的特征工程、全面的相关性分析和迁移学习技术,构建了一个高效的预测模型。该框架不仅考虑了频谱利用的时空变化,还通过迁移学习提升了跨区域的泛化能力。实验结果表明,与ITU基准相比,该方法在预测精度和实际可操作性上表现更为优越,尤其是在加拿大渥太华等中型市场的测试中,预测准确率(归一化RMSE)高达85%,通过迁移学习进一步降低了15%的误差。研究还揭示了频谱需求对网络条件变化的延迟响应,验证了滞后回归特征集的有效性。最终,本文提出的框架为政策制定者和监管机构提供了更可靠的频谱管理工具,具有显著的实际应用价值。未来工作将进一步丰富KPIs数据集,扩展迁移学习至多国场景,并探索基于注意力机制的预测模型以实现持续自适应预测。
频谱需求预测数据驱动时空分析迁移学习无线通信
数据流中的预测导向子采样
📝 作者: Benedetta Lavinia Mussati, Freddie Bickford Smith, Tom Rainforth, Stephen Roberts
📄 中文摘要:
本文探讨了从数据流中进行智能子采样以支持离线学习的方法,特别是在终身学习场景中处理持续数据流的挑战。研究背景聚焦于数据流学习中的信息损失问题,指出在线学习虽然理论上具有吸引力,但实践中常因信息损失而表现不佳,而存储所有数据又因计算成本过高而不可行。因此,作者提出了一种基于信息论的预测导向子采样方法,旨在通过减少下游预测的不确定性来选择最具信息价值的样本。该方法与现有方法(如Sun等人2022年提出的信息论技术)形成对比,强调直接针对预测结果的信息增益,而非模型参数。研究通过在Split MNIST和Split CIFAR-10两个广泛使用的持续学习数据集上进行实验评估,验证了预测导向方法(特别是期望预测信息增益EPIG)相较于基线方法的性能优势。实验结果表明,EPIG在特定模型构造下(如使用随机森林作为预测头)能够显著提升预测准确性,但其效果高度依赖于模型设计,尤其是在不确定性估计方面的能力。作者还讨论了标签感知子采样(LA-EPIG)的理论和实践问题,指出其可能导致数据偏见和模型误指定,推荐EPIG作为更优选择。结论强调,预测导向子采样是数据流学习的有力工具,但需要在模型设计和计算效率上进一步优化,以确保在实际应用中的成功。
数据流学习子采样预测导向信息增益持续学习
从应用特性到解释需求:分析相关性与预测潜力
📝 作者: Martin Obaidi, Kushtrim Qengaj, Jakob Droste, Hannah Deters, Marc Herrmann, Jil Kl\"under, Elis
📄 中文摘要:
本研究探讨了在软件开发中,是否可以通过应用属性(如应用版本、评分、年龄限制、应用内购买等元数据)预测用户在应用评论中表达的解释需求,以支持早期需求挖掘和用户中心设计。研究基于一个包含4495条应用评论的黄金标准数据集,并结合元数据进行相关性分析,同时通过一个包含495条手动标注评论的验证数据集进行验证。结果表明,应用属性与解释需求之间大多仅存在弱相关性,仅在应用版本、评论数量和星级评分等特定属性上观察到中等程度的相关性。线性回归模型显示,基于应用属性的预测能力有限,无法在各种配置下实现可靠预测,其中“安全与隐私”和“系统行为”等类别表现出略高的预测潜力,而“交互”和“用户界面”类别预测难度最大。验证结果进一步确认了这些发现,强调了解释需求的上下文依赖性,单靠应用元数据难以准确推断。研究结论指出,开发者和需求工程师应将元数据分析与直接用户反馈相结合,以有效设计可解释且以用户为中心的软件系统。本研究为CrowdRE(基于人群的需求工程)提供了理论洞见,表明表面层面的元数据不足以捕捉用户特定的信息需求,未来需探索更丰富的数据源和先进的分析方法。
可解释性需求工程数据挖掘应用评论用户反馈
通过多任务学习校准葡萄物候预测的生物物理模型
📝 作者: William Solow, Sandhya Saisubramanian
📄 中文摘要:
准确预测葡萄物候对于葡萄园管理决策(如灌溉和施肥的时机)至关重要,以最大化作物产量和质量。传统的生物物理模型基于历史田间数据进行校准,可用于整个生长季的预测,但缺乏精细葡萄园管理所需的精度。深度学习方法是一种有前景的替代方案,但其性能受到稀疏物候数据集的限制,尤其是在品种层面。本研究提出了一种混合建模方法,将多任务学习与循环神经网络相结合,用于参数化可微分的生物物理模型。通过多任务学习预测生物物理模型的参数,该方法实现了跨品种的共享学习,同时保留了生物学结构,从而提高了预测的鲁棒性和准确性。使用真实世界和合成数据集进行的实证评估表明,该方法在预测物候阶段以及其他作物状态变量(如抗寒性和小麦产量)方面,显著优于传统的生物物理模型和基线深度学习方法。具体而言,该方法通过动态参数化生长度日(GDD)模型,结合每日天气特征,显著降低了预测误差,并在葡萄物候、抗寒性和小麦产量预测任务中表现出生物学一致性。此外,该方法对不同天气条件的鲁棒性以及对每个物候阶段和品种的预测准确性也得到了验证。研究结果表明,这种混合模型不仅提高了预测精度,还为农业决策提供了可靠的中程预测支持,具有广泛的实地应用潜力。未来工作将探索实时校准和不确定性量化方法,以进一步扩展其在其他领域的应用。
葡萄物候预测多任务学习生物物理模型深度学习农业决策支持
TROOP:面向低操作强度工作负载的向量处理器屋顶线性能优化
📝 作者: Navaneeth Kunhi Purayil, Diyou Shen, Matteo Perotti, Luca Benini
📄 中文摘要:
随着机器学习(ML)模型的快速发展,硬件加速器需要具备灵活性和高效性以应对快速的技术过时问题。向量处理器因其全可编程性以及通过数据并行性分摊指令获取和解码成本而实现的高能效,成为构建加速器的有前景选择。然而,当前最先进的向量处理元素(VPE)在L1内存带宽方面受限,仅在向量寄存器文件(VRF)中数据重用率高的计算内核(如通用矩阵乘法GEMM)上表现出高效率,而在数据重用率较低的工作负载(如通用矩阵-向量乘法GEMV)上性能不佳。本文提出了一种名为TROOP的硬件优化方案,旨在通过优化VPE微架构,充分利用L1内存接口的可用带宽,实现接近理想的利用率,即接近L1内存屋顶线性能。TROOP包括解耦的加载-存储接口、改进的向量链接、隐藏VRF冲突的影子缓冲区以及地址打乱技术,以在不牺牲面积和能效的前提下提升性能。作者在12nm FinFET技术的开源精简向量处理器上实现了TROOP,针对关键内存密集型内核(如GEMV、DOTP和AXPY)分别实现了1.5倍、2.2倍和2.6倍的显著加速,达到了屋顶线性能。此外,TROOP将能效提升了高达45%,对于DOTP内核在1GHz、TT、0.8V条件下达到了38 DP-GFLOPs/W,同时对GEMM保持了61 DP-GFLOPs/W的高能效,面积开销仅增加不到7%。研究表明,TROOP通过低成本的微架构优化有效提升了低操作强度工作负载的性能,为AI和机器学习应用中的内存密集型任务提供了重要改进,同时保持了对计算密集型任务的高效支持。
向量处理器屋顶线性能内存带宽微架构优化能效
通过揭示潜在解释结构实现基于距离的分类器的快速准确解释
📝 作者: Florian Bley, Jacob Kauffmann, Simon Le\'on Krug, Klaus-Robert M\"uller, Gr\'egoire M
📄 中文摘要:
本文针对基于距离的分类器(如k-最近邻和支持向量机)在机器学习中的广泛应用,提出了一种新的可解释人工智能(XAI)方法,以解决其预测解释的挑战。研究背景在于,尽管基于距离的分类器在科学和工业中被广泛使用,但其在输入空间中常呈现局部极值,阻碍了对预测策略的解释。作者通过将这些分类器重构为等效的神经网络,揭示了隐藏的潜在结构(包括线性检测单元和非线性池化层),从而为应用层级相关性传播(LRP)等XAI技术提供了基础。方法上,本文提出了两步策略:首先,将基于距离的分类器(如KNN和SVM)重写为神经网络,精确再现原始模型行为并暴露用于解释的潜在结构;其次,设计基于LRP的归因程序,利用这些结构解释模型预测与输入特征的关系。关键发现包括:通过定量评估,作者证明了新方法在解释准确性上优于多种基准方法,尤其是在高度非线性模型中表现突出;此外,该方法计算效率高,仅需相当于两次原始分类器评估的成本。文章还通过两个实际案例(葡萄酒质量分类和量子化学偶极矩预测)展示了该方法在揭示数据中复杂非线性关系的实用性。结论指出,该方法不仅提升了基于距离分类器的可解释性,还为数据科学中的非线性输入-输出关系推断提供了独特能力,可能对机器学习模型的实际应用产生重要影响。
可解释人工智能机器学习基于距离的分类器支持向量机k-最近邻
主动学习与迁移学习在时间序列数据异常检测中的应用
📝 作者: John D. Kelleher, Matthew Nicholson, Rahul Agrahari, Clare Conran
📄 中文摘要:
本文研究了主动学习与迁移学习相结合在跨域时间序列数据异常检测中的有效性,特别是在云服务监控数据中的应用。研究背景源于云系统高可用性需求,异常的早期检测对应用部署至关重要,但现代云系统产生的大量监控数据使得异常分析极具挑战性。监督学习需要大量标注数据,而标注成本高昂且不可扩展,因此作者提出通过迁移学习和主动学习解决标注数据获取问题。研究方法包括使用池基主动学习(Pool-Based Active Learning)从目标域中选择最具信息量的数据点进行标注,并结合迁移学习从源域数据训练初始模型,通过迭代更新提高模型性能。实验在六个时间序列数据集上进行,探讨了聚类与主动学习的交互、模型性能改进速率以及主动学习的上限性能。关键发现包括:主动学习与迁移学习结合时,单聚类(即不进行聚类)通常表现最佳;主动学习确实能提升模型性能,但改进速率较文献报道的慢,作者将其归因于改进的实验设计(分离采样和测试数据池);随着主动学习选择的数据点增加,性能初始提升后逐渐趋于平缓甚至下降,可能是由于后期加入的数据点信息量较低。结论指出,主动学习在异常检测中有效,但性能提升随标注数据量呈线性平缓趋势,且结合迁移学习可在某些情况下超越纯域内训练,但仍需大量目标域数据标注。
主动学习迁移学习异常检测时间序列数据云服务
通过机器学习实现人群动态的下一代无方程多尺度建模
📝 作者: Hector Vargas Alvarez, Dimitrios G. Patsatzis, Lucia Russo, Ioannis Kevrekidis, Constantinos Siettos
📄 中文摘要:
本研究提出了一种结合流形学习与机器学习的方法,用于从高保真的个体/基于代理的模拟中学习人群动态的离散演化算子,旨在解决人群动态中微观/个体与宏观/涌现建模尺度之间的桥梁问题。研究背景聚焦于人群动态建模中从微观到宏观的过渡挑战,传统的偏微分方程(PDE)方法依赖于简化假设,难以处理有限规模人群的异质性和复杂交互。本文提出的框架通过四阶段方法克服了这些限制:首先,利用核密度估计(KDE)从离散的行人位置数据生成连续的宏观密度场;其次,通过流形学习和主正交分解(POD)将宏观密度场映射到低维潜在空间;第三,在潜在空间中使用机器学习技术(如长短期记忆网络LSTM和多元自回归模型MVAR)学习降阶代理模型(ROMs);最后,通过POD重建将潜在空间动态提升回高维宏观密度空间,确保质量守恒。研究采用社会力模型(SFM)在带有障碍物的走廊场景中生成数据,并施加周期性边界条件。关键发现表明,POD重建能够明确保持质量守恒,线性MVAR模型在预测精度上优于非线性LSTM模型,同时具有更低的复杂性和更高的可解释性。数值结果显示该框架在预测精度、鲁棒性和泛化能力方面表现出色,实现了从基于代理的模拟到快速准确的人群动态建模/模拟的转变。结论指出,该方法通过学习不可用的宏观PDE的解算子而非显式方程,避免了高维系统的维度诅咒,为实时人群动态预测和控制提供了有效工具。
人群动态多尺度建模机器学习降阶模型质量守恒
基于上下文学习的马尔可夫链估计
📝 作者: Simon Lepage, Jeremie Mary, David Picard
📄 中文摘要:
本文研究了Transformer模型在仅通过下一token预测训练的情况下,是否能够通过上下文学习(In-Context Learning, ICL)掌握算法能力。作者以随机过渡矩阵的马尔可夫链为研究对象,训练Transformer模型预测下一个token,并确保训练和测试使用的过渡矩阵不同。研究发现,当模型规模和训练数据集达到一定阈值时,Transformer能够从上下文中估计过渡概率,而非仅仅记忆训练数据中的模式。此外,作者提出了一种基于置换的编码方案,通过对状态空间进行随机重标记,避免模型对单一马尔可夫链的过渡概率进行记忆,从而提升泛化能力。同时,提出了一种随机正交编码方法,使得模型在训练时仅接触单一结构马尔可夫链的情况下,也能泛化到具有不同结构(如状态数量或过渡统计特性不同)的马尔可夫链。实验结果表明,模型性能随着模型规模和训练数据量的增加,从过拟合(记忆训练数据)过渡到泛化(从上下文推断概率),并在不同状态数量和过渡统计特性的测试中表现出较强的鲁棒性。作者还分析了模型注意力机制中“归纳头”(Induction Heads)的出现与泛化能力的关系,指出适当的编码方式对模型学习上下文算法至关重要。结论表明,下一token预测任务足以让Transformer学习从上下文中估计马尔可夫链过渡概率,且通过创新的状态编码方法可显著提升模型的泛化能力。
上下文学习马尔可夫链Transformer模型过渡概率估计状态编码
FairPOT:通过比例最优传输平衡AUC性能与公平性
📝 作者: Pengxi Liu, Yi Shen, Matthew M. Engelhard, Benjamin A. Goldstein, Michael J. Pencina, Nicoleta J. Ec
📄 中文摘要:
在医疗、金融和刑事司法等高风险领域,基于接收者操作特征曲线面积(AUC)的公平性度量日益受到关注。然而,严格执行公平性往往会导致AUC性能的显著下降。为解决这一问题,本研究提出了一种新颖的模型无关后处理框架——公平比例最优传输(FairPOT)。该方法通过最优传输策略性地调整不同群体间的风险分数分布,特别地,仅对弱势群体中可控比例(即前λ分位数)的分数进行转换。通过调整参数λ,FairPOT能够在减少AUC差异和维持整体AUC性能之间实现可调的权衡。此外,本研究将FairPOT扩展到部分AUC(pAUC)场景,使得公平性干预能够集中在最高风险区域。研究背景表明,机器学习在高风险决策中的应用引发了对偏见和公平性的广泛关注,尤其是在风险分数而非二元结果的评估中。FairPOT的主要方法是利用最优传输技术,仅对弱势群体的一部分分数进行调整,从而避免对优势群体的修改,并精确控制干预程度。在合成数据集、公开数据集和临床数据集上的广泛实验表明,FairPOT在全局AUC和部分AUC场景中均持续优于现有的后处理技术,通常在公平性提升的同时仅导致轻微的AUC下降,甚至在某些情况下带来性能提升。关键发现包括FairPOT在多个数据集上实现了更优或相当的帕累托前沿,特别是在部分AUC设置中,能够同时提升公平性和预测性能。计算效率和实际适应性使FairPOT成为现实世界部署的潜在解决方案。结论指出,FairPOT提供了一种简单而灵活的方法来改善风险分数的公平性,同时保持模型性能,为高风险决策提供了更公平和有效的干预手段。
公平性最优传输AUC风险分数机器学习
BubbleONet:一种用于高频气泡动力学的物理信息神经算子
📝 作者: Yunhao Zhang, Lin Cheng, Aswin Gnanaskandan, Ameya D. Jagtap
📄 中文摘要:
本文提出了一种名为BubbleONet的算子学习模型,旨在将输入函数空间中的压力分布映射到相应的气泡半径响应上。BubbleONet基于物理信息深度算子网络(PI-DeepONet)框架,结合了DeepONet强大的算子学习通用逼近能力以及物理信息神经网络提供的稳健物理保真性。为了缓解深度学习中固有的频谱偏差,BubbleONet集成了Rowdy自适应激活函数,从而改进了对高频特征的表示能力。研究在多种场景下对模型进行了评估,包括:(1) 基于Rayleigh-Plesset方程的单一初始半径气泡动力学;(2) 基于Keller-Miksis方程的单一初始半径气泡动力学;(3) 基于Keller-Miksis方程的多种初始半径气泡动力学。此外,研究还探讨了BubbleONet的单步训练与两步训练技术的性能对比。结果表明,BubbleONet作为一种替代传统数值求解器的代理模型,在模拟气泡动力学方面表现出色,提供了计算效率更高的解决方案。研究还发现,Rowdy激活函数有效缓解了频谱偏差,使模型能够在广泛的压力幅度和频率范围内准确预测气泡动力学;两步训练方法显著提升了训练过程的效率,并在验证、插值和外推场景中保持了相当的精度。然而,模型在共振频率下的气泡动力学预测以及对未见时间域的泛化能力仍存在局限性,未来研究将致力于解决这些挑战以提升模型的适应性和泛化能力。
物理信息神经网络气泡动力学算子学习Rayleigh-Plesset方程Keller-Miksis方程
通过代理概念瓶颈模型将专家认知模型转移到社交机器人
📝 作者: Xinyu Zhao, Zhen Tan, Maya Enisman, Minjae Seo, Marta R. Durantini, Dolores Albarracin, Tianlong Che
📄 中文摘要:
本研究提出了一种创新的社交机器人辅助系统,旨在通过代理概念瓶颈模型(CBM)将专家的认知模型转移到机器人中,以协助人类主持人在在线群体干预会议中进行实时指导。研究背景聚焦于群体会议中促进个体目标设定与执行以及加强社交关系的复杂需求,传统主持人在面对社会互动的微妙动态时常承受巨大的认知负荷,而现有的基础模型(FMs)虽能识别社交线索,但其“黑箱”性质限制了在高风险环境中的应用。为此,本文开发了一种社交机器人共同主持人,利用多模态会议数据分析,通过透明的CBM模型基于人类可解释的概念(如参与度、情感)进行决策,并向主持人提供 discreet 提示。主要方法包括一个转移学习框架,将通用基础模型的广泛社交理解提炼为专门的CBM,确保决策透明性和可信度,同时支持实时人类校正。关键发现表明,该系统在预测干预需求方面显著优于直接零样本或少样本基础模型,表现出近乎完美的召回率(0.991),并能跨不同群体和主持人经验水平实现稳健的知识转移。此外,系统生成的干预建议具有上下文相关性和可操作性,符合专家策略,且其透明架构允许人类通过概念层面的干预提升预测准确性。结论指出,该研究不仅为复杂社交领域的人机协作提供了有力蓝图,还为新手主持人的培训、心理健康支持的公平获取以及计算社会科学研究开辟了新路径。尽管存在概念定义依赖专家和未整合多模态数据的局限,未来研究可探索半监督概念发现和跨文化适应性。
社交机器人概念瓶颈模型转移学习人机协作群体干预
联邦学习中的解耦对比学习
📝 作者: Hyungbin Kim, Incheol Baek, Yon Dohn Chung
📄 中文摘要:
联邦学习(Federated Learning, FL)是一种分布式机器学习范式,允许多个参与方在不共享原始数据的情况下,通过交换模型更新来训练共享模型。然而,由于客户端间数据异构性(non-IID),其性能相较于集中式方法有所下降。对比学习作为一种缓解数据异构性影响的有前景方法,近年来受到关注,但本文通过理论分析揭示了其在联邦学习有限样本环境下的根本冲突:传统对比学习依赖于无限负样本的渐近假设,而联邦学习中每个客户端的数据量有限,违背了这一假设。为解决这一问题,本文提出了一种新颖的框架——联邦学习中的解耦对比学习(Decoupled Contrastive Learning for Federated Learning, DCFL)。DCFL将传统对比损失解耦为两个独立目标:对齐(alignment)和均匀性(uniformity),通过两个超参数分别校准吸引力和排斥力,避免了对渐近假设的依赖。这种设计使得对比学习更适用于数据量有限的联邦学习环境。实验结果表明,DCFL在正样本对齐和负样本均匀性方面优于现有对比学习方法。在CIFAR-10、CIFAR-100和Tiny-ImageNet等标准基准数据集上的测试显示,DCFL在不同数据异构性条件下持续优于最先进的联邦学习方法,特别是在高异构性场景下表现出显著的性能提升。此外,通过余弦相似性分析,DCFL在特征表示的对齐和均匀性上均表现出色。总之,DCFL为联邦学习中的鲁棒表示学习提供了一种理论上合理且实践有效的解决方案,具有重要的应用潜力。
联邦学习对比学习数据异构性解耦损失表示学习
通过FDTD仿真和可解释机器学习方法实现金属-介电多层结构中可调等离子体吸收
📝 作者: Emmanuel A. Bamidele
📄 中文摘要:
本文研究了金属-介电多层结构中的等离子体吸收特性,结合有限差分时域(FDTD)仿真和机器学习(ML)方法,对由SiO2、金(Au)、银(Ag)和氧化铟锡(ITO)组成的多层等离子体堆栈的吸收功率行为进行了模拟和预测。研究背景聚焦于等离子体器件在纳米光子学中的重要性,利用光与金属自由电子的共振相互作用实现光捕获和电磁场限制,但其复杂的非线性光学响应建模计算成本高昂。研究方法包括通过FDTD仿真解决麦克斯韦方程,生成空间吸收图和集成功率指标,探索Au和Ag层厚度(10-50 nm)在300-1500 nm光谱范围内的影响;同时,采用多层感知器(MLP)和卷积神经网络(CNN)分别预测全局吸收行为(MAE为0.0953)和空间吸收分布(MAE为0.0101)。关键发现表明,等离子体层厚度和激发波长是吸收的主要影响因素,吸收峰值在450-850 nm之间,金的吸收范围更广且持续性更强,而银在共振窗口外效率较低。SHapley Additive exPlanations(SHAP)分析进一步揭示了各参数对吸收性能的影响,为设计优化提供了物理洞察。结论指出,这一集成FDTD-ML框架提供了一种快速、可解释且准确的方法,用于研究多层系统中的可调等离子体行为,在光学传感、光伏和纳米光子器件设计中具有广泛应用前景。通过理论、仿真和机器学习的协同作用,本研究为等离子体器件工程提供了新思路,加速了复杂光子薄膜的设计与优化。
等离子体吸收金属-介电多层FDTD仿真机器学习纳米光子学
CORE-ReID V2:通过优化训练和集成融合推进对象重识别的领域适应
📝 作者: Trinh Quoc Nguyen, Oky Dicky Ardiansyah Prima, Syahid Al Irfan, Hindriyanto Dwi Purnomo, Radius Tano
📄 中文摘要:
本研究提出了CORE-ReID V2框架,作为CORE-ReID的增强版本,旨在解决无监督领域适应(UDA)在人员重识别(Person ReID)和车辆重识别(Vehicle ReID)中的挑战,并进一步扩展到一般对象重识别(Object ReID)。研究背景聚焦于对象重识别中跨领域知识迁移的难题,特别是在源域和目标域之间存在显著分布差异的情况下。CORE-ReID V2通过两个主要阶段改进性能:预训练阶段利用CycleGAN生成多样化数据,以弥合不同领域间的图像特征差距;微调阶段引入了先进的集成融合机制(Ensemble Fusion++),结合高效通道注意力块(ECAB)和简化高效通道注意力块(SECAB),增强局部和全局特征表示,同时减少目标样本伪标签的模糊性。此外,框架采用教师-学生架构和Greedy KMeans++初始化策略,进一步优化伪标签生成和聚类质量。实验结果表明,在多个广泛使用的UDA数据集(如Market-1501、CUHK03、MSMT17、VeRi-776和VehicleID)上,CORE-ReID V2在平均精度均值(mAP)和排名准确率(Rank-k)指标上均显著优于现有最先进方法。框架还支持轻量级骨干网络(如ResNet18和ResNet34),确保了可扩展性和效率。结论指出,CORE-ReID V2不仅推动了基于UDA的对象重识别领域的发展,还为未来的研究奠定了坚实基础,尽管其在更广泛数据集和复杂场景中的适用性仍需进一步探索。
对象重识别无监督领域适应人员重识别车辆重识别深度学习
面向全局可预测的k空间插值:一种白盒Transformer方法
📝 作者: Chen Luo, Qiyu Jin, Taofeng Xie, Xuemei Wang, Huayu Wang, Congcong Liu, Liming Tang, Guoqing Chen, Z
📄 中文摘要:
本文提出了一种名为GPI-WT(Globally Predictable Interpolation - White-box Transformer)的创新方法,用于加速磁共振成像(MRI)中的k空间插值。研究背景源于MRI数据采集时间长的问题,通常只能获取部分k空间数据,而传统方法如基于卷积神经网络(CNN)的深度学习方法主要利用局部可预测性,忽略了k空间中固有的全局依赖性。受Transformer模型在自然语言处理和图像分析中捕捉长距离依赖能力的启发,本文首次将白盒Transformer应用于k空间插值,以更好地利用其全局结构。研究方法上,作者从湮灭(annihilation)视角出发,构建了一个新颖的k空间结构化低秩(SLR)模型,将全局湮灭滤波器作为可学习参数,并通过SLR模型的子梯度自然诱导了可学习的注意力机制。通过将基于子梯度的优化算法展开为级联网络,构建了首个专为加速MRI设计的白盒Transformer。实验结果表明,GPI-WT在k空间插值精度上显著优于现有最先进方法,同时提供了更高的可解释性。关键发现包括:该方法有效捕捉了k空间中的长距离依赖性,减少了伪影,提升了图像重建质量,尤其是在不同欠采样模式下的表现尤为突出。作者还通过消融实验验证了线性窗口划分和局部预测模块等关键组件的作用。结论指出,GPI-WT为MRI重建提供了一种理论上有依据且性能优越的解决方案,未来工作将扩展到图像域的白盒Transformer研究。
白盒Transformerk空间插值磁共振成像全局依赖性结构化低秩模型
通过生成式AI实现个性化知识转移:将学习情境化与个人职业目标相结合
📝 作者: Ronja Mehlan, Claudia Hess, Quintus Stierstorfer, Kristina Schaaff
📄 中文摘要:
本研究探讨了基于生成式人工智能(GenAI)的学习系统如何通过将学习内容与学习者的个人职业目标对齐来提升学习参与度、满意度和学习效率。研究背景源于全球劳动力市场的快速变化,传统教育系统往往无法满足学习者的多样化需求,而个性化教育被认为是提高学习成果的关键。研究采用混合方法实验,涉及超过4000名学习者,分为两组:一组接受与职业目标相关的个性化学习场景,另一组为对照组,接受标准内容。实验使用IU应用科学国际大学开发的AI学习助手Syntea,通过生成式语言模型动态调整内容以匹配学习者的职业志向。定量结果显示,个性化组的学习者会话时长增加、满意度评分(净推荐值NPS)更高,且学习时长略有缩短。定性分析进一步揭示,学习者认为个性化材料具有激励性和实用性,促进了深层认知参与和对内容的强烈认同感。研究还讨论了理论基础,如自我决定理论和期望-价值理论,强调目标相关性和自主性对持续动机和有效学习的重要性。尽管考试成绩无显著差异,但学习时长的缩短表明个性化可能提升学习效率。研究局限性包括依赖自报职业目标、单一机构背景以及个性化逻辑的简单性。结论指出,GenAI在教育中的应用不仅能优化学习过程,还能通过与身份对齐的个性化设计丰富学习体验,未来需进一步研究长期效果和伦理问题。
生成式人工智能个性化学习教育技术职业目标自适应学习
揭示大型语言模型在推理任务微调中的过度记忆现象
📝 作者: Zhiwen Ruan, Yun Chen, Yutao Hou, Peng Li, Yang Liu, Guanhua Chen
📄 中文摘要:
本文研究了大型语言模型(LLMs)在推理任务微调过程中的学习动态,揭示了一种被称为“过度记忆”的现象。在微调的特定阶段,模型过度记忆训练数据,导致测试困惑度(perplexity)显著上升,但测试准确率却保持较高水平。研究通过实验分析了导致过度记忆的条件,发现训练轮数(epochs)和较大的学习率是主要诱因。较高的学习率会加速过度记忆的出现,而较低的学习率在训练时间足够长时也会导致类似现象。此外,过度记忆现象在不同任务、模型架构及微调方法(如全参数微调和LoRA方法)中普遍存在。尽管过度记忆模型在域内测试中表现出与正常模型相当的准确率,但其鲁棒性降低,域外泛化能力较差,且生成多样性受限。研究进一步探讨了模型规模和数据集大小对过度记忆的影响,发现较大模型和数据集更容易出现该现象,但最优学习率会随之减小。基于这些发现,作者提出了关于检查点选择和学习率配置的建议,强调在微调过程中应综合考虑准确率和困惑度,避免过度依赖单一指标。研究结论指出,过度参数化的大型语言模型在微调中展现出与传统机器学习模型不同的学习动态,呼吁未来进一步探索其训练和泛化机制。本文为从业者提供了重要的实践指导,有助于提升模型的可靠性和泛化能力。
大型语言模型微调过度记忆推理任务泛化能力
ICM-Fusion:上下文元优化LoRA融合用于多任务适应的研究
📝 作者: Yihua Shao, Xiaofeng Lin, Xinwei Long, Siyu Chen, Minxi Yan, Yang Liu, Ziyang Yan, Ao Ma, Hao Tang,
📄 中文摘要:
本文提出了一种名为In-Context Meta LoRA Fusion (ICM-Fusion)的新框架,旨在解决预训练低秩适应(LoRA)模型在多任务适应中的泛化能力问题。研究背景聚焦于现有LoRA融合方法在权重矩阵分解和参数共享过程中引发的权重冲突及领域遗忘问题,尤其是在少样本场景下泛化能力不足的挑战。ICM-Fusion通过结合元学习和上下文适应,创新性地引入任务向量算术方法,通过学习流形投影动态平衡跨领域的冲突优化方向,并在潜在空间中调整任务向量方向以获得最优融合模型取向。随后,利用自设计的Fusion VAE (F-VAE)重建融合后的LoRA参数,实现多任务LoRA生成。研究方法包括任务向量提取、潜在空间编码以及上下文元学习优化,确保模型在多任务场景下减少冲突和遗忘,同时提升泛化能力。实验结果表明,ICM-Fusion在视觉和语言任务上表现出色,相较于现有预训练LoRA融合方法显著降低了多任务损失,并在少样本场景中实现了任务增强。ICM-Fusion不仅适用于多种模型架构,还能在计算资源需求较低的情况下保持高效性能。结论指出,该框架为参数高效的模型统一提供了理论和实证支持,为未来多任务系统在跨领域知识共享和少样本任务增强方面的应用奠定了基础。
LoRA融合多任务适应元学习上下文学习少样本学习
半监督深度域适应用于预测不同地点太阳能发电
📝 作者: Md Shazid Islam, A S M Jahid Hasan, Md Saydur Rahman, Md Saiful Islam Sajol
📄 中文摘要:
本文提出了一种半监督深度域适应框架,用于在不同地理位置预测太阳能发电,解决了由于气象条件差异导致的域偏移问题。研究背景是全球能源消耗的快速增长和对可再生能源(如太阳能)的迫切需求,而太阳能发电预测因地理和天气特征的差异而面临挑战,传统机器学习模型难以实现位置无关的预测。作者通过在源位置数据上训练深度卷积神经网络,并采用无源、教师-学生模型配置将其适应到目标位置,提出了一种创新方法。该方法利用一致性损失和交叉熵损失进行半监督学习,仅需目标域少量标注数据即可实现有效适应,无需源数据支持。实验在加利福尼亚、佛罗里达和纽约三个具有不同气象特征的美国州进行,验证了模型的鲁棒性。结果表明,仅标注目标域20%数据时,相较于非适应方法,预测准确率分别提高了11.36%、6.65%和4.92%。此外,无源适应设置提高了计算效率并保障了数据隐私。结论指出,该框架在减少标注成本的同时显著提升了预测性能,为可再生能源预测领域提供了实用价值,并展示了域适应技术在解决跨位置预测问题中的潜力。
域适应深度学习太阳能发电半监督学习域偏移
指纹识别的一小步,质谱数据生成新分子的一大步
📝 作者: Neng Kai Nigel Neo, Lim Jing, Ngoui Yong Zhau Preston, Koh Xue Ting Serene, Bingquan Shen
📄 中文摘要:
本文提出了一种从质谱数据进行从头分子生成(de novo molecule generation)的新方法,针对传统方法在处理数据库中未见化合物时的局限性,采用了两阶段流水线:首先将质谱数据编码为分子指纹(molecular fingerprints),然后将指纹解码为分子结构。研究团队选择了MIST(Goldman等人,2023)作为编码器,MolForge(Ucak等人,2023)作为解码器,并通过预训练显著提升了解码器的性能。创新点在于对指纹概率进行阶跃函数阈值处理,聚焦于子结构的存在,从而提高了解码器对噪声或部分正确指纹的鲁棒性,即使MIST预测的指纹与真实指纹的Tanimoto相似度仅为中等水平,也能恢复准确的分子结构。实验结果表明,该方法在MassSpecGym数据集上的表现远超现有技术,top-1准确率达到28%,top-10准确率达到36%,较之前最先进方法提升了约十倍。此外,研究还强调了预训练对解码器泛化能力和结构恢复的重要性,并指出质谱到指纹编码阶段是当前流水线的瓶颈,未来改进空间较大。作者将该流水线定位为从头分子结构预测领域的重要基准,并建议进一步研究质谱到指纹的编码技术以提升整体性能。这一研究为代谢组学和环境化学等领域中未知化合物的鉴定提供了强有力的工具。
从头分子生成质谱数据分子指纹机器学习预训练
通过随机交替最小化和可训练步长进行神经网络训练
📝 作者: Chengcheng Yan, Jiawei Xu, Zheng Peng, Qingsong Wang
📄 中文摘要:
本文提出了一种新的深度神经网络训练方法——随机交替最小化与可训练步长(SAMT),旨在解决传统随机梯度下降(SGD)方法在非凸优化问题中的不稳定收敛和高计算成本问题。研究背景聚焦于神经网络训练中参数更新的复杂性,传统的SGD方法需要同时更新所有参数,导致训练不稳定且计算开销大。SAMT方法通过将网络参数按层划分为块,采用交替更新的方式,将整体优化问题分解为多个子问题,从而降低每次更新的计算开销并提高非凸环境下的训练稳定性。受元学习启发,本文进一步提出了一种自适应步长策略,允许步长以标量、逐元素、逐行或逐列等多种形式进行训练,通过元学习为每个块量身定制步长选择。此外,作者提供了SAMT算法的理论收敛性保证,证明了其优化可靠性。实验部分在多个基准数据集(如MNIST、CIFAR-10等)上进行了广泛测试,涵盖MLP和CNN等多种网络结构。结果表明,SAMT在泛化性能上优于现有最先进方法,以较少的参数更新次数取得了更高的测试精度,尤其在高维网络结构中表现出更强的鲁棒性。作者还通过消融研究和参数敏感性分析进一步验证了方法的有效性。结论指出,SAMT不仅在理论上具有收敛保证,而且在实际应用中展现出显著优势,为神经网络优化提供了新的思路和潜力。
神经网络随机交替最小化元学习可训练步长收敛分析
电路感知的SAT求解:通过条件概率引导CDCL
📝 作者: Jiaying Zhu, Ziyang Zheng, Zhengyuan Shi, Yalun Cai, Qiang Xu
📄 中文摘要:
电路可满足性(CSAT)在电子设计自动化(EDA)中扮演着关键角色。传统的CSAT问题求解流程将电路转换为合取范式(CNF),并使用基于冲突驱动子句学习(CDCL)的通用SAT求解器。然而,这一过程会丢失电路中丰富的结构和功能信息,导致求解器性能不佳。为解决这一问题,本文提出了一种新颖的电路感知SAT求解框架CASCAD,该框架直接利用通过图神经网络(GNN)计算的电路级条件概率。通过显式建模门级条件概率,CASCAD动态引导CDCL中的两个关键启发式策略——变量相位选择和子句管理,从而显著提升求解效率。在具有挑战性的现实世界逻辑等价性检查(LEC)基准测试中,CASCAD的求解时间相比最先进的基于CNF的方法减少了高达10倍,并且通过概率引导的子句过滤策略进一步实现了23.5%的运行时间减少。实验结果强调了在SAT求解器中保留电路级结构信息的重要性,为未来提升SAT求解效率和EDA工具设计提供了坚实的基础。本研究不仅展示了电路感知方法在提升求解性能方面的潜力,也为将机器学习技术与传统SAT求解相结合开辟了新的研究方向。
电路可满足性电子设计自动化图神经网络冲突驱动子句学习条件概率
基于敏感性分析的交互式模型解释可视化工具
📝 作者: Manuela Schuler
📄 中文摘要:
本文提出了一种基于Python的工具SAInT,旨在通过集成的局部和全局敏感性分析,帮助用户以可视化方式探索和理解机器学习(ML)模型的行为。该系统支持人机交互(Human-in-the-Loop, HITL)工作流程,使人工智能研究人员和领域专家能够在无需编程的情况下,通过交互式图形界面配置、训练、评估和解释模型。SAInT工具自动化了模型训练和选择过程,利用基于方差的敏感性分析提供全局特征归因,并通过LIME和SHAP方法为单个实例提供解释。作者以泰坦尼克号数据集上的生存预测分类任务为例,展示了该系统的应用,并阐述了敏感性信息如何指导特征选择和数据优化。通过这种方式,SAInT不仅降低了机器学习模型解释的技术门槛,还增强了用户对模型决策过程的理解和信任。研究结果表明,该工具在帮助用户识别关键特征、改进模型性能以及提高模型透明度方面具有显著价值。作者还讨论了该工具在实际应用中的潜在扩展性,例如支持更复杂的模型和数据集,以及与其他解释性工具的集成可能性。总之,SAInT为机器学习模型的可解释性研究提供了一种直观且高效的解决方案,有助于推动人工智能领域的透明度和用户参与度。
机器学习模型解释敏感性分析可视化工具人机交互
长度至关重要:面向时间句子定位的长度感知变换器
📝 作者: Yifan Wang, Ziyi Liu, Xiaolong Sun, Jiawei Wang, Hongmin Liu
📄 中文摘要:
时间句子定位(Temporal Sentence Grounding, TSG)是一项极具挑战性的任务,旨在从未剪辑的视频中定位与给定自然语言描述相对应的时间片段。基于DETR(DEtection TRansformer)的模型通过可学习查询的设计,在TSG任务中取得了显著进展。然而,由于缺乏显式监督,学习到的查询往往在角色上重叠,导致预测冗余。为解决这一问题,本文提出通过利用视频-描述对的长度先验,使每个查询履行其指定角色,从而改进TSG任务。具体而言,本文引入了长度感知变换器(Length-Aware Transformer, LATR),该方法将不同的查询分配给基于不同时间长度的预测任务。所有查询被分为三组,分别负责处理短、中、长三种时间跨度的片段。在训练过程中,引入了额外的长度分类任务,抑制长度不匹配的查询预测,引导每个查询专注于其指定功能。广泛的实验验证了LATR的有效性,在三个公开基准数据集上取得了最先进的性能。此外,消融研究进一步证实了方法中各组件的贡献以及将长度先验融入TSG任务的关键作用。通过这种方式,LATR不仅提升了预测的准确性,还增强了模型对时间跨度多样性的适应能力,为TSG任务提供了一种新颖且高效的解决方案。
时间句子定位长度感知变换器视频理解自然语言处理可学习查询
WSS-CL:基于权重显著性软引导对比学习的图像分类高效机器遗忘方法
📝 作者: Thang Duc Tran, Thai Hoang Le
📄 中文摘要:
机器遗忘,即在已训练模型中高效删除特定数据的影响,是一个具有挑战性的问题。当前的机器遗忘方法主要集中于数据中心或基于权重的策略,但往往在实现精确遗忘、保持稳定性和跨领域适用性方面遇到困难。本研究提出了一种新的两阶段高效机器遗忘方法,专门针对图像分类任务,通过权重显著性来聚焦于关键模型参数的遗忘过程。该方法被称为权重显著性软引导对比学习(WSS-CL),显著缩小了与“精确”遗忘的性能差距。第一阶段是遗忘阶段,通过最大化输出逻辑值与聚合伪标签之间的Kullback-Leibler散度,在逻辑空间中实现高效遗忘。第二阶段是对抗性微调阶段,以自监督方式引入对比学习。通过使用缩放的特征表示,在特征空间中最大化遗忘数据样本与保留数据样本之间的距离,其中遗忘样本与配对增强样本作为正样本对,而保留样本作为对比损失计算中的负样本对。实验评估表明,与现有最先进方法相比,所提出的方法在遗忘效果上显著提升,同时性能损失微乎其微,表明其在监督和自监督设置中的实用性。该方法不仅提高了遗忘效率,还在维持模型整体性能方面表现出色,为机器遗忘领域提供了一种创新且实用的解决方案。
机器遗忘权重显著性对比学习图像分类自监督学习
持续多实例学习在血液病诊断中的应用
📝 作者: Zahra Ebrahimi, Raheleh Salehi, Nassir Navab, Carsten Marr, Ario Sadafi
📄 中文摘要:
在实验室和临床环境中,数据流每天不断涌入,要求定期更新训练好的机器学习模型以保持性能一致性。持续学习旨在帮助模型在不发生灾难性遗忘的情况下进行训练。然而,当前最先进的方法对于多实例学习(MIL)效果不佳,而MIL常用于基于单细胞的血液病诊断(如白血病检测)。本文提出了一种专门针对MIL的持续学习方法,这是该领域的首次尝试。我们的方法基于对来自不同袋(bag)的单个实例的选择性回放,结合实例注意力分数、与袋均值和类别均值向量的距离,精心挑选要存储在先前任务示例集中的样本和实例,以保持数据的多样性。我们使用来自白血病实验室的一个月真实数据作为输入,在类别增量场景下研究了该方法的有效性,并将其与已知的持续学习方法进行了比较。结果表明,我们的方法显著优于现有最先进的方法,为MIL提供了首个持续学习方案。这使得模型能够适应随时间变化的数据分布,例如由疾病发生率变化或潜在遗传变异引起的变化。通过这种方法,可以在动态环境中持续更新诊断模型,确保其在血液病检测中的准确性和可靠性,为临床诊断提供了重要的技术支持。
持续学习多实例学习血液病诊断白血病检测数据分布适应
ProtoN:用于无约束多印象耳部识别的原型节点图神经网络
📝 作者: Santhoshkumar Peddi, Sadhvik Bathini, Arun Balasubramanian, Monalisa Sarma, Debasis Samanta
📄 中文摘要:
耳部生物识别技术作为一种稳定且无接触的身份识别方式,因其标注数据稀缺和类内变异性大而受到限制。传统方法通常孤立地从单个印象中提取身份特征,限制了其捕获一致且具有区分性的表征能力。为解决这一问题,本文提出了一种少样本学习框架ProtoN,通过基于图的方法联合处理同一身份的多个印象。每个印象在特定类别的图中被表示为一个节点,同时引入一个可学习的原型节点来编码身份级别的信息。该图由专门设计的原型图神经网络(PGNN)层处理,通过双路径消息传递机制优化印象和原型表征。为进一步提升区分能力,PGNN采用了跨图原型对齐策略,通过增强类内紧凑性和保持类间区分性来提高类别可分性。此外,采用混合损失函数平衡 episodic 和全局分类目标,从而改善嵌入空间的整体结构。在五个基准耳部数据集上的广泛实验表明,ProtoN取得了最先进的性能,Rank-1识别准确率高达99.60%,等错误率(EER)低至0.025,证明了其在数据有限条件下的少样本耳部识别的有效性。本研究为耳部生物识别领域提供了一种创新的解决方案,尤其在数据稀缺场景下展现出显著优势,为未来的身份识别技术发展奠定了基础。
耳部识别少样本学习图神经网络原型节点生物识别
多任务Transformer模型的高效任务间注意力机制
📝 作者: Christian Bohn, Thomas Kurbiel, Klaus Friedrichs, Hasan Tercan, Tobias Meisen
📄 中文摘要:
在计算机视觉和更广泛的深度学习领域,Transformer架构已被确立为许多应用的最新技术。然而,在多任务学习中,由于查询数量可能远多于单任务模型,其多头注意力机制在实际硬件限制下往往接近计算可行性的极限。这是因为注意力矩阵的大小随着任务数量的增加呈二次方增长(假设所有任务的查询数量大致相等)。为解决这一问题,本文提出了一种新颖的可变形任务间自注意力机制,用于多任务模型,以便更高效地聚合不同任务特征图之间的信息。在NYUD-v2和PASCAL-Context数据集上的实验表明,该方法在浮点运算次数(FLOPs)和推理延迟方面实现了数量级的降低。同时,在各个任务的预测质量指标上也取得了高达7.4%的显著改进。这一研究不仅提升了多任务Transformer模型的计算效率,还在保持甚至提升任务性能的同时,为实际应用中的硬件限制提供了有效的解决方案。作者通过实验验证了该方法的有效性,展示了其在多任务学习中的潜力,尤其是在需要处理大量任务和复杂数据场景下的应用价值。结论指出,该方法为未来的多任务学习模型设计提供了新的思路,可能进一步推动Transformer架构在资源受限环境下的广泛应用。
多任务学习Transformer模型任务间注意力计算效率深度学习
GradSTL:用于神经符号推理与学习的全面信号时序逻辑
📝 作者: Mark Chevallier, Filip Smola, Richard Schmoetten, Jacques D. Fleuriot
📄 中文摘要:
本文提出了GradSTL,这是首个完全全面的信号时序逻辑(STL)实现,适用于与神经符号学习的集成。GradSTL能够成功评估任何信号上的任何STL约束,无论信号如何采样。其方法通过形式化验证,定义了张量上的平滑STL语义,并提供了关于其正确性及导数函数的正式证明。GradSTL的实现是从这一形式化定义中自动生成的,无需手动编码,从而通过构造保证了正确性。通过一个案例研究,作者展示了使用GradSTL实现,一个神经符号过程能够学习满足预先指定的STL约束。研究背景在于信号时序逻辑与机器学习的结合需求,特别是在需要处理复杂时序约束的场景中,传统的学习方法往往难以直接应对此类问题。GradSTL通过提供一个形式化且可微分的框架,使得基于梯度下降的学习方法能够直接优化STL约束的满足度。其关键发现包括:该方法不仅在理论上保证了语义的平滑性和导数的正确性,而且在实际应用中展现了高效性和可靠性。作者得出结论,GradSTL为信号时序逻辑与学习方法的深度集成提供了高度严谨的基础,可能在自动驾驶、智能控制等领域产生重要影响。这一工作为未来的研究奠定了理论和实践基础,尤其是在需要结合符号推理和数据驱动学习的复杂系统中。
信号时序逻辑神经符号学习梯度下降形式化验证张量语义
GFocal:一种用于解决任意几何形状偏微分方程的全局-局部神经算子
📝 作者: Fangzhi Fei, Jiaxin Hu, Qiaofeng Li, Zhenyu Liu
📄 中文摘要:
基于Transformer的神经算子作为偏微分方程(PDE)的代理求解器,近年来展现出显著潜力,其核心在于Transformer在捕捉长距离依赖和全局相关性方面的强大能力,这种能力已在语言建模领域得到充分验证。然而,现有方法往往忽略了局部物理细节与全局特征之间相互依赖的协同学习,而这种协同学习对于解决多尺度问题、保持物理一致性、确保长期预测的数值稳定性以及准确捕捉过渡动态至关重要。本研究提出了一种基于Transformer的神经算子方法GFocal,该方法通过同时进行全局和局部特征的学习与融合,强化了模型能力。GFocal利用基于Nyströ m注意力机制的全局模块和基于切片的局部模块,生成具有物理感知能力的令牌(tokens),并通过基于卷积的门控模块对这些令牌进行调制和整合,从而实现多尺度信息的动态融合。GFocal能够在任意几何形状和初始条件下实现物理特征的精确建模与预测。实验结果表明,GFocal在六个基准测试中的五个取得了平均15.2%的相对性能提升,达到业界领先水平。此外,GFocal在工业规模的仿真任务(如汽车和机翼的空气动力学仿真)中也表现出色,展现了其在实际应用中的强大潜力。本研究为偏微分方程的神经求解提供了一种创新且高效的工具,具有重要的理论和应用价值。
神经算子偏微分方程Transformer多尺度建模空气动力学仿真
谁在减排,谁在升温?能源效率干预措施的因果机器学习估计
📝 作者: Bernardino D'Amico, Francesco Pomponi, Jay H. Arehart, Lina Khaddour
📄 中文摘要:
降低家庭能源需求是气候缓解和燃料贫困策略的核心,但能源效率干预措施的效果具有高度异质性。本研究利用因果机器学习模型,基于英格兰住房存量的全国代表性数据,估计了墙体保温对燃气消耗的平均和条件处理效应,重点关注能源负担亚组之间的分布效应。研究发现,干预措施平均而言能够减少燃气需求(最高达19%),但低能源负担群体实现了显著的节能效果,而高能源负担群体几乎没有或根本没有减少。这反映了一种行为驱动的机制:受高成本-收入比(例如超过0.1)限制的家庭倾向于将节省的费用重新分配用于提高热舒适度,而非降低消耗。这种反应并非浪费,而是在先前匮乏背景下做出的理性调整,可能对健康和福祉带来额外的共同利益。研究结果表明,需要一个更广泛的评估框架,同时考虑气候影响和家庭能源政策的公平性含义。本研究通过因果机器学习方法揭示了能源效率干预措施的异质性效应,为政策制定提供了重要参考,强调了在节能目标之外关注社会公平和居民福祉的必要性。
能源效率因果机器学习墙体保温能源负担气候政策
学习鲁棒干预表示与Delta嵌入
📝 作者: Panagiotis Alimisis, Christos Diou
📄 中文摘要:
因果表示学习近年来因其在提升模型泛化能力和鲁棒性方面的潜力而备受关注。因果表示通过干预图像对的表示,具备仅改变受干预/动作影响的场景元素相关变量的特性。尽管该领域的大多数研究集中于在因果模型下识别和表示场景变量,但对干预本身的表示研究较少。本文提出了一种有效的策略,通过在潜在空间中关注干预的表示来提升分布外(OOD)鲁棒性。具体而言,作者提出干预可以通过一种因果Delta嵌入来表示,这种嵌入对视觉场景具有不变性,并且在影响的因果变量方面是稀疏的。基于这一见解,作者设计了一个无需额外监督即可从图像对中学习因果表示的框架。在因果三元组挑战中的实验表明,因果Delta嵌入在OOD场景下表现极为出色,在合成和现实世界基准测试中均显著优于基线性能。研究结果表明,专注于干预的潜在空间表示是提升模型鲁棒性的关键方向,可能为因果表示学习领域带来新的视角和方法。作者通过理论分析和实验验证,展示了该框架在处理复杂场景和干预时的有效性,为未来的研究奠定了基础。此外,该方法在无需额外标注数据的情况下实现了显著改进,具有较高的实用价值。
因果表示学习干预表示Delta嵌入分布外鲁棒性潜在空间
InceptoFormer:基于步态的多信号神经框架用于帕金森病严重程度评估
📝 作者: Safwen Naimi, Arij Said, Wassim Bouachir, Guillaume-Alexandre Bilodeau
📄 中文摘要:
本文提出了一种名为InceptoFormer的多信号神经框架,专门用于通过步态动力学分析评估帕金森病(PD)的严重程度。该框架结合了Inception模型的一维适应版本(称为Inception1D)和基于Transformer的架构,根据Hoehn和Yahr(H&Y)量表对帕金森病的严重程度进行分级。Inception1D通过使用不同核大小的并行一维卷积滤波器,捕捉多尺度时间特征,从而在多个时间尺度上提取特征。Transformer组件则有效建模步态序列中的长距离依赖关系,全面理解局部和全局模式。为解决帕金森病严重程度分级中的类别不平衡问题,作者提出了一种基于过采样的数据结构化和预处理策略,以增强对代表性不足的严重程度级别的表示能力。整体设计能够捕捉步态信号中的细粒度时间变化和全局动态,显著提升了帕金森病严重程度评估的分类性能。通过广泛的实验,InceptoFormer取得了96.6%的准确率,超越了现有的最先进的帕金森病严重程度评估方法。此外,作者公开了实现代码,供研究人员进一步探索和验证。本研究不仅在技术上实现了创新,还为帕金森病的临床诊断和监测提供了重要的工具支持,具有较高的应用价值。
帕金森病步态分析深度学习Inception1DTransformer
共享你的注意力:通过基于矩阵的字典学习实现Transformer权重共享
📝 作者: Magauiya Zhussip, Dmitriy Shopkhoev, Ammar Ali, Stamatios Lefkimmiatis
📄 中文摘要:
大型语言模型(LLMs)在人工智能应用领域引发了革命,但其高计算和内存需求限制了广泛部署。现有的压缩技术主要集中于块内优化(如低秩近似、注意力头剪枝),而Transformer的重复层结构暗示了显著的块间冗余,这一维度在键值(KV)缓存之外尚未被充分探索。受卷积神经网络(CNNs)中字典学习的启发,本文提出了一种跨Transformer层进行结构化权重共享的框架。我们的方法将注意力投影矩阵分解为共享的字典原子,将注意力模块的参数减少了66.7%,同时保持了与基准模型相当的性能。与需要蒸馏或架构更改的复杂方法不同,MASA(Matrix Atom Sharing in Attention)作为一种即插即用的替代方案,仅使用标准优化器进行训练,并将每一层的权重表示为共享矩阵原子的线性组合。在不同规模(1亿至7亿参数)的实验中,MASA在基准准确度和困惑度上优于分组查询注意力(GQA)、低秩基线以及最近提出的Repeat-all-over/Sequential共享方法,且参数预算相当。消融研究证实了MASA对字典大小的鲁棒性以及共享表示在捕捉跨层统计规律方面的有效性。进一步扩展到视觉Transformer(ViT),MASA在图像分类和检测任务上以66.7%的注意力参数减少实现了相似的性能指标。通过结合字典学习策略与Transformer效率,MASA为参数高效模型提供了一个可扩展的蓝图,而不牺牲性能。最后,本文探讨了在预训练LLMs上应用MASA以减少参数数量的可能性,且性能无显著下降。
大型语言模型权重共享字典学习Transformer参数效率
GraphProp:利用图属性训练图基础模型
📝 作者: Ziheng Sun, Qi Feng, Lehao Lin, Chris Ding, Jicong Fan
📄 中文摘要:
本文研究了如何训练具有强大泛化能力的图基础模型(GFMs),以应对图级任务,如图分类。有效的GFM训练需要在不同领域间捕获一致的信息。研究发现,相较于节点特征和图标签,图结构提供了更为一致的跨领域信息。然而,传统的GFMs主要关注将不同领域的节点特征转化为统一的表示空间,常常缺乏结构上的跨领域泛化能力。为解决这一问题,本文提出了GraphProp方法,强调结构泛化。GraphProp的训练过程分为两个主要阶段。首先,通过预测图不变量来训练一个结构化的GFM。由于图不变量是仅依赖于图抽象结构而不依赖于特定标签或绘制的属性,这一结构化GFM能够有效捕获抽象结构信息,并提供在不同领域间具有可比性的判别性图表示。在第二阶段,利用结构化GFM提供的表示作为位置编码,进一步训练一个综合性的GFM。此阶段结合特定领域的节点属性和图标签,进一步提升跨领域节点特征的泛化能力。实验结果表明,GraphProp在监督学习和少样本学习中显著优于竞争对手,特别是在处理无节点属性的图数据时表现尤为突出。本研究为图基础模型的训练提供了新的视角,强调了结构信息在跨领域任务中的重要性,并为未来的图神经网络研究奠定了基础。
图基础模型图结构跨领域泛化图不变量图神经网络
基于半监督终身学习的神经形态网络安全
📝 作者: Md Zesun Ahmed Mia, Malyaban Bal, Sen Lu, George M. Nishibuchi, Suhas Chelian, Srini Vasan, Abhronil
📄 中文摘要:
本文受大脑分层处理和能量效率的启发,提出了一种用于终身网络入侵检测系统(NIDS)的脉冲神经网络(SNN)架构。研究背景在于网络安全领域对持续学习和适应新威胁的需求,传统的机器学习方法在面对动态威胁时常遭遇灾难性遗忘问题,而神经形态计算提供了低功耗和高适应性的潜力。该系统首先采用高效的静态SNN来识别潜在入侵,随后激活自适应的动态SNN对具体攻击类型进行分类。动态分类器模仿生物适应机制,利用基于‘按需生长’(GWR)的结构可塑性以及一种新颖的自适应脉冲时间依赖可塑性(Ad-STDP)学习规则,使网络能够在学习新威胁的同时保留已有知识,实现了增量学习。在UNSW-NB15基准数据集上以持续学习模式进行测试,该架构展现了强大的适应能力,显著减少了灾难性遗忘,整体准确率达到85.3%。此外,使用Intel Lava框架进行的模拟验证了系统的高操作稀疏性,表明其在神经形态硬件上的低功耗部署潜力。研究结论指出,该方法不仅在网络安全领域具有应用前景,还为神经形态计算的实际部署提供了重要参考。
神经形态计算网络入侵检测终身学习脉冲神经网络自适应学习
一种可重复、可扩展的自回归模型文献合成流水线
📝 作者: Faruk Alpay, Bugra Kilictas, Hamdi Alakkad
📄 中文摘要:
随着自回归生成模型研究的加速发展,相关论文数量已达数千篇,手动进行文献综述和重现研究变得越来越不切实际。本文提出了一种完全开源、可重复的流水线,旨在自动化处理自回归模型文献的收集与分析。该流水线能够从公共存储库中自动检索候选文档,筛选出相关文献,提取元数据、超参数和报告结果,进行主题聚类,生成检索增强的摘要,并为选定实验生成容器化的重现脚本。在定量评估中,针对50篇手动标注的论文,该流水线在相关性分类、超参数提取和引文识别方面的F1分数均超过0.85。在处理高达1000篇论文的语料库时,实验显示其在八个CPU工作线程下的近线性可扩展性。此外,通过三个案例研究——AWD-LSTM在WikiText-2数据集上的应用、Transformer-XL在WikiText-103数据集上的应用以及自回归音乐模型在Lakh MIDI数据集上的应用——验证了提取的设置能够支持忠实重现,测试困惑度与原始报告的差异在1-3%以内。本研究不仅提高了文献综述的效率,还为自回归模型的实验重现提供了可靠的工具支持,对相关领域的研究具有重要意义。
自回归模型文献合成可重复性机器学习自动化流水线
链接预测的可扩展预训练框架与高效适应
📝 作者: Yu Song, Zhigang Hua, Harry Shomer, Yan Xie, Jingzhe Liu, Bo Long, Hui Liu
📄 中文摘要:
链接预测(Link Prediction, LP)是图机器学习中的一项关键任务。尽管图神经网络(Graph Neural Networks, GNNs)近年来显著提升了链接预测的性能,但现有方法仍面临诸多挑战,包括稀疏连接导致的监督不足、初始化敏感性以及分布偏移下的泛化能力较差等问题。本研究探索了预训练作为解决这些挑战的潜在方案。与节点分类不同,链接预测本质上是一个成对任务,需要整合节点和边级别的信息。本文首次系统研究了这些不同模块的可迁移性,并提出了一种后期融合策略,有效结合节点和边级别的输出以提升性能。为了应对预训练数据的多样性并避免负迁移,本研究引入了专家混合(Mixture-of-Experts, MoE)框架,通过在不同专家中捕捉不同模式,实现预训练模型在多样化下游数据集上的无缝应用。此外,为了实现快速适应,本文开发了一种参数高效的调优策略,使预训练模型能够以最小的计算开销适应未见过的数据集。在两个领域共16个数据集上的实验表明,该方法在低资源链接预测任务上取得了最先进的性能,同时与端到端训练方法相比具有竞争力,且计算开销降低了超过10,000倍。研究结果验证了所提出框架的有效性和高效性,为图机器学习领域中的链接预测任务提供了重要的技术支持。
链接预测图神经网络预训练框架专家混合参数高效调优
Perch 2.0:生物声学中的苦鹬教训
📝 作者: Bart van Merri\"enboer, Vincent Dumoulin, Jenny Hamer, Lauren Harrell, Andrea Burns, Tom Denton
📄 中文摘要:
本文介绍了Perch 2.0,一个针对生物声学的性能优越的预训练模型。Perch 2.0在前一代模型仅针对鸟类物种训练的基础上,扩展到了包含多种生物类群的大型数据集进行训练。模型采用自蒸馏方法进行训练,结合原型学习分类器以及一种新的源预测训练准则,显著提升了性能。Perch 2.0在BirdSet和BEANS基准测试中取得了最先进的表现。此外,尽管几乎没有海洋生物的训练数据,该模型在海洋生物的迁移学习任务中也优于专门的海洋模型,展现了其强大的泛化能力。作者进一步探讨了为何细粒度的物种分类任务在生物声学领域是一个特别有效的预训练任务,并提出了相关假设。研究背景方面,生物声学作为研究动物声音信号的重要领域,近年来随着深度学习技术的发展而迅速进步,预训练模型在处理多样化的声学数据时显得尤为重要。Perch 2.0的主要方法包括监督学习方式下的分类评分输出和用于迁移学习的强大嵌入表示,同时通过自蒸馏和创新的训练准则进一步优化模型性能。关键发现表明,Perch 2.0不仅在鸟类声学数据上表现卓越,还能在跨类群任务中展现出色的适应性,尤其是在数据匮乏的海洋生物领域。结论指出,该模型为生物声学研究提供了一个通用的高性能工具,可能推动跨领域的声音信号分析技术发展。
生物声学预训练模型物种分类迁移学习自蒸馏
鲁棒学习单指数模型
📝 作者: Puqian Wang, Nikos Zarifis, Ilias Diakonikolas, Jelena Diakonikolas
📄 中文摘要:
本文研究了在高斯分布下,面对对抗性标签噪声时,针对平方损失学习单指数模型的基本问题。作者提出了一种计算高效的算法,这是首个针对所有单调激活函数(具有有界2+ζ阶矩,ζ>0)实现常数因子近似的算法。这一类激活函数包括所有单调Lipschitz函数,甚至包括不连续函数,如(可能有偏的)半空间函数。相比之下,以往针对未知激活函数的研究要么无法达到常数因子近似,要么仅适用于更小范围的激活函数类别。本文的主要创新在于开发了一种优化框架,该框架突破了传统梯度方法的限制,通过直接利用问题结构、高斯空间的性质以及单调函数的正则性,识别出一种有用的向量场来指导算法更新。这一方法不仅在理论上提供了新的视角,也在实际应用中展示了针对复杂激活函数的鲁棒学习能力。研究结果表明,该算法能够在对抗性噪声环境下有效学习单指数模型,为处理更广泛的激活函数类别提供了可能。作者还讨论了算法的适用范围及其在高斯分布假设下的局限性,并指出了未来研究方向,如扩展到其他分布或更复杂的噪声模型。总之,本文为单指数模型的学习提供了一种新颖且高效的解决方案,对机器学习领域中鲁棒学习的研究具有重要意义。
单指数模型鲁棒学习对抗性噪声单调激活函数高斯分布
GeRe:通过通用样本回放实现大语言模型持续学习的高效抗遗忘
📝 作者: Yunan Zhang, Shuoran Jiang, Mengchen Zhao, Yuefeng Li, Yang Fan, Xiangping Wu, Qingcai Chen
📄 中文摘要:
大语言模型(LLM)的持续学习能力对于推动通用人工智能的发展至关重要。然而,在多个领域持续微调LLM时,常常会遇到灾难性遗忘问题,主要表现为:1)通用能力的显著遗忘;2)先前学习任务性能的急剧下降。为了以简单而稳定的方式同时解决这两个问题,本文提出了通用样本回放(GeRe)框架,利用常规预训练文本实现高效的抗遗忘效果。在GeRe框架下,除了重新审视最常见的基于回放的实践外,本文还通过神经状态引入了一种增强的激活状态约束优化方法,即基于阈值的边际(TM)损失函数,用于在回放学习过程中保持激活状态的一致性。本研究首次验证了一小组固定的、预先收集的通用回放样本足以解决上述两个问题——既能保留通用能力,又能提升跨序任务的整体性能,通用能力的保留本身也有助于性能提升。通过控制实验,本文系统地比较了GeRe框架下TM与其他回放策略的表现,包括原始标签拟合、通过KL散度的logit模仿以及通过L1/L2损失的特征模仿。结果表明,TM在性能提升和鲁棒性方面均表现出色。本研究为未来LLM的高效回放奠定了基础,相关代码和数据已公开。
大语言模型持续学习灾难性遗忘通用样本回放激活状态约束
MienCap:实时基于表演的面部动画与动态情绪表达
📝 作者: Ye Pan, Ruisi Zhang, Jingying Wang, Nengfu Chen, Yilin Qiu, Yu Ding, Kenny Mitchell
📄 中文摘要:
本文提出了一种改进基于表演的面部动画技术,旨在驱动具有真实感知效果的3D风格化角色。通过结合传统的混合形状动画技术与多种机器学习模型,作者提出了非实时和实时两种解决方案,以几何一致且感知有效的方式驱动角色表情。在非实时系统中,作者设计了一个3D情感转移网络,利用2D人类图像生成风格化的3D角色参数。在实时系统中,作者提出了一种混合形状适应网络,能够生成几何一致且时间稳定的角色参数运动。为了验证系统的有效性,作者将该系统与商业产品Faceware进行了比较。实验结果表明,通过该系统生成的动画角色表情在识别度、强度和吸引力方面的评分显著高于Faceware。研究结果表明,该系统可以集成到动画制作流程中,为动画师提供一个更快速、准确地创建所需表情的工具。这一研究不仅在技术上实现了创新,还为动画行业提供了实用价值,有助于提升3D角色动画的真实感和表现力。作者通过实验数据和用户评价进一步证实了系统的优越性,为未来的实时面部动画技术发展奠定了基础。
面部动画机器学习3D角色实时动画混合形状
深入探索星形胶质细胞变压器
📝 作者: Md Zesun Ahmed Mia, Malyaban Bal, Abhronil Sengupta
📄 中文摘要:
本文深入探讨了星形胶质细胞(占人类大脑细胞50%以上)在类脑神经形态计算中的关键作用,试图通过模拟神经元-突触-星形胶质细胞的交互来模仿Transformer模型中的自注意力机制。研究从跨层视角出发,提出了生物学上合理的Hebbian和突触前可塑性建模方法,结合神经元-星形胶质细胞网络中的非线性效应和反馈机制,并设计了算法框架,将神经元-星形胶质细胞计算映射到自注意力机制中。此外,本文还从机器学习应用的角度评估了引入生物真实效应的影响。实验分析涵盖了情感分类和图像分类任务(基于IMDB和CIFAR10数据集),结果表明,星形胶质细胞变压器(Astromorphic Transformers)在准确性和学习速度上均表现出显著优势。同时,在WikiText-2数据集上的自然语言生成任务中,该模型展现出比传统模型更低的困惑度(perplexity),证明了其在多样化机器学习任务中的优越泛化能力和稳定性。本研究为神经形态计算与机器学习结合提供了新的视角,并突显了星形胶质细胞在提升计算模型性能中的潜力,为未来类脑计算的发展奠定了基础。
星形胶质细胞神经形态计算自注意力机制Transformer机器学习
通过持续感知理解人类日常体验:ETRI Lifelog 数据集 2024
📝 作者: Se Won Oh, Hyuntae Jeong, Seungeun Chung, Jeong Mook Lim, Kyoung Ju Noh, Sunkyung Lee, Gyuwon Jung
📄 中文摘要:
为了提升对人类健康和福祉的理解,准确有效地掌握个体在日常生活中的身体和心理状态至关重要。本研究通过智能手机、智能手表和睡眠传感器,以被动和持续的方式全天24小时收集数据,尽量减少对参与者日常行为的干扰,从而获取关于日常行为和睡眠活动的量化数据,覆盖多个天的数据记录。此外,研究还通过在睡前和睡后立即进行的调查,收集了参与者关于疲劳、压力和睡眠质量的主观自报告。这一全面的生活日志数据集(ETRI Lifelog Dataset 2024)预计将成为探索人类日常生活和生活方式模式的重要基础资源。部分数据已匿名化并公开发布,以供进一步研究使用。本文详细介绍了该数据集的结构,并探讨了其潜在应用,例如利用机器学习模型预测睡眠质量和压力水平。通过结合多源数据(传感器数据与主观报告),该数据集为研究人类行为模式、健康状态及其与环境因素的关系提供了宝贵的机会。研究结果不仅有助于揭示日常生活中的关键影响因素,还可能为个性化健康干预措施的开发提供支持,推动健康监测和福祉提升领域的技术进步。
生活日志持续感知健康监测睡眠质量机器学习
MD-LLM-1:一种用于分子动力学的大语言模型
📝 作者: Mhd Hussein Murtada, Z. Faidon Brotzakis, Michele Vendruscolo
📄 中文摘要:
分子动力学(MD)是一种强大的分子系统建模方法,但在许多生物学相关的大分子系统的空间和时间尺度上计算成本极高。为了探索深度学习在解决这一问题上的潜力,本研究提出了一种分子动力学大语言模型(MD-LLM)框架,展示了如何利用大语言模型(LLM)学习蛋白质动力学并发现训练中未见的状态。本文介绍了MD-LLM-1,这是该方法的首次实现,通过对Mistral 7B模型进行微调得到。研究以T4溶菌酶和Mad2蛋白系统为对象,验证了该模型在训练于某一构象状态后,能够预测其他构象状态的能力。实验结果表明,MD-LLM-1能够学习蛋白质构象景观探索的基本原理,尽管目前尚未明确建模其热力学和动力学特性。这一方法为分子动力学研究提供了一种全新的视角,通过深度学习技术显著降低了计算成本,并展现了在蛋白质动力学预测中的潜力。未来的研究可以进一步优化模型,以更准确地模拟分子系统的物理特性,并扩展其在生物大分子研究中的应用范围。这一工作为结合人工智能与分子动力学开辟了新的可能性,可能对药物设计、蛋白质功能研究等领域产生深远影响。
分子动力学大语言模型蛋白质动力学深度学习构象预测
预测老年人跌倒风险:基于加速度计和非加速度计因素的机器学习比较
📝 作者: Ana Gonz\'alez-Castro, Jos\'e Alberto Ben\'itez-Andrades, Rub\'en Gonz\'ale
📄 中文摘要:
本研究探讨了利用机器学习模型预测老年人跌倒风险的有效性,研究对象为146名参与者,数据包括加速度计数据、非加速度计数据以及两者的结合数据。研究比较了多种机器学习模型的性能,发现结合加速度计和非加速度计数据的模型表现最佳,其中贝叶斯岭回归模型取得了最高的预测精度(均方误差MSE = 0.6746,决定系数R2 = 0.9941)。非加速度计变量,如年龄和共病情况,在预测中发挥了关键作用,表明这些因素对跌倒风险评估至关重要。研究结果支持使用集成数据和贝叶斯方法来提升跌倒风险评估的准确性,并为制定预防策略提供了重要依据。通过将加速度计数据(如运动模式)与非加速度计数据(如个人健康背景)相结合,模型能够更全面地捕捉影响跌倒风险的多种因素。这一发现不仅验证了多源数据融合在健康预测领域的潜力,也为未来的跌倒预防干预措施提供了数据驱动的支持。研究强调了在老年人健康管理中应用机器学习技术的实际价值,尤其是在个性化风险评估和早期干预方面。结论指出,未来的研究可以进一步优化模型算法,并扩展数据集规模,以验证模型在更广泛人群中的适用性。
跌倒风险机器学习老年人健康贝叶斯岭回归数据融合
基于置信区间的可靠程序化弱监督标签概率预测
📝 作者: Ver\'onica \'Alvarez, Santiago Mazuelas, Steven An, Sanjoy Dasgupta
📄 中文摘要:
在数据集标注中,准确标注往往成本高昂且耗时。针对未标注数据集,程序化弱监督通过利用多个弱标注函数(LFs)来获取标签的概率预测,这些函数提供粗略的标签猜测。然而,弱标注函数通常具有不同类型和未知的相互依赖性,可能导致预测不可靠。此外,现有的程序化弱监督技术无法对标签概率预测的可靠性进行评估。本文提出了一种程序化弱监督方法,能够为标签概率提供置信区间,从而获得更可靠的预测结果。具体而言,所提出的方法使用不确定性分布集合来封装弱标注函数提供的信息,这些函数的行为和类型不受限制。通过在多个基准数据集上的实验,证明了本文方法相较于现有技术的改进,以及所提供的置信区间的实用性。研究表明,该方法能够有效提升预测的可靠性,为弱监督学习中的标签概率估计提供了新的视角和工具。作者通过构建不确定性分布集合,成功应对了弱标注函数的多样性和复杂依赖性问题,显著提高了预测结果的可信度。此外,置信区间的引入为评估预测可靠性提供了量化依据,有助于研究人员和实践者在实际应用中更好地理解和利用弱监督学习的结果。这一方法不仅在理论上具有创新性,也在实际应用中展现了潜力,尤其适用于数据标注资源有限的场景。
程序化弱监督置信区间标签概率弱标注函数机器学习
通过学习上下文输入的多任务神经网络
📝 作者: Anders T. Sandnes, Bjarne Grimstad, Odd Kolbj{\o}rnsen
📄 中文摘要:
本文研究了一种基于学习上下文的神经网络架构,提出了一种多任务学习框架。该框架基于完全共享的神经网络,并通过增强输入向量引入可训练的任务参数。这种架构因其强大的任务适应机制而引人注目,能够在低维任务参数空间中实现高效的任务适应。理论上,本文证明了一个标量任务参数足以对所有任务进行通用逼近,而这一特性在更常见的架构中并不一定成立。实证研究表明,对于同质任务,任务参数的维度可能随任务复杂性而变化,但通常较小的任务参数空间是可行的。任务参数空间表现出良好的行为特性,这简化了在新数据到达时更新模型以及在共享参数冻结的情况下学习新任务的相关工作流程。此外,该架构对任务数据点较少的数据集表现出较强的鲁棒性。本文将该架构的性能与类似神经网络架构在十个数据集上进行了比较,结果显示其具有竞争力。研究表明,这种学习上下文输入的多任务神经网络架构在处理多任务学习问题时,不仅能够有效适应不同任务,还能在数据稀疏的情况下保持性能稳定。这一发现为多任务学习领域提供了一种新的视角和方法,尤其是在需要频繁更新模型或处理数据有限场景中具有潜在应用价值。作者通过理论分析和实验验证,强调了该架构在简化模型训练和提高泛化能力方面的优势,为未来的研究奠定了基础。
多任务学习神经网络上下文输入任务参数通用逼近
从聚类假设到图卷积:基于图的半监督学习再探
📝 作者: Zheng Wang, Hongming Ding, Li Pan, Jianhua Li, Zhiguo Gong, Philip S. Yu
📄 中文摘要:
基于图的半监督学习(GSSL)长期以来一直是研究的热点领域。传统方法通常是浅层学习者,基于聚类假设,即相似的数据点应具有相似的标签。近年来,图卷积网络(GCNs)因其出色的性能成为主流技术。本文在一个统一的优化框架下,理论上探讨了传统方法与图卷积网络之间的关系。一个重要的发现是,与传统方法不同,典型的GCNs在每一层可能并未同时考虑图结构和标签信息。基于这一发现,本文进一步提出了三种简单但有效的图卷积方法。第一种是有监督方法OGC,利用标签信息指导图卷积过程;另外两种是无监督方法GGC及其多尺度版本GGCM,旨在在卷积过程中保留图结构信息。通过理论分析和优化框架的统一,本文揭示了传统方法与现代GCN之间的内在联系,并通过改进方法弥补了现有GCN的不足。最后,通过大量的实验验证了所提出方法的有效性,实验结果表明,这些方法在半监督学习任务中取得了显著的性能提升。代码已公开,供研究者进一步探索和验证。本研究不仅深化了对图卷积网络工作机制的理解,也为基于图的半监督学习提供了新的思路和工具,具有重要的理论和应用价值。
图卷积网络半监督学习图结构聚类假设机器学习
时序与异构图神经网络在剩余使用寿命预测中的应用
📝 作者: Zhihao Wen, Yuan Fang, Pengcheng Wei, Fayao Liu, Zhenghua Chen, Min Wu
📄 中文摘要:
剩余使用寿命(RUL)预测在工业系统的预测与健康管理中扮演着关键角色,尤其是在涉及多种相互关联传感器的复杂系统中。针对此类系统产生的连续时间序列传感器数据,深度学习模型在识别复杂非线性时间依赖性方面表现出色。除了单个传感器的时间依赖性外,传感器之间的空间依赖性也成为重要的相关性,可以通过描述时变空间关系的时间图自然建模。然而,现有研究大多依赖于捕捉时间图的离散快照,这种粗粒度方法导致了时间信息的丢失。此外,鉴于异构传感器的多样性,利用这种固有的异构性对时间传感器图中的RUL预测至关重要。为捕捉传感器互联图中时间和空间关系的细微差别以及异构特性,本研究提出了一种名为时序与异构图神经网络(THGNN)的新模型。具体而言,THGNN通过聚合邻近节点的历史数据,以细粒度方式准确捕捉传感器数据流中的时间动态和空间相关性。同时,该模型利用特征级线性调制(FiLM)来处理传感器类型的多样性,显著提升了模型学习数据源异构性的能力。最后,通过全面实验验证了该方法的有效性。实证结果表明,在N-CMAPSS数据集上,THGNN在两种不同评估指标上分别实现了高达19.2%和31.6%的改进,超越了现有最先进方法。这一研究为工业系统健康管理提供了重要的技术支持,并展示了图神经网络在处理复杂时序数据中的潜力。
剩余使用寿命预测图神经网络时序数据异构传感器工业系统健康管理
可控学习综述:信息检索中的方法与应用
📝 作者: Chenglei Shen, Xiao Zhang, Teng Shi, Changshuo Zhang, Guofu Xie, Jun Xu
📄 中文摘要:
可控学习(Controllable Learning, CL)已成为可信机器学习的重要组成部分,旨在使学习系统能够实现预定目标,并在测试时动态适应目标变化,而无需重新训练。本文对可控学习进行了正式定义,并探讨了其在信息检索(Information Retrieval, IR)中的应用,信息检索领域通常面临复杂且动态的信息需求。研究将可控学习按照控制对象(例如多目标、用户画像、场景适应)、控制主体(用户或平台)、控制实现方式(例如基于规则的方法、帕累托优化、超网络等)以及控制实施位置(例如预处理、处理中、后处理方法)进行分类。此外,文章还识别了可控学习在训练、评估、任务设置及在线环境部署等方面面临的挑战。同时,作者提出了可控学习在理论分析、计算效率、增强大型语言模型、应用场景及评估框架等方面的未来发展方向。通过对现有方法的系统性梳理,本文为可控学习在信息检索领域的进一步研究提供了重要参考,特别是在如何平衡控制精度与系统灵活性、如何应对动态环境中的实时需求等方面提出了值得关注的视角。研究强调了可控学习在提升信息检索系统个性化与适应性中的潜力,同时也指出了当前技术在实际应用中的局限性,例如计算复杂度和评估标准的统一性问题。总之,本文为可控学习的研究和应用提供了一个全面的框架,有助于推动该领域在理论与实践上的进步。
可控学习信息检索机器学习用户画像动态适应
SINDyG:从图结构数据中稀疏识别非线性动力系统的研究及其在Stuart-Landau振荡器网络中的应用
📝 作者: Mohammad Amin Basiri, Sina Khanmohammadi
📄 中文摘要:
本研究提出了一种新的方法——从图结构数据中稀疏识别非线性动力系统(SINDyG),旨在通过结合机器学习和稀疏促进技术,从数据中直接提取动力系统的控制方程。这一方法在气候科学、神经科学、生态学、金融、流行病学等领域具有广泛应用潜力。传统的稀疏识别方法通常将整个系统视为一个整体,忽略了子系统之间的交互作用,因此难以捕捉系统行为的细微变化。SINDyG通过将网络结构融入稀疏回归中,识别能够解释底层网络动力学的模型参数,从而克服了这一局限性。本研究以神经元动力学为案例,采用扩展的Stuart-Landau(SL)方程对神经元群体的宏观振荡进行建模,并利用SINDyG方法识别其非线性动力学特性。大量计算实验表明,与原始SINDy方法相比,SINDyG在发现网络动力学的准确性和简洁性方面均有显著提升。此外,提出的图信息惩罚项可以轻松集成到其他符号回归算法中,通过引入网络结构提升模型的可解释性和性能。研究结果验证了SINDyG在处理复杂网络动力系统时的优越性,为未来的跨学科应用奠定了基础。
稀疏识别非线性动力系统图结构数据Stuart-Landau振荡器机器学习
pyhgf:一个用于预测编码的神经网络库
📝 作者: Nicolas Legrand, Lilian Weber, Peter Thestrup Waade, Anna Hedvig M{\o}ller Daugaard, Mojtaba Khodada
📄 中文摘要:
本文介绍了贝叶斯认知模型在计算神经科学和精神病学领域的广泛应用,并探讨了其在人工智能中的潜在扩展,旨在为自主代理提供通用的推理框架,支持具身性、适应性和能量效率。预测编码作为该领域的核心理论,认为学习和行为是由对感官输入原因的分层概率推断驱动的。生物学现实性要求这些网络依赖于简单的局部计算,如精度加权的预测和预测误差,这使得该框架具有高效性,但其软件开发实现面临独特挑战。在标准神经网络库中嵌入此类模型往往受到限制,因为这些库的编译和微分后端可能强制将优化算法与被优化的系统概念上分离,这与自监控、自组织、细胞生长和功能可塑性等生物学原则相背离。为此,本文提出了一个基于JAX和Rust的Python包pyhgf,用于创建、操作和采样预测编码的动态网络。相比其他框架,pyhgf通过将网络组件封装为透明、模块化和可塑的变量,改进了消息传递步骤。由此产生的图结构可以实现任意复杂的信念传播计算。同时,核心变量的透明性也转化为利用自组织原则的推理过程,并通过网络结构适应意外输入来表达结构学习、元学习或因果发现。相关代码、教程和文档托管于https://github.com/ilabcode/pyhgf。本研究为预测编码模型的软件实现提供了创新性解决方案,有助于推动计算神经科学与人工智能的交叉研究。
预测编码贝叶斯模型神经网络库计算神经科学自组织
双标签学习:处理不规则存在标签的方法
📝 作者: Mingqian Li, Qiao Han, Ruifeng Li, Yao Yang, Hongyang Chen
📄 中文摘要:
在多任务学习中,标签往往在样本间不规则缺失,可能表现为完全标注、部分标注或完全未标注。这种不规则标签的存在在科学研究中较为常见,通常源于实验条件的限制,因此亟需一种新的训练和推理机制来适应这种标签缺失情况并最大化标签的利用率。本研究聚焦于双标签学习任务,提出了一种新颖的训练和推理框架——双标签学习(Dual-Label Learning, DLL)。DLL框架将问题形式化为一个双函数系统,其中两个函数需同时满足标准监督、结构对偶性和概率对偶性要求。DLL采用双塔模型架构,允许标签之间显式信息交换,旨在最大化部分可用标签的效用。在训练过程中,缺失标签作为前向传播的一部分被填补;而在推理阶段,标签作为双变量方程组的未知数被联合预测。理论分析证明了DLL的可行性。大量实验验证了通过显式建模标签相关性和最大化标签效用,本方法在预测性能上始终优于基线方法,F1分数提升高达9.6%,MAPE降低高达10.2%。值得注意的是,即使在标签缺失率高达60%的情况下,DLL仍保持稳健性能,而在缺失率低至10%时,其结果甚至优于基线方法。本研究为处理不规则标签缺失问题提供了有效的解决方案,对多任务学习领域具有重要意义。
双标签学习不规则标签多任务学习标签相关性信息交换
高效无监督域适应回归用于时空传感器融合
📝 作者: Keivan Faghih Niresi, Ismail Nejjar, Olga Fink
📄 中文摘要:
随着低成本分布式传感器网络在环境和生物医学领域的广泛部署,持续、大规模的健康监测已成为可能。然而,这些系统常常面临传感器漂移、噪声和校准不足等问题,导致数据质量下降,限制了其在现实应用中的可靠性。传统的机器学习方法在传感器融合和校准中依赖大量的特征工程,难以捕捉时空依赖性或适应不同部署条件下的分布偏移。为解决这些挑战,本文提出了一种针对回归任务的新型无监督域适应(UDA)方法。该方法与时空图神经网络有效集成,并通过源域和目标域之间扰动逆Gram矩阵的对齐,借鉴Tikhonov正则化的思想,实现了可扩展且高效的域适应,而无需目标域的标注数据。本文在两个真实世界数据集上验证了该方法的性能,包括空气质量监测和EEG信号重建。实验结果表明,该方法在环境和生理场景中均取得了最先进的性能,为更鲁棒和可迁移的传感器融合模型铺平了道路。本研究不仅解决了传感器数据质量问题,还为跨域应用提供了新的技术路径,具有重要的实际意义。
无监督域适应时空传感器融合图神经网络回归任务数据质量
COBRA:一种持续学习方法用于视觉-大脑理解
📝 作者: Xuan-Bac Nguyen, Manuel Serna-Aguilera, Arabinda Kumar Choudhary, Pawan Sinha, Xin Li, Khoa Luu
📄 中文摘要:
视觉-大脑理解(Vision-Brain Understanding, VBU)旨在通过功能性磁共振成像(fMRI)记录的大脑活动数据提取人类感知的视觉信息。尽管近年来该领域取得了显著进展,但现有研究仍面临灾难性遗忘的挑战,即模型在适应新受试者时会丢失对先前受试者的知识。因此,在该领域中解决持续学习问题至关重要。本文提出了一种名为COBRA(Continual Learning for Vision-Brain)的创新框架,以应对VBU中的持续学习挑战。COBRA框架包含三个新颖模块:受试者共性(Subject Commonality, SC)模块、基于提示的受试者特异性(Prompt-based Subject Specific, PSS)模块以及基于变换器的fMRI模块(MRIFormer)。SC模块捕捉跨受试者的共享视觉-大脑模式,并在模型遇到新受试者时保留这些知识,从而减少灾难性遗忘的影响;PSS模块则学习每个受试者特有的视觉-大脑模式;MRIFormer模块包含一个变换器编码器和解码器,从共性和特异性模式中学习用于VBU的fMRI特征。在持续学习设置中,COBRA针对新受试者训练新的PSS和MRIFormer模块,而不影响先前受试者的模块。因此,COBRA有效解决了灾难性遗忘问题,并在持续学习和视觉-大脑重建任务中取得了最先进的性能,超越了先前的方法。研究结果表明,COBRA不仅在技术上具有创新性,还为VBU领域的持续学习提供了重要的解决方案,具有潜在的广泛应用前景。
持续学习视觉-大脑理解灾难性遗忘fMRI变换器
基于张量压缩优化的超内存高效FPGA上Transformer训练
📝 作者: Jiayi Tian, Jinming Lu, Hai Li, Xiangwei Wang, Cong Hao, Ian Young, Zheng Zhang
📄 中文摘要:
Transformer模型在多种机器学习任务中取得了最先进的性能。由于隐私、领域适应以及设备上科学机器学习等需求,在资源受限的边缘设备上训练Transformer模型的兴趣日益增加。然而,Transformer训练所需的大量计算和内存需求往往超出了边缘设备的能力。本文提出了一种基于低秩张量压缩的首款FPGA上端到端Transformer训练加速器。在算法层面,作者设计了一种双向收缩流用于张量化Transformer训练,相较于现有张量操作显著降低了计算FLOPS和层内内存成本。在硬件层面,作者将所有高度压缩的模型参数和梯度信息存储在芯片上,构建了一个仅依赖片上内存的框架,减少了片外通信并降低了延迟和能耗。此外,作者为每个训练阶段实现了定制计算内核,并采用层内并行和流水线技术进一步提升运行时间和内存效率。实验结果表明,在ATIS数据集上,使用FP-32数据格式的Transformer模型(内存占用范围为36.7至93.5 MB),该张量化FPGA加速器能够在AMD Alevo U50 FPGA上完成单批次端到端训练,内存预算小于6 MB BRAM和22.5 MB URAM。与NVIDIA RTX 3090 GPU上的未压缩训练相比,该FPGA训练实现了30倍至51倍的内存减少。同时,与NVIDIA RTX 3090 GPU上的张量Transformer训练相比,该FPGA加速器每个epoch的能耗降低了高达3.6倍。研究展示了在资源受限设备上高效训练Transformer模型的潜力,为边缘计算中的机器学习应用提供了重要参考。
Transformer训练FPGA加速器张量压缩边缘设备内存效率
通过忽略无意义规则实现高效规则归纳
📝 作者: Andrew Cropper, David M. Cerna
📄 中文摘要:
本文提出了一种新的归纳逻辑编程(ILP)方法,旨在通过识别和忽略无意义规则来提高规则归纳的效率。归纳逻辑编程的目标是找到一组逻辑规则,能够概括训练示例和背景知识。作者定义了无意义规则为包含冗余字面量或无法区分负例的规则,并证明了忽略这些无意义规则可以有效地对假设空间进行合理剪枝,从而减少搜索空间的复杂度。研究通过在多个领域(包括视觉推理和游戏策略)进行的实验验证了该方法的有效性。实验结果表明,该方法能够在保持预测精度的同时,将学习时间减少高达99%。具体而言,作者设计了一种算法,能够在规则生成过程中动态识别无意义规则,并将其从候选规则集中剔除,从而显著提高计算效率。此外,该方法在不同数据集上的表现显示了其鲁棒性和通用性,为ILP在复杂问题中的应用提供了新的可能性。作者还讨论了该方法的局限性,例如在某些极端情况下可能会错过潜在的有用规则,并提出了未来改进方向,如结合启发式搜索进一步优化性能。总之,本研究为归纳逻辑编程提供了一种高效的解决方案,对机器学习和逻辑推理领域具有重要的理论和实践意义。
归纳逻辑编程无意义规则规则剪枝学习效率预测精度
电子病历基础模型用于自适应风险估计
📝 作者: Pawel Renc, Michal K. Grzeszczyk, Nassim Oufattole, Deirdre Goode, Yugang Jia, Szymon Bieganski, Mat
📄 中文摘要:
本文研究了如何通过人工智能技术改进医院对关键健康结果的预测能力。传统的早期预警系统(如NEWS和MEWS)依赖静态变量和固定阈值,限制了其适应性、准确性和个性化能力。作者此前开发了增强型健康结果模拟变换器(ETHOS),这是一个基于变换器架构的AI模型,通过电子病历(EHR)将患者健康时间线(PHTs)分词,并预测未来的PHTs。ETHOS作为一个通用框架,可支持多种应用开发。在此基础上,本文提出了自适应风险估计系统(ARES),利用ETHOS计算临床医生定义的关键事件的动态、个性化风险概率。ARES还包含一个个性化解释模块,突出影响风险估计的关键临床因素。研究使用MIMIC-IV v2.2数据集及其急诊科(ED)扩展进行评估,将ARES与传统早期预警系统及现代机器学习模型进行性能对比。数据集被分词为285,622个PHTs,包含超过3.6亿个令牌。ETHOS在预测住院、ICU入院和长期住院方面优于基准模型,取得了更高的AUC分数。其风险估计在不同人口亚组中表现出鲁棒性,校准曲线验证了模型的可靠性。解释模块为患者特定的风险因素提供了有价值的见解。ARES通过ETHOS推动了预测性医疗AI的发展,实现了动态、实时、个性化的风险估计,并提供患者特定的解释性。尽管研究结果令人振奋,但其临床影响尚不确定。未来的工作将聚焦于在真实世界环境中验证ARES的实际效用。作者公开了源代码以促进后续研究。
电子病历自适应风险估计医疗人工智能变换器模型个性化解释
慢即是快!剖析以太坊的慢速流动性抽取骗局
📝 作者: Minh Trung Tran, Nasrin Sohrabi, Zahir Tari, Qin Wang, Minhui Xue, Xiaoyu Xia
📄 中文摘要:
本文识别并分析了一种名为慢速流动性抽取(SLID)的骗局,这种骗局对去中心化金融(DeFi)生态系统构成了一种隐秘且高利润的威胁,具有大规模、持续性和不断增长的风险。与传统的骗局如地毯式退出(rug pulls)或蜜罐(honeypots)不同,SLID通过长期缓慢地从流动性池中抽取资金,使得检测变得异常困难。本研究首次对自2018年以来六个主要去中心化交易所(DEXs)的319,166个流动性池进行了大规模实证分析,共发现3,117个受SLID影响的流动性池,累计损失超过1.03亿美元。研究提出了基于规则的启发式方法和一种增强型机器学习模型用于早期检测。其中,机器学习模型的检测速度比启发式方法快4.77倍,同时保持了95%的准确率。通过分析SLID骗局的运作机制和影响,本文揭示了其对DeFi生态系统的潜在威胁,并为早期保护DeFi投资者奠定了基础。此外,研究还探讨了如何通过提高检测效率和透明度来增强DeFi生态系统的安全性,为未来的研究和实践提供了重要参考。研究结果表明,SLID骗局的隐蔽性和长期性使其成为DeFi领域亟需解决的问题,而提出的检测方法为应对这一威胁提供了有效的技术支持。最终,本文旨在通过技术创新和数据分析,促进DeFi生态系统的健康发展,保护投资者免受新型金融欺诈的侵害。
去中心化金融慢速流动性抽取区块链安全机器学习检测以太坊
通过直接配置和非线性规划高效训练物理增强神经ODEs
📝 作者: Linus Langenkamp, Philip Hannebohm, Bernhard Bachmann
📄 中文摘要:
本文提出了一种新颖的方法,通过将训练过程表达为动态优化问题来训练物理增强神经ODEs(PeN-ODEs)。该方法将包括神经网络组件在内的完整模型使用高阶隐式Runge-Kutta方法离散化,并采用翻转的Legendre-Gauss-Radau点,生成一个大规模非线性规划(NLP)问题,可通过如Ipopt等先进的NLP求解器高效求解。这种形式化方法实现了网络参数和状态轨迹的同时优化,克服了基于ODE求解器的训练方法在稳定性、运行时间和精度方面的关键限制。本文在近期基于直接配置的神经ODE方法基础上进行了扩展,推广至PeN-ODEs,纳入了物理约束,并提供了一个定制的、并行化的开源实现。通过对四分之一车辆模型和Van-der-Pol振荡器的基准测试,展示了该方法在精度、速度以及使用较小网络时的泛化能力上相较于其他训练技术的显著优势。此外,作者还概述了将该方法集成到OpenModelica中的计划,以实现神经DAE的便捷训练。本研究为物理增强神经网络的训练提供了一种高效且稳定的解决方案,具有重要的应用潜力,尤其是在需要结合物理建模和数据驱动方法的复杂系统中。
物理增强神经ODEs动态优化非线性规划直接配置神经网络训练
重构物理信息机器学习用于交通流建模:多梯度下降与帕累托学习方法
📝 作者: Yuan-Zheng Lei, Yaobang Gong, Dianwei Chen, Yao Cheng, Xianfeng Terry Yang
📄 中文摘要:
物理信息机器学习(PIML)在现代交通流建模中至关重要,因为它结合了基于物理和数据驱动方法的优势。传统的PIML通常通过构建混合损失函数,将数据驱动损失和物理损失通过线性标量化结合,以在两个目标之间找到权衡,从而提高模型预测的准确性。然而,从数学角度看,线性标量化仅能识别帕累托前沿的凸区域,因为它将数据驱动损失和物理损失视为独立目标。鉴于大多数PIML损失函数是非凸的,线性标量化限制了可实现的权衡解。此外,调整两个损失分量的权重系数既耗时又具有计算挑战性。为解决这些局限性,本文提出了一种PIML的新范式,将训练过程重新表述为多目标优化问题,独立处理数据驱动损失和物理损失。研究应用了多种多梯度下降算法(MGDAs),包括传统多梯度下降(TMGD)和双锥梯度下降(DCGD),以探索多目标设置下的帕累托前沿。这些方法在宏观和微观交通流模型上进行了评估。在宏观情况下,MGDAs的性能与传统线性标量化方法相当。值得注意的是,在微观情况下,MGDAs显著优于基于标量化的方法,展示了多目标优化方法在复杂PIML场景中的优势。本研究表明,通过多目标优化方法,PIML能够在非凸损失函数环境下更好地平衡数据驱动和物理约束,从而提升交通流建模的精度和适用性。研究结果为未来的PIML应用提供了新的视角和方法论支持,尤其是在处理复杂系统建模时具有重要意义。
物理信息机器学习交通流建模多目标优化多梯度下降帕累托前沿
OccLE:标签高效的3D语义占用预测
📝 作者: Naiyu Fang, Zheyuan Zhou, Fayao Liu, Xulei Yang, Jiacheng Wei, Lemiao Qiu, Guosheng Lin
📄 中文摘要:
3D语义占用预测为场景理解提供了一种直观且高效的方法,在自动驾驶感知领域引起了广泛关注。传统方法要么依赖于全监督学习,需要昂贵的体素级标注;要么采用自监督学习,指导有限,导致性能不佳。为解决这些挑战,本文提出了一种标签高效的3D语义占用预测方法OccLE,以图像和LiDAR数据作为输入,仅需少量体素标注即可保持高性能。研究的核心思想是将语义和几何学习任务解耦,并融合两任务学习到的特征网格以进行最终的语义占用预测。具体而言,语义分支通过提炼2D基础模型提供对齐的伪标签,用于2D和3D语义学习;几何分支基于图像和LiDAR输入的固有特性,通过跨平面协同整合两者,并采用半监督学习增强几何学习效果。语义-几何特征网格通过双重Mamba融合,并引入散点累积投影以对未标注预测进行监督,确保与伪标签对齐。实验结果表明,在SemanticKITTI和Occ3D-nuScenes数据集上,OccLE仅使用10%的体素标注即可实现具有竞争力的性能。这一方法在减少标注成本的同时显著提升了3D语义占用预测的效率和精度,为自动驾驶感知技术的发展提供了重要参考。
3D语义占用预测标签高效自动驾驶感知语义-几何融合半监督学习
任意步长:预算迭代训练的统一学习率调度
📝 作者: Anda Tang, Yiming Dong, Yutao Zeng, zhou Xun, Zhouchen Lin
📄 中文摘要:
随着计算成本的不断增加和资源限制的加剧,预算迭代训练(budgeted-iteration training)成为一个关键研究领域,旨在在预定的迭代预算内实现最优学习效果。学习率调度在不同网络和任务的性能中起着至关重要的作用,特别是在预算迭代场景下。然而,学习率调度的设计大多依赖于启发式方法,缺乏理论基础,且最优学习率调度往往需要大量的试错选择,导致训练过程效率低下。本研究提出了一种基于理论的统一预算感知(Unified Budget-Aware, UBA)学习率调度方法,该方法在不同架构、任务和受限训练预算下始终优于常用的调度策略。首先,作者构建了一个新的训练预算感知优化框架,明确考虑了对景观曲率变化的鲁棒性,并基于此框架推导出了UBA调度。该调度由单一超参数φ控制,φ在灵活性和简单性之间提供权衡,消除了对每个网络进行数值优化的需求。此外,作者建立了φ与条件数之间的理论联系,为方法提供了可解释性和合理性依据,并证明了不同φ值下的收敛性。通过理论分析和实验结果,作者还提供了φ选择的实用指南。大量实验结果表明,UBA在多种视觉和语言任务中,跨越不同网络架构(如ResNet、OLMo)和规模,在不同训练迭代预算下,均优于常用调度方法,展现了其广泛适用性和优越性能。研究结论表明,UBA调度为预算迭代训练提供了一种高效且理论支持的学习率设计方案。
学习率调度预算迭代训练优化框架机器学习超参数
AtmosMJ:重新审视AI天气预报的门控机制以实现超年度尺度预测
📝 作者: Minjong Cheon
📄 中文摘要:
随着大型天气模型(LWMs)的出现,数据驱动的天气预报迎来了转折点,许多模型在中程预报中已超越传统数值系统。然而,实现超过几周的稳定长程自回归预报仍然是一个重大挑战。当前最先进的模型(如SFNO和DLWP-HPX)通过将输入数据转换到非标准空间域(如球谐函数或HEALPix网格)来实现长达一年的稳定性,这导致了一种普遍假设,即此类表示对于确保物理一致性和长期稳定性是必要的。本文挑战了这一假设,探讨是否可以在标准的经纬度网格上实现类似的长程预报性能。我们提出了AtmosMJ,一种直接在ERA5数据上操作而无需球面重映射的深度卷积网络。该模型通过一种新颖的门控残差融合(GRF)机制实现稳定性,该机制自适应地调节特征更新,以防止在长时间递归模拟中累积误差。结果表明,AtmosMJ能够生成约500天的稳定且物理上合理的预报。在定量评估中,其10天预报精度与Pangu-Weather和GraphCast等模型相当,同时训练成本极低,仅需在V100 GPU上训练5.7天。我们的研究表明,高效的架构设计,而非非标准数据表示,可能是解锁稳定且计算高效的长程天气预报的关键。本文为AI驱动的天气预报提供了新的视角,强调了模型设计创新在解决长期预测稳定性问题中的重要性,并为未来研究奠定了基础。
天气预报人工智能长程预测门控机制深度学习
无混杂因素的持续学习:通过递归特征归一化实现
📝 作者: Yash Shah, Camila Gonzalez, Mohammad H. Abbasi, Qingyu Zhao, Kilian M. Pohl, Ehsan Adeli
📄 中文摘要:
混杂因素是影响输入和目标的外部变量,可能导致虚假相关性和预测偏差。近年来,传统模型在处理或消除混杂因素方面取得了进展,例如元数据归一化(MDN),通过基于研究混杂因素调整学习特征的分布来减少其影响。然而,在持续学习场景中,模型需要随时间从新数据中持续学习且不遗忘已有知识,学习对混杂因素不变的特征表示仍是一个重大挑战。为消除混杂因素对中间特征表示的影响,本研究提出了递归MDN(R-MDN)层,该层可集成到任何深度学习架构中,包括视觉变换器,并可在模型的任何阶段应用。R-MDN通过递归最小二乘算法进行统计回归,针对数据和混杂变量分布的变化持续维护和更新内部模型状态。实验结果表明,R-MDN通过减少因混杂因素随时间变化而导致的灾难性遗忘,促进了静态学习和持续学习不同阶段中跨人群群体的公平预测。本研究的方法在保持模型性能的同时,有效降低了混杂因素的影响,为持续学习领域提供了一种新的解决方案。研究结果显示,R-MDN不仅在单一任务中表现出色,还能在多任务持续学习中保持稳定性,具有重要的应用价值。
持续学习混杂因素递归特征归一化公平预测灾难性遗忘
神经网络算法开发:来自流式奇偶任务的洞察
📝 作者: Loek van Rossem, Andrew M. Saxe
📄 中文摘要:
本研究探讨了深度神经网络在过参数化情况下仍能展现出卓越泛化能力的现象。传统研究主要关注分布内的泛化,即通过平滑插值实现。然而,在某些情境下,神经网络还能外推到远超出原始训练集范围的数据,甚至实现无限泛化,表明网络可能学习到了解决任务的算法。本文以循环神经网络(RNN)在流式奇偶任务上的学习动态为案例,旨在构建算法开发的有效理论。流式奇偶任务是一个简单但非线性的任务,定义在任意长度的序列上。研究表明,在有限训练经验的基础上,RNN会经历一个相变,达到完美的无限泛化能力。通过对表征动态的有效理论分析,研究发现了一种隐式的表征合并效应,可解释为构建了一个能够重现任务的有限自动机。这一结果揭示了神经网络如何通过有限训练经验实现无限泛化的一种机制。具体而言,研究通过分析RNN在流式奇偶任务上的学习过程,揭示了网络如何逐步构建算法结构以解决复杂任务,为理解神经网络的泛化能力提供了新的视角。研究结论表明,这种表征合并效应是神经网络算法开发的关键机制,可能对未来的神经网络设计和理论研究产生深远影响。
神经网络泛化能力循环神经网络流式奇偶任务算法开发
EcoTransformer:无乘法运算的注意力机制
📝 作者: Xin Gao, Xingming Xu, Shirin Amiraslani, Hong Xu
📄 中文摘要:
Transformer 模型凭借其缩放点积注意力机制已成为现代人工智能的基础架构。然而,这种机制计算复杂度高,能源消耗大。本研究提出了一种新型 Transformer 架构——EcoTransformer,其输出上下文向量通过使用拉普拉斯核对值进行卷积构建,其中距离通过查询和键之间的 L1 度量来衡量。与基于点积的注意力机制相比,新的注意力分数计算无需矩阵乘法操作。这种方法在自然语言处理(NLP)、生物信息学和视觉任务中的表现与缩放点积注意力相当,甚至在某些情况下优于后者,同时显著降低了能源消耗。研究背景源于对高效计算和节能需求的日益增长,特别是在大规模模型训练和部署中。EcoTransformer 的主要方法是通过替代传统的矩阵乘法计算方式,采用基于 L1 距离的拉普拉斯核卷积来构建注意力机制,从而减少计算资源需求。关键发现表明,该架构不仅保持了模型性能,还在多种任务中展现出更高的能效比,尤其是在资源受限的环境中具有显著优势。结论指出,EcoTransformer 为构建更可持续的人工智能模型提供了新的可能性,未来可进一步探索其在更多领域中的应用潜力,并优化其计算效率以适应更复杂的任务场景。
Transformer注意力机制节能计算机器学习人工智能
TofuML:面向新手的机器学习交互探索的空间物理交互设备
📝 作者: Wataru Kawabe, Hiroto Fukuda, Akihisa Shitara, Yuri Nakao, Yusuke Sugano
📄 中文摘要:
本文介绍了TofuML,一种旨在让非专家用户更容易理解和参与机器学习(ML)概念的交互系统。与传统的基于图形用户界面(GUI)的系统不同,TofuML采用了一种物理和空间交互界面,包括一个小型设备和一张纸质垫子,使用户能够通过直观、类似玩具的交互方式训练和评估声音分类模型。研究通过两项用户实验展开:一项是对比TofuML与基于GUI版本的比较研究,另一项是在公共活动中的部署测试。研究探讨了TofuML如何影响用户在ML模型创建过程中的参与度、提供合适训练数据的能力,以及对潜在应用的构想。结果表明,与GUI相比,TofuML显著提升了用户的参与度,同时降低了非专家参与机器学习的门槛。用户在构想多样化的ML应用时展现了创造力,揭示了在概念理解与用户参与度之间优化的机会。此外,研究还发现TofuML在帮助用户理解机器学习基本概念方面具有潜力,同时为设计面向广泛用户的交互式ML系统和框架提供了重要启示。这些发现对开发更具包容性和吸引力的机器学习教育工具具有重要意义,有助于推动机器学习技术的普及和应用。
机器学习人机交互交互设备非专家用户声音分类
基于迁移学习的电子-核子截面研究
📝 作者: Krzysztof M. Graczyk, Beata E. Kowal, Artur M. Ankowski, Rwik Dharmapal Banerjee, Jose Luis Bonilla,
📄 中文摘要:
本文提出了一种基于迁移学习(Transfer Learning, TL)的技术,用于解决物理学中的数据预测问题。迁移学习允许在一种数据上训练的深度神经网络(Deep Neural Network, DNN)通过有限的信息适应新的问题。研究团队通过让深度神经网络学习某一特定物理过程的细节,并在微调后对相关过程进行预测,探索了其在核物理中的应用。具体而言,研究以电子-碳散射数据为基础训练深度神经网络,随后通过微调,使其能够准确预测从氦-3到铁等不同核靶标与电子相互作用的截面数据。实验结果表明,迁移学习技术在处理电子与核子相互作用的截面预测中表现出色,展现了其在物理学研究中的潜力。这种方法不仅减少了对大规模训练数据的需求,还为研究不同核靶标的电子散射过程提供了一种高效的计算工具。研究的关键发现是,经过微调的深度神经网络能够在较宽范围的核靶标上实现高精度的截面预测,这为核物理中的数据驱动研究开辟了新的可能性。结论指出,迁移学习技术有望在物理学其他领域中得到更广泛的应用,尤其是在数据稀缺或实验成本高昂的场景中。
迁移学习深度神经网络电子-核子截面核物理数据预测
高效数据选择用于训练基因组扰动模型
📝 作者: George Panagopoulos, Johannes F. Lutzeyer, Sofiane Ennadir, Jun Pang
📄 中文摘要:
基因组研究,包括基于CRISPR的Perturb-seq分析,面临巨大的假设空间,而基因扰动实验成本高昂且耗时。基于图神经网络的基因扰动模型被用于预测基因扰动的结果,以辅助此类实验。由于基因组实验的高成本,主动学习常被用于训练这些模型,通过湿实验室实验和模型更新的交替进行。然而,湿实验室的操作限制和主动学习的迭代性质显著增加了总训练时间。此外,模型初始化的敏感性可能导致不同运行中选择的基因扰动集合差异显著,从而损害方法的再现性、可解释性和可重用性。为此,本研究提出了一种基于图的数据过滤方法,与主动学习不同,该方法以无模型的方式一次性选择基因扰动。该方法优化了一个准则,通过最大化图神经网络的监督信号来增强泛化能力。该准则定义在输入图上,并通过子模最大化进行优化。实验结果表明,与主动学习相比,该方法不仅实现了数月的加速,还提高了所选扰动实验的稳定性,同时取得了相当的测试误差。这一方法为基因组扰动模型的训练提供了一种高效且稳定的替代方案,有助于推动基因组研究的效率和可靠性。
基因组扰动图神经网络数据选择主动学习子模最大化
学习最简单的神经常微分方程
📝 作者: Yuji Okamoto, Tomoya Takeuchi, Yusuke Sakemi
📄 中文摘要:
自从《神经常微分方程(Neural ODE)》论文发表以来,利用深度学习来学习常微分方程(ODE)已被广泛应用于系统辨识、时间序列预测及相关领域。神经ODE利用ODE解映射的微分同胚性质,也使其在生成建模中得到了应用。尽管神经ODE具有整合各种物理信息的巨大潜力,但在实际训练中仍然面临挑战。本研究通过最简单的一维线性模型,揭示了训练神经ODE为何困难的原因。研究指出,训练过程中的数值不稳定性是主要问题,尤其是在长时间积分时误差累积会导致模型失效。此外,本文提出了一种新的稳定化方法,通过引入特定的正则化技术和数值优化策略,有效缓解了训练过程中的不稳定性问题。同时,研究还提供了该方法的解析收敛性分析,证明了其在理论上的可靠性与有效性。文中呈现的见解和技术为研究人员提供了一个简洁的教程,特别适合刚开始从事神经ODE相关工作的学者。通过这一研究,不仅揭示了神经ODE训练的核心难点,还为后续研究提供了可行的解决方案。作者强调,这些方法和分析可以推广到更复杂的模型和应用场景中,为神经ODE在系统建模和生成建模中的进一步发展奠定了基础。总之,本文通过理论与实践相结合的方式,为神经ODE领域的研究提供了重要的参考和指导。
神经常微分方程深度学习系统辨识数值稳定性生成建模
WiFo-CF:用于CSI反馈的无线基础模型
📝 作者: Liu Xuanyu, Gao Shijian, Liu Boxun, Cheng Xiang, Yang Liuqing
📄 中文摘要:
本文提出了一种名为WiFo-CF的新型无线基础模型,专门用于信道状态信息(CSI)反馈,旨在解决深度学习CSI反馈方案在固定系统配置下的泛化性和灵活性限制问题。WiFo-CF通过以下关键创新实现了对异构配置(如不同信道维度、反馈速率和数据分布)的统一支持:(1)一种多用户、多速率的自监督预训练策略;(2)一种共享与路由专家混合(S-R MoE)架构。为了支持WiFo-CF的大规模预训练,作者构建了首个异构信道反馈数据集,该数据集的多样化模式使得模型在模拟和现实场景中对分布内和分布外数据均表现出优越性能。实验结果表明,WiFo-CF不仅在CSI反馈任务中取得了显著的压缩能力,还通过学习到的表征有效支持了下游任务(如基于CSI的室内定位)的适应性,验证了其可扩展性和部署潜力。研究背景聚焦于无线通信中CSI反馈的效率与适应性问题,传统方法难以应对复杂多变的系统环境,而WiFo-CF通过基础模型的理念和自监督学习技术,为异构无线网络提供了一种通用解决方案。关键发现包括模型在不同配置下的鲁棒性和对新任务的快速适应能力,结论指出WiFo-CF为无线通信领域的深度学习应用开辟了新的可能性,尤其是在动态网络环境中的实际部署中具有重要价值。
无线基础模型CSI反馈自监督学习异构配置深度学习
神经-多脑区专家混合模型:通过显式异质性解决探索多主体多任务颅内解码
📝 作者: Di Wu, Yifei Jia, Siyuan Li, Shiqi Zhao, Jie Yang, Mohamad Sawan
📄 中文摘要:
神经生理解码是推动脑机接口(BCI)技术发展的基础,近年来深度学习的进步显著提升了解码性能。然而,现有解码方法大多局限于单任务场景和个体主体,限制了其广泛适用性和泛化能力。尽管大规模神经生理基础模型的构建显示出潜力,但由于跨主体和解码任务的数据异质性问题,仍然面临重大挑战。单纯增加模型参数和数据集规模,而不显式解决异质性问题,无法复制自然语言处理中的成功经验。本研究提出了神经多脑区专家混合模型(Neuro-MoBRE),这是一个通用解码框架,专门设计用于处理神经生理建模中普遍存在的数据异质性。Neuro-MoBRE结合了脑区-时间嵌入机制和专家混合方法,将来自不同脑区的神经信号分配给专门的区域专家,并在统一的嵌入基础上显式解决结构和功能异质性。此外,基于区域掩码的自编码预训练策略进一步增强了跨主体的表征一致性,同时任务解耦的信息聚合方法有效处理了任务特定的神经变异。在涉及11名受试者的颅内记录数据上,针对包括复杂语言解码和癫痫发作诊断在内的五种不同任务进行的评估表明,Neuro-MoBRE超越了现有技术,并在未见受试者的零样本解码中表现出强大的泛化能力。研究结果表明,该框架在处理多主体多任务神经解码中的异质性问题上具有显著优势,为脑机接口技术的进一步发展提供了重要支持。
脑机接口神经解码数据异质性深度学习多任务学习
DGAR:基于射频的人体活动识别的统一域泛化框架
📝 作者: Junshuo Liu, Xin Shi, Yunchuan Zhang, Yinhao Ge, Robert C. Qiu
📄 中文摘要:
基于射频(RF)的人体活动识别(HAR)为非接触式、隐私保护的人类行为监测提供了解决方案,广泛应用于宇航员舱外活动监测、人机协作驾驶舱以及无人机监视等领域。然而,在实际部署中,由于个体差异、异构物理环境以及未见活动模式导致的域知识偏移,系统性能常常显著下降。为解决这一问题,本文提出了DGAR,一个无需目标域数据即可学习可迁移表示的域泛化活动识别框架。DGAR结合了实例自适应特征调制和跨域分布对齐技术,以提升个性化和泛化能力。具体而言,该框架通过挤压与激励(SE)模块提取显著的时空特征,并采用相关性对齐方法减少域间差异。在公开的射频数据集HUST-HAR、Lab-LFM和Office-LFM上的大量实验表明,DGAR始终优于最先进的基线方法,加权F1分数提升高达5.81%。实验结果充分验证了DGAR在动态场景下的实时射频感知中的泛化能力。研究表明,DGAR通过有效应对域偏移问题,为射频人体活动识别的实际应用提供了可靠的解决方案,具有重要的理论价值和实践意义。未来,该框架可进一步扩展到更多复杂场景,为跨域活动识别提供新的研究思路。
射频传感人体活动识别域泛化特征调制跨域对齐
几乎必然收敛的随机激活单调算子分裂方法
📝 作者: Patrick L. Combettes, Javier I. Madariaga
📄 中文摘要:
本文提出了一种随机分裂算法,用于解决涉及单调算子和线性算子的大规模复合包含问题。该算法在每次迭代中随机选择单调算子的解析子块进行激活,与现有方法不同的是,本文提出的方法能够在不依赖任何正则性假设或线性算子范数知识的情况下,实现迭代序列几乎必然收敛到一个解。研究背景源于解决复杂优化问题的需求,特别是在处理大规模数据和高维问题时,传统的确定性方法往往面临计算复杂性和收敛性保障的挑战。本文方法的核心创新在于通过随机激活机制有效降低计算负担,同时保证收敛性。关键发现包括:该算法在理论上证明了几乎必然收敛性,并且在不需要额外假设的情况下适用于广泛的单调算子问题。作者还提供了数值实验,验证了算法在图像恢复和机器学习任务中的实际表现,特别是在处理稀疏信号恢复和分类问题时表现出较高的效率和鲁棒性。结论指出,该方法为解决大规模优化问题提供了一种新的视角,尤其适用于资源受限或数据分布不确定的场景。未来的研究方向可能包括进一步优化随机选择策略以及扩展到更复杂的非线性问题。
随机分裂算法单调算子几乎必然收敛图像恢复机器学习
使用黑盒大语言模型进行层次文本分类
📝 作者: Kosuke Yoshimura, Hisashi Kashima
📄 中文摘要:
层次文本分类(HTC)旨在将文本分配到结构化的标签层次结构中,但由于数据稀缺和模型复杂性等问题,面临诸多挑战。本研究探索了通过API访问的黑盒大语言模型(LLMs)在HTC中的应用可行性,作为传统机器学习方法的替代方案,后者通常需要大量标注数据和计算资源。研究评估了三种提示策略——直接叶子标签预测(DL)、直接层次标签预测(DH)和自上而下的多步层次标签预测(TMH),并在零样本(zero-shot)和少样本(few-shot)设置下比较了这些策略的准确性和成本效益。实验在两个数据集上进行,结果表明少样本设置相较于零样本设置在分类准确性上始终有所提升。虽然传统机器学习模型在层次较浅的数据集上取得了较高的准确性,但大语言模型,尤其是DH策略,在层次较深的数据集上往往优于机器学习模型。然而,由于DH策略在较深层次标签结构上需要更多的输入token,API成本显著增加。这些结果凸显了准确性提升与提示策略计算成本之间的权衡。本研究强调了黑盒大语言模型在HTC中的潜力,同时指出需要谨慎选择提示策略以平衡性能和成本。
层次文本分类大语言模型提示策略零样本学习少样本学习
从眼睛到人工智能:机器学习时代的小鼠社会行为研究
📝 作者: Giuseppe Chindemi, Camilla Bellone, Benoit Girard
📄 中文摘要:
近年来,小鼠社会行为的研究已从依赖人类直接观察转向整合人工智能(AI)和机器学习技术的更精细方法。传统方法往往引入偏差,且难以捕捉小鼠社会互动的复杂性,而结合计算机视觉、行为学和神经科学的现代方法为社会神经科学提供了更全面的行为洞察。本文讨论了分析小鼠社会行为的主要步骤和可用工具,评估了它们的优势与局限性。尽管AI技术为研究带来了诸多益处,但其在社会行为研究中的应用也面临若干挑战,例如数据处理复杂性、技术门槛以及结果解释的可靠性等。作者进一步提出了解决常见障碍的实用方案,旨在指导年轻研究人员采用这些方法,同时促进专家之间就这些工具在科学应用中不断变化的需求进行深入讨论。通过对现有技术的综合分析,本研究强调了AI在揭示小鼠社会行为机制中的潜力,尤其是在理解社会互动的神经基础方面。此外,文章还探讨了未来技术发展方向,包括提高算法精度、增强数据可视化能力以及跨学科合作的重要性。总之,本文为小鼠社会行为研究提供了一个全面的框架,旨在推动该领域向更科学、客观的方向发展,为社会神经科学和其他相关领域的研究奠定基础。
小鼠社会行为人工智能机器学习社会神经科学计算机视觉
锂离子电池荷电状态估计的虚拟传感器融合方法
📝 作者: Davide Previtali, Daniele Masti, Mirko Mazzoleni, Fabio Previdi
📄 中文摘要:
本文提出了一种通过结合两种广泛使用的范式——卡尔曼滤波器(KF)与等效电路模型(ECM)以及机器学习方法——来估计锂离子电池荷电状态(SOC)的新方法。研究特别关注了一种最近提出的虚拟传感器(VS)合成技术,其操作步骤如下:首先,直接从数据中学习电池的仿射参数变化(APV)模型;其次,从APV模型中推导出一组线性观测器;最后,利用从观测器中提取的特征以及输入输出数据训练机器学习技术以预测SOC。虚拟传感器预测的SOC值作为输出测量值与电池端电压一起提供给扩展卡尔曼滤波器(EKF),从而结合了两种范式。此外,本文还提出了一种数据驱动的EKF噪声协方差矩阵校准策略。实验结果表明,所设计的方法在SOC估计的精度和平稳性方面具有显著优势。研究背景在于锂离子电池SOC估计对电池管理系统至关重要,而传统方法在复杂工况下的准确性和鲁棒性仍需提升。本文通过融合虚拟传感器与EKF,充分利用了数据驱动模型和物理模型的优点,提出了一种创新的解决方案。关键发现包括:该方法在不同测试条件下均表现出较高的估计精度,且SOC估计结果的波动性较低。结论指出,这种融合方法为锂离子电池SOC估计提供了一种高效且实用的工具,具有在实际应用中推广的潜力。
锂离子电池荷电状态估计虚拟传感器卡尔曼滤波器机器学习
模仿鸟:大型语言模型在通用机器学习任务中的表现如何?
📝 作者: Haoyu Jia, Yoshiki Obinata, Kento Kawaharazuka, Kei Okada
📄 中文摘要:
近年来,大型语言模型(LLMs)作为聊天机器人被广泛应用,主要用于信息摘要、文本生成以及代码生成等任务。随着LLMs在推理能力和推断速度上的快速提升,其在聊天机器人领域之外的通用机器学习任务中的潜力逐渐显现。本研究出于对这一潜力的好奇,提出了一种名为‘模仿鸟(Mockingbird)’的框架,旨在将LLMs适应于通用机器学习任务,并评估其性能和可扩展性。该框架的核心理念是指导LLMs扮演特定功能角色,并通过反思自身错误来实现自我改进。研究通过对多个通用机器学习任务的评估和分析发现,基于LLM的机器学习方法(如Mockingbird)在常见任务上能够取得可接受的结果。然而,仅依靠模型自身的反思机制,目前无法超越领域特定文档和人类专家反馈的效果。研究表明,LLMs在通用机器学习任务中具有一定的应用潜力,但其性能提升仍需依赖外部知识和专家指导。未来的研究可以进一步探索如何结合领域知识和人类反馈来优化LLM在机器学习任务中的表现,以实现更高的准确性和适应性。本文为LLMs在非传统应用领域的扩展提供了重要的初步见解,同时也指出了当前方法的局限性,为后续研究奠定了基础。
大型语言模型通用机器学习模仿鸟框架自我反思性能评估
通过光流改进触觉手势识别
📝 作者: Shaohong Zhong, Alessandro Albini, Giammarco Caroleo, Giorgio Cannata, Perla Maiolino
📄 中文摘要:
触觉手势识别系统在人机交互(HRI)中扮演着重要角色,通过实现人类与机器人之间的直观沟通来推动技术发展。现有文献主要通过应用机器学习技术对触觉图像序列进行分类,以解决手势识别问题,这些图像编码了执行手势时产生的压力分布。然而,仅依靠触觉图像提供的信息,某些手势难以区分。本研究提出了一种简单而有效的方法,通过改进输入分类器的触觉图像处理方式来提升手势识别分类器的准确性。具体而言,我们提出通过计算密集光流来明确突出触觉图像中接触的动态特性。这种额外信息有助于区分那些产生相似触觉图像但具有不同接触动态的手势。我们在触觉手势识别任务中验证了所提出的方法,结果表明,使用增强了光流信息的触觉图像训练的分类器,相较于使用标准触觉图像训练的分类器,在手势分类准确率上提高了9%。这一发现表明,光流信息能够有效捕捉手势的动态特征,从而显著提升识别性能。本研究为触觉手势识别领域提供了一种新的视角和方法,有助于进一步优化人机交互系统的设计与应用。
触觉手势识别光流人机交互机器学习分类器
系统集成的组件化自动机学习(扩展版)
📝 作者: Hiroya Fujinami, Masaki Waga, Jie An, Kohei Suenaga, Nayuta Yanagisawa, Hiroki Iseri, Ichiro Hasuo
📄 中文摘要:
本文探讨了组件化自动机学习作为分析复杂黑盒系统的一种技术,特别关注其在系统集成中的应用。系统集成是指通过组合可能来自第三方且为黑盒的组件来构建新系统的过程。传统的组件化学习通常针对遗留黑盒系统,学习者只能对整个系统进行查询,而无法直接访问内部组件。本文提出了一种新的问题设置,即组件化自动机学习,允许学习者直接访问黑盒组件。这一设置带来了一个新的挑战——组件冗余,即组件的某些部分可能对系统级行为没有贡献,学习这些部分会造成不必要的资源浪费。为解决这一问题,作者提出了一种上下文相关的组件化学习算法,能够系统性地去除这些冗余部分,从而提高学习效率。文章通过实验评估了所提出方法的有效性和实用性,展示了其在系统集成中的潜在应用价值。研究结果表明,该方法能够显著降低学习复杂系统的成本,并在处理黑盒组件时表现出良好的适应性。作者还讨论了该方法在实际系统开发中的可能应用场景,特别是在需要快速集成第三方组件的软件工程领域。本文的贡献在于为组件化自动机学习开辟了一个新的应用领域,并提供了一种有效的解决方案来应对组件冗余问题,为未来的研究奠定了基础。
组件化自动机学习系统集成黑盒组件组件冗余上下文学习
生成式机器学习模型在动力系统中的案例研究
📝 作者: Nachiket U. Bapat, Randy C. Paffenroth, Raghvendra V. Cowlagi
📄 中文摘要:
本文研究了生成式人工智能模型(GAIMs)在减少航空航天工程中模拟数据与实际操作数据之间模型失配方面的潜力。针对飞机和航天器等系统的设计、验证和测试,由于现实世界操作成本高昂,通常依赖数学建模、大量数值模拟和少量真实实验。然而,模拟模型因建模误差、简化假设和不确定性导致数据与实际操作数据不匹配。本研究聚焦于两个航空导航中常见的优化控制系统案例:风场中的最短时间导航和威胁场中的最小暴露导航。作者提出了一种基于生成式模型的方法,使用少量(几百个)训练样本结合系统的基本控制方程进行训练。通过将汉密尔顿函数沿系统轨迹的不变性作为训练损失函数,研究了三种GAIM架构:生成对抗网络(GAN)和两种变分自编码器(VAE)变体。文章详细描述了模型架构并进行了全面的性能分析。研究发现,尤其是基于VAE的模型,即使在训练数据量较小的情况下,也能生成符合控制方程且与训练数据统计特性相似的数据。这一结果表明,生成式模型在动力系统数据合成中具有显著潜力,可能为航空航天工程中的模型验证和系统设计提供重要支持。作者还讨论了模型在满足自然法则(如守恒定律)方面的挑战与前景,强调了未来在更大规模数据集和更复杂系统上验证模型的必要性。
生成式模型机器学习动力系统航空航天工程变分自编码器
小型Transformer架构在任务切换中的应用
📝 作者: Claudius Gros
📄 中文摘要:
本文研究了小型Transformer架构在任务切换框架中的应用,探讨了注意力机制在小规模应用中的表现是否优于传统方法,如多层感知器(MLP)和循环神经网络(RNN)。任务切换是一种模型处理持续令牌序列的框架,其中当前任务由随机插入的控制令牌决定。研究以基于有限域算术的基本任务切换参考模型(IARC)为测试对象,该模型包含增量、加法、反向复制和上下文等子任务。实验结果表明,标准Transformer、长短期记忆网络(LSTM)和普通多层感知器(MLP)在该任务上的预测准确率相似,但均表现平平,仅达到中等水平。为了进一步探究,研究扩展了对标准Transformer架构的比较分析,引入了非平移不变的变体Cisformer以及一种替代注意力机制——扩展注意力(Extensive Attention)。结果发现,只有结合扩展注意力的模型能够在IARC任务上取得显著性能,准确率约为95%。研究表明,通过在任务切换场景中比较不同形式的注意力机制,可以更深入地理解注意力机制的工作原理,并可能对其进行改进。本文的研究为小型注意力架构的设计和优化提供了重要见解,同时也揭示了标准Transformer在特定任务中的局限性,为未来在小规模应用中改进注意力机制奠定了基础。
Transformer任务切换注意力机制小型架构机器学习
机器学习分类器错误影响评估的层次评分方法
📝 作者: Erin Lanus, Daniel Wolodkin, Laura J. Freeman
📄 中文摘要:
本文提出了一种用于评估机器学习(ML)分类器错误影响的层次评分方法。传统的分类和目标检测任务通常通过预测标签与真实标签是否匹配来评估模型性能,这种通过/失败的评分方式将所有误分类视为等同。然而,在许多情况下,类别标签可以组织成具有层次结构的分类体系,以反映数据间的关系或操作者对误分类的评估价值。基于此,本文开发了多种复杂度的层次评分指标,利用评分树编码类别标签之间的关系,并生成反映预测与真实标签在评分树中距离的性能指标。这种方法可以看作是对预测结果给予部分分数,而非简单的通过/失败,从而更细粒度地理解误分类的影响。本研究通过一个抽象用例展示了评分指标的应用,设计了代表三种加权策略的评分树,并根据所抑制的错误类型进行评估。结果表明,这些指标能够以更细的粒度捕捉错误,而评分树的设计使得调优成为可能。本文提出了一种评估机器学习性能的新方法,不仅关注错误的数量,还关注错误的类型或影响。相关评分指标的Python实现将在论文发表时以开源形式提供。本研究为机器学习模型的评估提供了新的视角,有助于更全面地理解模型性能和误分类的影响。
机器学习层次评分分类器评估误分类影响评分树
基于人口金字塔的半自动研究种群动态的方法
📝 作者: Max Hahn-Klimroth, Jo\~ao Pedro Meireles, Laurie Bingaman Lackey, Nick van Eeuwijk Mads F. Bertelsen
📄 中文摘要:
本文提出了一种半自动化的方法,通过人口金字塔的形态分类来研究种群动态。人口金字塔作为一种可视化工具,广泛用于快速评估人类或动物种群的各种特征。尽管这种可视化方法在多个领域中广为人知,但基于算法的正式化方法在获取信息方面相对较少。本研究开发了一种基于算法的分类方法,将种群数据分为不同的金字塔形态(包括普通金字塔、倒金字塔、柱状、钟形、上下菱形、中间菱形、沙漏形等),并将这些形态与种群的具体特征相关联。为了开发这一算法,研究团队使用了1970年至2024年期间全球动物园哺乳动物种群的数据。研究结果表明,该算法能够提供合理的分类结果,尤其是在与种群规模变化相关的特定形态序列及形态转换方面的表现尤为突出。作者认为,这种方法可能成为分析和交流历史种群发展的有用工具,具有广泛的应用前景。此外,该方法还可能为动物种群管理策略提供支持。通过将种群数据与可视化形态相结合,本研究为种群动态的定量分析提供了一种新颖的视角,并为未来的生态学和管理研究奠定了基础。研究不仅适用于动物种群,也可能扩展到人类种群的分析,具有跨学科的应用潜力。
人口金字塔种群动态算法分类动物种群管理生态学分析
量子场论在神经元上的微扰展开可行性研究
📝 作者: Srimoyee Sen, Varun Vaidya
📄 中文摘要:
本文研究了一种基于神经网络(NN)架构的新方法,用于模拟局部量子场论(QFT),特别是在有限神经元数量N下的微扰计算可行性。传统的神经网络架构通过打破参数的统计独立性,在无限神经元数量极限下能够精确重现量子场论的结果。本研究以d维欧几里得空间中的标量φ^4理论为例,分析了有限神经元数量N下对二点和四点关联函数的O(1/N)修正的微扰级数。研究发现,这些微扰级数对紫外截止(ultraviolet cut-off)高度敏感,导致收敛性较弱。为解决这一问题,本文提出了一种改进的神经网络架构,旨在提高微扰级数的收敛性。同时,研究探讨了理论参数的约束条件以及N的标度关系,以确保能够从有限神经元数量的模拟中提取准确的场论结果。通过对这些因素的系统分析,本文为利用神经网络模拟量子场论提供了一种潜在的可行路径,并指出了未来研究中需要解决的关键问题,如如何进一步优化架构设计以适应更复杂的量子场论模型,以及如何在实际计算中平衡精度与计算成本。研究结论表明,尽管当前方法在有限N下存在局限性,但通过适当的参数调整和架构改进,神经网络仍有可能成为量子场论微扰计算的有效工具。
量子场论神经网络微扰展开φ^4理论紫外截止
迈向可解释的情感识别:利用机器学习识别关键特征
📝 作者: Yacouba Kaloga, Ina Kodrasi
📄 中文摘要:
本研究聚焦于情感识别领域,探讨如何通过机器学习方法识别和泛化最重要的可解释特征。近年来,无监督学习方法(如wav2vec2和HuBERT)在音频任务中取得了最先进的性能,导致对可解释特征的研究逐渐减少。然而,这些方法的低可解释性限制了它们在医学等关键领域的应用,因为在这些领域中理解特征的相关性至关重要。为了更好地理解无监督模型的特征,本研究强调识别与特定任务相关的可解释特征的重要性。过往关于情感识别中特征相关性的研究往往受限于狭窄的上下文,且研究结果不一致。本文提出了一种更广泛、更稳健的框架,旨在克服这些局限性,系统性地分析情感识别任务中的关键可解释特征。通过应用机器学习算法,本研究不仅识别出对情感识别至关重要的特征,还探讨了这些特征的泛化能力。研究结果为情感识别模型的可解释性提供了新的视角,有助于推动该技术在高风险领域的应用,例如心理健康评估和医疗诊断。此外,本文的研究方法和结论也为未来在其他音频任务中探索可解释特征奠定了基础,具有一定的理论和实践意义。
情感识别可解释特征机器学习无监督学习音频任务
交叉验证在模型比较中的相对不稳定性
📝 作者: Alexandre Bayle, Lucas Janson, Lester Mackey
📄 中文摘要:
本文研究了交叉验证(CV)在机器学习算法性能比较中的相对稳定性问题。已有研究表明,交叉验证可用于为稳定机器学习算法的测试误差提供渐近置信区间,并且许多流行算法的稳定性结果可用于推导出置信区间有效的正例。然而,在常见的场景中,当交叉验证被用于比较两个算法的性能时,需要考虑相对稳定性的概念,而这一概念难以从现有的稳定性结果中直接推导出来,即使是对简单算法也是如此。为了更深入理解相对稳定性以及交叉验证在测试误差差异上的置信区间是否有效,本文以软阈值最小二乘算法(Soft-Thresholded Least Squares)为研究对象,该算法是Lasso的近亲。研究证明,尽管在评估该算法的个体测试误差时稳定性成立,但在比较两个此类算法的测试误差时,相对稳定性并不成立,即使是在稀疏低维线性模型的设定下。此外,通过实验验证了当使用软阈值或Lasso算法时,交叉验证在测试误差差异上的置信区间是无效的。总之,在量化交叉验证对两个机器学习算法性能差异估计的不确定性时需要格外谨慎,即使这两个算法各自都是稳定的。本文的研究结果提醒我们在使用交叉验证进行模型比较时,应充分考虑相对稳定性的局限性,以避免得出错误的结论。
交叉验证相对稳定性机器学习测试误差软阈值最小二乘
周期性边界条件下的DBSCAN算法研究
📝 作者: Xander M. de Wit, Alessandro Gabbana
📄 中文摘要:
本文研究了如何在具有周期性边界条件的空间中应用聚类算法,特别是在数据具有固有的循环或旋转对称性或空间扩展周期性的科学问题中。传统的聚类方法在处理此类数据时往往效率低下,因此需要专门设计的方法来适应周期性边界条件。本文提出了一种基于DBSCAN算法(一种广泛使用的无监督机器学习方法,用于识别数据中的聚类)的改进方法,适用于周期性域中的数据聚类。该方法内部利用了适用于开放边界的常规DBSCAN算法,从而与开放域中邻域搜索的所有优化实现保持兼容,保留了O(N log N)的优化运行时间复杂度。作者通过一维、二维和三维的合成数据验证了该方法的有效性,并将其应用于现实世界中的一个案例,即湍流中气泡的聚类分析。研究结果表明,该方法能够高效处理周期性边界条件下的数据聚类问题,具有良好的适用性和性能。此外,作者开发了一个即用型的Python软件包,并公开发布,方便其他研究者使用和进一步开发。本文的方法不仅在理论上具有创新性,还在实际应用中展现了潜力,为处理周期性数据提供了新的工具和思路。
DBSCAN周期性边界条件聚类算法湍流分析无监督学习