← 返回总览
98
论文总数
98
高分论文
8.0
平均评分
6
关键词数
CLARA:基于TESS光变曲线的无监督过境检测模块化框架
📝 作者: Mainak Dasgupta
📄 中文摘要:
本文提出了一种名为CLARA的模块化框架,用于在TESS(凌日系外行星勘测卫星)光变曲线中进行无监督过境检测。该框架利用在合成数据集上训练的无监督随机森林(URFs),并通过形态相似性分析进行指导。研究聚焦于两个核心问题:(1)合成训练集的设计如何影响URFs在不同TESS扇区的性能和泛化能力?(2)URF异常分数是否与真实的天体物理现象相关,从而有效识别和聚类类似过境的信号?研究分为两部分:第一部分关注检测性能优化,第二部分探讨异常的物理可解释性。在第一部分中,作者引入了三种通过alpha控制评分目标调整的URF模型变体,并在五个TESS扇区上评估其泛化能力。通过对384,000条光变曲线(每种alpha变体128,000条)的大规模测试,揭示了在召回率优化、精确率优化和平衡模型之间稳定且可解释的差异。第二部分通过优化的聚类方法(DPMM Cluster 2),在TESS SPOC的前五个扇区中实现了14.04%的检测率(114个候选者中确认了16个过境事件),显著高于基准率(TESS-SPOC项目候选集的0.4569%和基于FFI的SPOC样本的0.2650%)。所有计算在一台无GPU加速的个人桌面电脑上完成,使用Intel Core i3-8100处理器和32GB内存,通过四核并行化评分和分类程序处理了超过87,000条TESS SPOC光变曲线(扇区1-5)。研究表明,CLARA框架在无监督环境下展现了高效的过境信号检测能力,为未来的系外行星研究提供了重要工具。结论指出,该方法在性能和可解释性上均有显著优势,尤其在资源受限的环境下表现出色。
无监督学习过境检测TESS光变曲线系外行星随机森林
NAEx:一种用于解释网络对齐的即插即用框架
📝 作者: Shruti Saxena, Arijit Khan, Joydeep Chandra
📄 中文摘要:
网络对齐(Network Alignment, NA)是一种识别多个网络中对应节点的技术,广泛应用于社交网络、合著关系和生物学等领域。尽管对齐模型取得了显著进展,但其可解释性仍然有限,导致难以理解对齐决策的依据,尤其是在高风险领域中,这对建立信任构成了挑战。为解决这一问题,本文提出了NAEx,一个即插即用的、模型无关的框架,旨在通过识别影响预测的关键子图和特征来解释网络对齐模型。NAEx通过以下方式应对保留跨网络联合依赖性的关键挑战:(1)通过可学习的边和特征掩码联合参数化图结构和特征空间;(2)引入优化目标,确保解释既忠实于原始预测,又能对网络间的结构和特征相似性进行有意义的比较。NAEx是一个归纳框架,能够高效地为未见过的数据生成网络对齐解释。本文还提出了专门针对对齐可解释性的评估指标,并通过将NAEx与四个代表性网络对齐模型集成,在基准数据集上验证了其有效性和高效性。研究结果表明,NAEx能够显著提升网络对齐模型的透明度和可信度,为高风险领域的应用提供了重要支持,同时也为未来的网络分析研究奠定了基础。
网络对齐可解释性即插即用框架子图识别跨网络依赖
RetinexDual:基于Retinex的双重性质方法用于广义超高清图像恢复
📝 作者: Mohab Kishawy, Ali Abdellatif Hussein, Jun Chen
📄 中文摘要:
随着图像传感技术的进步,超高清图像恢复(UHD IR)的重要性日益凸显。传统方法如极端下采样或从空间域到频域的转换存在显著缺陷:下采样会导致超高清图像中不可逆的信息丢失,而频域分析表明纯频域方法对空间局限的图像伪影无效,主要原因是退化局部性的丧失。为解决这些问题,本文提出了RetinexDual,一种基于Retinex理论的新颖框架,专为广义UHD IR任务设计。RetinexDual利用两个互补的子网络:尺度注意力maMBA(SAMBA)和频率照明适配器(FIA)。SAMBA负责校正反射分量,采用从粗到精的机制克服mamba的因果建模问题,有效减少伪影并恢复复杂细节。FIA则通过在频域中操作并利用其提供的全局上下文,确保对颜色和照明失真的精确校正。在四个UHD IR任务(去雨、去模糊、去雾和低光图像增强)上的评估表明,RetinexDual在定性和定量上均优于近期方法。消融研究进一步证明了RetinexDual中为每个分支采用不同设计的重要性,以及其各组件的有效性。研究结果表明,RetinexDual为超高清图像恢复提供了一种高效且通用的解决方案,具有显著的实际应用潜力。
超高清图像恢复Retinex理论尺度注意力频率照明适配图像处理
ACM多媒体大挑战:耳鼻喉内窥镜分析
📝 作者: Trong-Thuan Nguyen, Viet-Tham Huynh, Thao Thi Phuong Dao, Ha Nguyen Thi, Tien To Vu Thuy, Uyen Hanh
📄 中文摘要:
本论文介绍了ACM多媒体2025大挑战——耳鼻喉(ENT)内窥镜分析(ENTRep),旨在推动内窥镜影像的自动化分析技术发展。耳鼻喉内窥镜检查在临床上至关重要,但由于设备和操作者的多样性、病灶的细微性和局部性,以及如侧别和声带状态等精细区分的需求,相关技术发展受到限制。临床医生不仅需要准确的分类,还需要可靠的相似病例检索功能,包括视觉相似性和简洁的文本描述,而现有公开基准数据集很少支持这些功能。为此,论文提出了ENTRep挑战赛,结合了精细的解剖分类、图像到图像检索以及文本到图像检索任务,并在越南语和英语双语临床监督下进行。数据集包含专家标注的图像,按解剖区域和正常/异常状态进行标注,并附有双语叙述描述。此外,论文定义了三个基准任务,标准化了提交协议,并通过服务器端评分对公共和私有测试集的性能进行评估。文中还报告了表现最佳团队的结果,并提供了深入的讨论和见解。本研究为耳鼻喉内窥镜分析提供了重要的数据集和基准,推动了医学影像分析与多媒体技术的交叉融合,为临床诊断和病例检索提供了新工具,具有显著的学术和应用价值。
耳鼻喉内窥镜医学影像分析图像检索多媒体技术双语标注
CoMAD:一种多教师自监督蒸馏框架
📝 作者: Sriram Mandalika, Lalitha V
📄 中文摘要:
自监督学习(如对比学习和掩码图像建模)通过无标签数据学习强大的表示,但通常是孤立预训练,忽略了互补见解,且模型较大,不适合资源受限的部署环境。为解决这些问题,本文提出了共识导向的掩码蒸馏(CoMAD),这是一个轻量级、无参数的框架,将多个当前最先进的自监督视觉Transformer(ViT)的知识统一到一个紧凑的学生网络中。CoMAD从三个预训练的ViT-Base教师模型(MAE、MoCo v3和iBOT)中进行蒸馏,每个模型提供不同的语义和上下文先验。不同于简单平均教师输出,CoMAD采用非对称掩码策略:学生仅看到25%的图像块,而每个教师接收逐渐减轻的独特掩码,迫使学生在更丰富的上下文中插值缺失特征。教师嵌入通过线性适配器和层归一化对齐到学生的空间,并通过联合共识门控进行融合,该门控结合余弦亲和力和教师间一致性对每个令牌进行加权。学生网络通过可见令牌和重建特征图的双层KL散度进行训练,捕捉局部和全局结构。在ImageNet-1K数据集上,CoMAD的ViT-Tiny模型达到75.4%的Top-1准确率,较之前最先进水平提升0.4%。在密集预测任务中,其在ADE20K上的mIoU达到47.3%,在MS-COCO上的边界框平均精度和掩码平均精度分别达到44.5%和40.5%,在紧凑型自监督学习蒸馏领域建立了新的最先进水平。本研究通过创新的蒸馏方法显著提升了模型效率和性能,为资源受限环境下的自监督学习提供了重要参考。
自监督学习视觉Transformer知识蒸馏掩码图像建模计算机视觉
多阶段知识蒸馏VGAE与GAT用于鲁棒控制器区域网络入侵检测
📝 作者: Robert Frenken, Sidra Ghayour Bhatti, Hanqin Zhang, Qadeer Ahmed
📄 中文摘要:
控制器区域网络(CAN)协议是车内通信的标准,但由于缺乏内置安全机制,容易受到网络攻击。本文提出了一种多阶段入侵检测框架,结合无监督异常检测和有监督图学习,专门针对汽车CAN流量设计。框架的核心架构包括用于结构异常检测的变分图自编码器(VGAE)和用于鲁棒攻击分类的知识蒸馏图注意力网络(KD-GAT)。CAN总线活动被编码为图序列,以建模时间和关系依赖性。该框架首先通过基于VGAE的选择性欠采样解决类别不平衡问题,随后利用GAT进行分类,并可选地进行分数级融合。相比于教师模型,紧凑的学生GAT模型实现了96%的参数减少,同时保持了强大的预测性能。在六个公开CAN入侵数据集(包括Car-Hacking、Car-Survival和can-train-and-test)上的实验表明,该方法在准确性和效率方面具有竞争力,F1分数平均提升了16.2%,尤其在高度不平衡的数据集上,F1分数提升高达55%。研究结果表明,该框架在处理复杂的CAN网络攻击模式时表现出色,为汽车网络安全提供了高效且实用的解决方案。作者还讨论了该方法的局限性,如对某些稀有攻击模式的检测能力有限,并提出了未来改进方向,包括结合更多上下文信息和实时检测能力。
控制器区域网络入侵检测变分图自编码器图注意力网络知识蒸馏
利用Transformer推进仇恨言论检测:来自MetaHate的洞见
📝 作者: Santosh Chapagain, Shah Muhammad Hamdi, Soukaina Filali Boubrahimi
📄 中文摘要:
仇恨言论是一种广泛且有害的在线话语形式,包括侮辱性语言和诽谤性帖子,可能对目标个体和社区造成严重的社会、心理甚至身体影响。随着X(前身为Twitter)、Facebook、Instagram、Reddit等社交媒体平台持续促进广泛交流,它们也成为仇恨言论的滋生地,而仇恨言论与现实世界的仇恨犯罪之间的联系日益紧密。解决这一问题需要开发强大的自动化方法,以在多样化的社交媒体环境中检测仇恨言论。传统的深度学习方法,如普通循环神经网络(RNN)、长短期记忆网络(LSTM)和卷积神经网络(CNN),已取得较好成果,但常常受到长期依赖问题和并行化效率低下的限制。本研究全面探索了基于Transformer的模型在仇恨言论检测中的应用,采用了MetaHate数据集——一个包含36个数据集、共计120万社交媒体样本的元数据集。我们评估了多种最先进的Transformer模型,包括BERT、RoBERTa、GPT-2和ELECTRA,其中经过微调的ELECTRA取得了最高性能(F1分数:0.8980)。此外,我们还分析了分类错误,发现了讽刺、编码语言和标签噪声等挑战。研究结果表明,Transformer模型在处理复杂语言模式和大规模数据方面具有显著优势,为仇恨言论检测提供了新的技术路径,同时也指出了未来研究需要解决的语言理解和数据质量问题。
仇恨言论检测Transformer模型自然语言处理社交媒体MetaHate数据集
基于注意力机制的神经网络故障分类研究
📝 作者: Sigma Jahan, Saurabh Singh Rajput, Tushar Sharma, Mohammad Masudur Rahman
📄 中文摘要:
注意力机制是现代神经网络架构的核心,驱动了从ChatGPT到自动驾驶车辆等多种系统,并产生了重大的经济影响。然而,高调的失败案例,如ChatGPT的无意义输出或谷歌因注意力权重错误暂停Gemini图像生成,凸显了一个关键问题:现有的深度学习故障分类可能无法充分捕捉注意力机制引入的独特故障。这一差距使得从业者缺乏可操作的诊断指导。为解决这一问题,本研究首次对基于注意力机制的神经网络(ABNNs)的故障进行了全面的实证研究。研究基于对来自GitHub、Hugging Face和Stack Overflow等10个框架中96个项目的555个真实世界故障的系统分析。通过分析,本文提出了一个包含七个注意力特有故障类别的新颖分类体系,这些类别未被现有研究所涵盖。结果表明,超过一半的ABNN故障源于注意力架构特有的机制。此外,本研究通过多种症状进一步分析了这些故障的根本原因和表现形式。最后,通过分析症状与根本原因的关联性,研究识别出四种基于证据的诊断启发式方法,这些方法解释了33.0%的注意力特有故障,为基于注意力机制的模型提供了首个系统化的诊断指导。本研究填补了注意力机制故障分类的空白,为深度学习领域的从业者提供了重要的理论支持和实践工具,有助于提升注意力模型的可靠性和性能。
注意力机制神经网络故障分类诊断启发式深度学习
ALScope:深度主动学习的统一工具包
📝 作者: Chenkai Wu, Yuanyuan Qi, Xiaohao Yang, Jueqing Lu, Gang Liu, Wray Buntine, Lan Du
📄 中文摘要:
深度主动学习(DAL)通过在训练过程中选择最具信息量的未标注样本,有效降低了标注成本。随着现实世界应用的复杂性增加,分布偏移(如开放集识别)和数据不平衡等问题日益受到关注,促使了众多DAL算法的开发。然而,由于缺乏统一的平台,难以在多样化条件下进行公平和系统的评估。为此,本文提出了一种新的DAL平台ALScope,专门用于分类任务。该平台集成了来自计算机视觉(CV)和自然语言处理(NLP)的10个数据集,以及21种代表性DAL算法,包括经典基准方法和针对分布偏移及数据不平衡等挑战的最新方法。ALScope支持灵活配置关键实验因素,包括算法和数据集选择,以及任务特定的因素,如分布外(OOD)样本比例和类别不平衡比例,从而实现全面且真实的评估。通过在多种设置下进行广泛实验,研究发现:(1)DAL算法的性能在不同领域和任务设置下差异显著;(2)在非标准场景(如不平衡和开放集设置)中,DAL算法的表现仍有改进空间,需要进一步研究;(3)某些算法虽能取得较好的性能,但样本选择时间显著较长。这些发现为未来DAL算法的设计和优化提供了重要参考,同时ALScope平台为研究人员提供了一个统一的测试和比较环境,有助于推动深度主动学习领域的发展。
深度主动学习分布偏移数据不平衡分类任务统一平台
迈向无误差训练ImageNet-1k
📝 作者: Bo Deng, Levi Heath
📄 中文摘要:
本文描述了一种前馈人工神经网络在ImageNet 2012竞赛数据集上的训练过程,采用了一种新的方法[5],实现了98.3%的准确率,Top-1准确率达到99.69%,并且在数据集的10个批次分区上平均有285.9个标签被完美分类。最佳模型使用了322,430,160个参数,精度为4位小数。研究团队推测,模型未能达到100%准确率的原因在于数据集中的双重标注问题,即存在具有不同标签的重复图像。本研究在背景上依托ImageNet这一大规模图像分类任务,旨在探索如何通过改进训练方法和模型架构来逼近无误差分类的目标。主要方法包括采用新的训练技术[5],优化网络参数和结构设计,以提升模型对复杂图像数据的分类能力。关键发现表明,尽管模型在大多数类别上表现优异,但双重标注问题显著限制了整体准确率的进一步提升,这提示数据集质量对模型性能的影响不容忽视。结论指出,未来的研究应聚焦于数据集清洗和标注一致性问题,同时探索更鲁棒的模型设计以应对数据噪声。本文为图像分类领域的高精度模型训练提供了重要参考,同时也揭示了数据集质量对深度学习模型性能的关键影响。
图像分类人工神经网络ImageNet训练方法数据集质量
通过掩码图像建模加速视觉-语言模型的条件提示学习
📝 作者: Phuoc-Nguyen Bui, Khanh-Binh Nguyen, Hyunseung Choo
📄 中文摘要:
视觉-语言模型(VLMs)如CLIP在零样本学习中表现出色,但通常需要资源密集型的训练来适应新任务。提示学习技术(如CoOp和CoCoOp)提供了高效的适应方法,但往往会过拟合已知类别,限制了对未见类别的泛化能力。本研究提出了一种即插即用的框架ProMIM,通过将掩码图像建模(MIM)集成到现有的VLM流程中,增强条件提示学习能力。ProMIM采用了一种简单而有效的掩码策略,仅对可见图像块进行掩码,并利用这些表示来指导提示生成,从而生成鲁棒的、实例条件化的提示。该方法能够在不改变CoOp和CoCoOp等方法核心架构的前提下无缝增强其性能。ProMIM通过提高特征鲁棒性和缓解过拟合问题,以极小的额外计算成本显著提升了模型的泛化能力。广泛的零样本和少样本分类任务实验表明,ProMIM在嵌入现有方法时始终能提升泛化性能,为现实世界的视觉-语言应用提供了一种实用且轻量级的解决方案。研究结果表明,ProMIM不仅在技术上具有创新性,而且在实际应用中具有重要潜力,为视觉-语言模型的适应性提供了新的思路。
视觉-语言模型条件提示学习掩码图像建模零样本学习泛化能力
视觉活动识别的鲁棒性评估:通过语义聚类解决动词歧义
📝 作者: Louie Hong Yao, Nicholas Jarvis, Tianyu Jiang
📄 中文摘要:
视觉活动识别系统的评估因动词语义和图像解释的固有歧义而面临挑战。在描述图像中的动作时,近义动词可能指代同一事件(如‘brushing’与‘grooming’),而不同的视角可能导致同样有效但不同的动词选择(如‘piloting’与‘operating’)。传统的精确匹配评估方法依赖单一标准答案,无法捕捉这些歧义,导致对模型性能的评估不完整。为解决这一问题,本文提出了一种视觉-语言聚类框架,通过构建动词语义集群来提供更鲁棒的评估方法。对imSitu数据集的分析表明,每张图像平均映射到2.8个语义集群,每个集群代表图像的一个独特视角。本研究评估了多种活动识别模型,并将基于集群的评估方法与标准评估方法进行了比较。此外,人机一致性分析表明,基于集群的评估方法与人类判断更加一致,为模型性能提供了更细致的评估。这一方法不仅揭示了传统评估方法的局限性,还为视觉活动识别的评估提供了新的视角和工具,有助于更准确地衡量模型在复杂语义环境下的表现。研究结果强调了语义歧义在视觉理解中的重要性,并为未来的评估框架设计提供了启示。
视觉活动识别动词歧义语义聚类鲁棒性评估计算机视觉
AdvDINO:用于空间蛋白质组学的领域对抗自监督表示学习
📝 作者: Stella Su, Marc Harary, Scott J. Rodig, William Lotter
📄 中文摘要:
自监督学习(SSL)作为一种无需手动标注即可学习视觉表示的强大方法,已在多个领域展现出潜力。然而,标准SSL方法在面对领域偏移(即数据源之间的系统性差异)时的鲁棒性仍不确定,这在生物医学成像中尤为关键,因为批次效应可能掩盖真实的生物信号。本研究提出了AdvDINO,一种领域对抗自监督学习框架,通过将梯度反转层集成到DINOv2架构中,促进领域不变特征的学习。研究以非小细胞肺癌患者的六通道多重免疫荧光(mIF)全切片图像为数据集,包含超过546万张mIF图像瓦片,验证了AdvDINO的有效性。相比非对抗基线,AdvDINO有效缓解了切片特异性偏差,学习到更鲁棒且具有生物学意义的表示。模型揭示了具有不同蛋白质组特征和预后意义的表型簇,并在基于注意力的多实例学习中提升了生存预测性能。虽然本研究以mIF数据为对象,但AdvDINO具有广泛适用性,可扩展至放射学、遥感、自动驾驶等存在领域偏移且标注数据有限的成像领域,从而提升模型的泛化能力和解释性。本研究为解决生物医学成像中的批次效应问题提供了新思路,并为跨领域应用奠定了基础。
自监督学习领域对抗空间蛋白质组学生物医学成像领域不变特征
MENDR:流形可解释神经数据表示
📝 作者: Matthew Chen, Micky Nnamdi, Justin Shao, Andrew Hornback, Hongyun Huang, Ben Tamo, Yishan Zhong, Ben
📄 中文摘要:
本文提出了一种名为MENDR(流形可解释神经数据表示)的脑电图(EEG)基础模型,旨在解决现有EEG基础模型在预训练动态透明度和嵌入表示可解释性方面的不足。研究背景聚焦于EEG信号的广义表示学习,尽管现有基础模型在多个下游任务中表现出色,但其预训练过程缺乏透明性,且对EEG信息在嵌入中的保留程度了解有限。为了实现临床应用的成功整合,EEG基础模型需要在预训练、下游微调及学习表示的可解释性方面确保透明度。传统方法主要在时域操作,忽略了数字信号处理领域的进展,如基于小波的确定性和可追溯特征提取技术。MENDR基于一种新颖的黎曼流形变换器架构,构建了一个滤波器组的EEG基础模型,通过离散小波包变换将超过4000小时的EEG数据分解为多分辨率系数,学习EEG信号的对称正定矩阵嵌入。MENDR通过将对称正定嵌入可视化为几何椭球体显著提升了可解释性,并支持从学习嵌入中精确重建EEG信号。在多个临床EEG任务的评估中,MENDR以更少的参数实现了接近最先进的性能,凸显了其在高效、可解释和临床适用EEG分析中的潜力。研究结论表明,MENDR为EEG信号处理提供了一种创新且实用的解决方案,有望推动EEG基础模型在临床环境中的应用。
脑电图基础模型流形学习可解释性信号处理
开放世界点云语义分割:一种人机交互框架
📝 作者: Peng Zhang, Songru Yang, Jinsheng Sun, Weiqing Li, Zhiyong Su
📄 中文摘要:
开放世界点云语义分割(OW-Seg)旨在在现实世界场景中预测基础类别和新颖类别的点标签。然而,现有方法依赖于资源密集型的离线增量学习或密集标注的支持数据,限制了其实用性。为解决这些局限性,本研究提出了HOW-Seg,这是首个针对OW-Seg的人机交互框架。具体而言,HOW-Seg直接在查询数据上构建类别原型,避免了支持数据与查询数据之间类内分布偏移导致的原型偏差。通过利用稀疏的人工标注作为指导,HOW-Seg实现了基于原型的分割,适用于基础类别和新颖类别。考虑到初始原型粒度不足的问题,本研究引入了层次原型消歧机制,以细化对应于不同类别标注的模糊原型。此外,为了增强上下文感知能力,HOW-Seg在细化后的原型上应用密集条件随机场(CRF)来优化标签分配。通过迭代的人工反馈,HOW-Seg动态改进其预测结果,为基础类别和新颖类别均实现了高质量的分割。实验表明,在稀疏标注(如每个新颖类别一次点击)的情况下,HOW-Seg的性能与最先进的广义少样本分割(GFS-Seg)方法在5-shot设置下相当甚至更优。当使用先进的骨干网络(如Stratified Transformer)和更密集的标注(如每个子场景10次点击)时,HOW-Seg在S3DIS数据集上达到了85.27%的mIoU,在ScanNetv2数据集上达到了66.37%的mIoU,显著优于其他替代方法。本研究为开放世界点云语义分割提供了一种高效且实用的解决方案,具有重要的应用潜力。
点云分割开放世界人机交互语义分割少样本学习
通过深度基础模型传播稀疏深度以实现分布外深度补全
📝 作者: Shenglun Chen, Xinzhu Ma, Hong Zhang, Haojie Li, Zhihui Wang
📄 中文摘要:
深度补全作为计算机视觉中的关键挑战,旨在从稀疏深度图重建密集深度图,通常结合配对的RGB图像。传统的基于学习的方法依赖于精心准备但有限的数据集,导致在分布外(OOD)场景下性能显著下降。近期,基础模型通过大规模训练在单目深度估计中展现出卓越的鲁棒性,利用此类模型增强深度补全模型的鲁棒性成为一种有前景的解决方案。本研究提出了一种新颖的深度补全框架,利用深度基础模型在无需大规模训练的情况下实现显著的鲁棒性。具体而言,我们利用深度基础模型从RGB图像中提取环境线索,包括结构和语义上下文,以指导稀疏深度信息向缺失区域的传播。此外,我们设计了一种无学习参数的双空间传播方法,在三维和二维空间中有效传播稀疏深度,以保持几何结构和局部一致性。为了进一步优化复杂结构,我们引入了一个可学习的校正模块,逐步调整深度预测以接近真实深度。我们在NYUv2和KITTI数据集上训练模型作为分布内数据集,并在其他16个数据集上广泛评估框架。结果表明,我们的框架在分布外场景中表现出色,超越了现有的最先进的深度补全方法。本研究为深度补全任务提供了一种创新且高效的解决方案,具有重要的应用潜力。
深度补全分布外场景深度基础模型双空间传播计算机视觉
使用快速权重深度自编码器网络建模视觉皮层中的快速上下文学习
📝 作者: Yue Li, Weifan Wang, Tai Sing Lee
📄 中文摘要:
本文研究了早期视觉皮层如何通过快速学习全局图像上下文的能力,这种能力表现为在熟悉图像上下文中的群体响应稀疏化和平均活动减少。研究表明,这种现象主要归因于局部循环交互,而非前馈或反馈通路的变化,并通过实验发现和电路级建模得到支持。作者提出了一种基于视觉变换器(Vision Transformer, ViT)的自编码器模型,从功能角度探讨熟悉性训练如何在深度神经网络的早期层中诱导对全局上下文的敏感性。研究假设快速学习通过快速权重实现,这些权重编码瞬时或短期记忆痕迹,并探索了低秩适应(Low-Rank Adaptation, LoRA)方法在每个变换器层中实现快速权重的应用。研究结果表明:(1)提出的ViT自编码器的自注意力机制执行了类似于熟悉性效应神经电路模型的流形变换;(2)熟悉性训练使早期层的潜在表示与包含全局上下文信息的顶层表示对齐;(3)熟悉性训练扩展了记忆图像上下文内的自注意力范围;(4)LoRA快速权重显著增强了这些效应。综上所述,研究表明熟悉性训练能够在分层网络的早期层引入全局敏感性,而快速与慢速权重混合架构可能为研究大脑中的快速全局上下文学习提供一个可行的计算模型。这一研究为理解视觉皮层快速学习机制提供了新的视角,并为神经网络设计提供了潜在的启发。
快速权重视觉皮层上下文学习视觉变换器低秩适应
属性引导与固有伪标签在遮挡行人重识别中的应用
📝 作者: Rui Zhi, Zhen Yang, Haiyang Zhang
📄 中文摘要:
行人重识别(Re-ID)旨在跨不同摄像头视图匹配行人图像,而遮挡行人重识别则专注于处理行人部分可见的场景。预训练的视觉-语言模型在Re-ID任务中表现出色,但在遮挡场景中面临显著挑战,主要因为其关注整体图像语义而忽略了细粒度的属性信息。这种局限性在处理部分遮挡的行人或区分外观差异细微的个体时尤为明显。为解决这一问题,本文提出了一种新颖的框架——属性引导重识别(AG-ReID),该框架利用预训练模型的固有能力提取细粒度的语义属性,而无需额外数据或标注。AG-ReID通过两阶段过程运作:首先生成捕捉细微视觉特征的属性伪标签,然后引入双重引导机制,结合整体和细粒度属性信息以增强图像特征提取能力。大量实验表明,AG-ReID在多个广泛使用的Re-ID数据集上取得了最先进的成果,在处理遮挡和细微属性差异方面表现出显著改进,同时在标准Re-ID场景中保持了竞争性能。研究结果强调了细粒度属性信息在提升遮挡行人重识别效果中的重要性,为未来的研究提供了新的视角和方法。
行人重识别遮挡场景属性引导伪标签细粒度特征
皮肤-SOAP:一种弱监督框架用于生成结构化SOAP笔记
📝 作者: Sadia Kamal, Tim Oates, Joy Wan
📄 中文摘要:
皮肤癌是全球最常见的癌症类型,每年医疗支出超过80亿美元。早期诊断和及时准确的治疗对提高患者生存率至关重要。在临床环境中,医生通过详细的SOAP(主观、客观、评估和计划)笔记记录患者就诊情况。然而,手动生成这些笔记耗时耗力,导致临床医生疲劳。本研究提出了一种弱监督多模态框架——皮肤-SOAP,旨在从有限输入(如病变图像和稀疏临床文本)中生成结构化的临床SOAP笔记。该方法减少了对人工标注的依赖,支持可扩展的、基于临床的文档生成,同时减轻了临床医生的负担,并降低了大规模标注数据的需求。皮肤-SOAP在关键临床相关性指标上的表现与GPT-4o、Claude和DeepSeek Janus Pro相当。为评估临床相关性,本研究引入了两个新颖的评估指标:MedConceptEval和临床一致性评分(CCS),分别用于评估与专家医学概念的语义一致性以及与输入特征的相关性。研究结果表明,该框架在生成准确且符合临床需求的SOAP笔记方面具有显著潜力,有助于提升医疗文档效率,减少医生工作负担,并为皮肤癌等疾病的早期诊断和治疗提供技术支持。未来,该方法可进一步扩展到其他医疗领域,促进智能化医疗文档系统的开发。
皮肤癌SOAP笔记弱监督学习多模态框架医疗信息学
解耦持续语义分割
📝 作者: Yifu Guo, Yuquan Lu, Wentao Zhang, Zishan Xu, Dexia Chen, Siyu Zhang, Yizhe Zhang, Ruixuan Wang
📄 中文摘要:
持续语义分割(CSS)是一项关键任务,要求在学习新类别的同时不遗忘先前获得的知识,以解决密集预测任务中的灾难性遗忘问题。然而,现有的CSS方法通常采用单阶段编码器-解码器架构,其中分割掩码和类别标签紧密耦合,导致新旧类别学习之间的干扰,并使得保留与适应性之间的平衡不佳。本文提出了一种新颖的两阶段框架DecoupleCSS,用于解决CSS问题。通过将类别感知检测与类别无关分割解耦,DecoupleCSS实现了更有效的持续学习,能够在学习新类别时保留过去的知识。第一阶段利用预训练的文本和图像编码器,并通过LoRA进行适配,以编码类别特定信息并生成位置感知提示。第二阶段采用Segment Anything Model(SAM)生成精确的分割掩码,确保分割知识在新旧类别之间共享。这种方法显著改善了CSS中保留与适应性之间的平衡,并在多种具有挑战性的任务上取得了最先进的性能。实验结果表明,DecoupleCSS在持续学习语义分割领域具有显著优势,为解决灾难性遗忘问题提供了新的思路。作者公开了相关代码,便于进一步研究和验证。本研究不仅在技术上具有创新性,还为未来的持续学习框架设计提供了重要的参考。
持续语义分割解耦框架灾难性遗忘类别感知检测分割掩码
基于卷积神经网络和生成对抗网络的自动图像着色
📝 作者: Ruiyu Li, Changyuan Qiu, Hangrui Cao, Qihan Ren, Yuqing Qiu
📄 中文摘要:
图像着色是将颜色添加到灰度图像中的任务,近年来在计算机视觉领域引起了广泛关注,其应用包括颜色恢复和自动动画着色等多个领域。由于图像着色问题高度不适定,丢失了图像三个维度中的两个,导致自由度极高,因此解决这一问题具有很大挑战性。然而,场景的语义信息以及表面纹理可以为颜色提供重要线索,例如天空通常是蓝色的,云通常是白色的,草地通常是绿色的。此外,大量的训练数据可用于学习这些先验知识,因为任何彩色图像都可以作为训练数据点。本研究提出了一种基于卷积神经网络(CNN)和生成对抗网络(GAN)的自动图像着色方法。研究团队利用CNN提取图像的语义和纹理特征,并通过GAN的生成与判别对抗过程,生成逼真的彩色图像。实验结果表明,该方法在多个公开数据集上取得了优于传统方法的性能,尤其是在颜色自然度和细节保留方面表现出色。研究还探讨了不同网络结构和损失函数对着色效果的影响,发现结合语义信息和对抗训练能够显著提升结果质量。结论指出,该方法不仅在技术上实现了突破,还为图像处理和内容生成领域提供了新的可能性,未来可进一步优化模型以处理更复杂的场景和动态图像。
图像着色卷积神经网络生成对抗网络计算机视觉语义信息
ULU:一种统一的激活函数
📝 作者: Simin Huo
📄 中文摘要:
本文提出了一种新颖的非单调分段激活函数ULU,其定义为当x=0时值为0,其他情况下为f(x;α)=0.5x(tanh(αx)+1),其中α>0。ULU对正输入和负输入采用了不同的处理方式,展现出独特的非对称特性。通过广泛的实验,作者证明ULU在图像分类和目标检测任务中显著优于ReLU和Mish等传统激活函数。此外,本文还提出了ULU的变体——自适应ULU(AULU),其表达式为当x=0时值为0,其他情况下为f(x;β1^2),其中β1和β2是可学习参数,使得AULU能够针对正负输入分别调整其响应特性,进一步提升模型的适应性。作者还基于AULU引入了LIB(Like Inductive Bias)指标,用于定量衡量模型的归纳偏差。这一指标为评估激活函数对模型学习行为的影响提供了新的视角。实验结果表明,ULU及其变体AULU在多个基准数据集上均取得了优异的性能,验证了其在深度学习模型中的应用潜力。作者总结认为,ULU通过其非单调和非对称的设计,为激活函数的研究提供了新的思路,可能对未来的神经网络架构设计产生深远影响。
激活函数深度学习图像分类目标检测归纳偏差
AdaFusion:基于提示引导的病理学基础模型自适应融合推理
📝 作者: Yuxiang Xiao, Yang Hu, Bin Li, Tianyang Zhang, Zexi Li, Huazhu Fu, Jens Rittscher, Kaixiang Yang
📄 中文摘要:
病理学基础模型(PFMs)通过在大规模未标注的组织病理图像数据集上进行自监督预训练,展现了强大的表征能力。然而,由于预训练环境受到数据相关因素和结构/训练因素的影响,这些模型表现出多样性且不透明,导致潜在的偏差,限制了其在下游应用中的泛化能力和透明度。本文提出了一种新颖的提示引导推理框架AdaFusion,据作者所知,这是首批动态整合多个PFMs互补知识的方法之一。AdaFusion通过压缩和对齐来自不同模型的瓦片级特征,并利用轻量级注意力机制根据组织表型上下文自适应地融合这些特征。本研究在三个真实世界基准数据集上对AdaFusion进行了评估,涵盖治疗响应预测、肿瘤分级和空间基因表达推断等任务。结果表明,AdaFusion在分类和回归任务上均显著优于单个PFM,同时提供了对每个模型生物语义特化性的可解释性见解。这些结果突显了AdaFusion在连接异构PFMs方面的能力,不仅提升了性能,还增强了对模型特定归纳偏差的解释能力。AdaFusion的创新方法为病理学图像分析领域提供了新的视角,有助于克服现有模型的局限性,推动多模型协作在医学影像分析中的应用。
病理学基础模型自适应融合提示引导推理医学影像分析可解释性
社会经济领域中的冷启动主动偏好学习
📝 作者: Mojtaba Fayaz-Bakhsh, Danial Ataee, MohammadAmin Fazli
📄 中文摘要:
主动偏好学习是一种高效建模偏好的强大范式,但其面临冷启动问题,即在没有初始标记数据时性能显著下降。这一挑战在计算社会系统和经济分析领域尤为突出,因为标记数据往往稀缺、昂贵且易受专家噪声影响。为解决这一问题,本文提出了一种新颖的冷启动主动偏好学习框架。该方法通过自监督预训练阶段启动学习过程,利用主成分分析(PCA)从数据的固有结构中提取初始伪标签,从而在无需初始预言机交互的情况下构建冷启动模型。随后,通过主动学习循环进一步优化模型,该循环策略性地向模拟的噪声预言机查询标签。本研究在多个不同领域的数据集上进行了广泛实验,包括金融信誉、职业成功率和社会经济地位。结果表明,与从零开始的标准主动学习策略相比,本文的冷启动方法在更少的标记对下实现了更高的准确性。该框架为缓解冷启动问题提供了实用且有效的解决方案,增强了偏好学习在数据受限环境中的样本效率和适用性。作者还公开了相关代码以供进一步研究和应用。
冷启动主动偏好学习自监督预训练主成分分析社会经济分析
雕刻边界惩罚:少样本类增量学习中的任务内适配器合并与分类器校准
📝 作者: Liang Bai, Hong Song, Jinfu Li, Yucong Lin, Jingfan Fan, Tianyu Fu, Danni Ai, Deqiang Xiao, Jian Yan
📄 中文摘要:
在现实世界应用中,数据隐私限制和高昂的获取成本使得类增量学习任务中假设有充足训练数据变得不切实际,导致性能显著下降。前向兼容学习通过在基础任务训练期间为未来任务做准备,成为少样本类增量学习(FSCIL)的一种有前景的解决方案。然而,现有方法在平衡基础类区分能力和新类泛化能力方面仍面临挑战。此外,在增量任务中对原始数据的有限访问往往导致类间决策边界模糊。为解决这些问题,本文提出了一种新的FSCIL方法——雕刻边界惩罚(SMP),该方法在参数高效微调范式中策略性地整合了不同阶段的边界惩罚。具体而言,在基础任务学习中引入了边界感知的任务内适配器合并(MIAM)机制。MIAM训练两组低秩适配器,分别采用不同的分类损失:一组带有边界惩罚以增强基础类的区分能力,另一组不带边界约束以促进对未来新类的泛化能力。随后,这两组适配器被自适应合并以提高前向兼容性。对于增量任务,提出了一种基于边界惩罚的分类器校准(MPCC)策略,通过对所有已见类的嵌入进行分类器微调并施加边界惩罚来优化决策边界。在CIFAR100、ImageNet-R和CUB200数据集上的广泛实验表明,SMP在FSCIL中实现了最先进的性能,同时在基础类和新类之间保持了更好的平衡。
少样本类增量学习前向兼容学习边界惩罚适配器合并分类器校准
从相似度置信度和置信度差异中学习
📝 作者: Tomoya Tate, Kosuke Sugiyama, Masato Uchida
📄 中文摘要:
在实际机器学习应用中,为数据分配准确标签往往具有挑战性,且增加标注实例的数量通常受到限制。在这种情况下,弱监督学习(Weakly Supervised Learning, WSL)通过利用不完整或不精确的监督信息进行训练,提供了一种实用且有效的解决方案。然而,现有的大多数弱监督学习方法仅关注单一类型的弱监督信号。本文提出了一种新颖的弱监督学习框架,通过整合来自多个关系视角的互补弱监督信号,特别是在标注数据有限时展现出显著价值。具体而言,本文引入了SconfConfDiff分类方法,该方法结合了两种不同的弱标签形式:相似度置信度和置信度差异,并将这些弱标签分配给未标注数据对。为了实现这一方法,本文推导了两种用于分类的无偏风险估计器:一种基于现有估计器的凸组合,另一种通过建模两种弱标签之间的交互新设计而成。理论证明,这两种估计器在估计误差界方面均达到了最优收敛率。此外,本文提出了一种风险校正方法,以缓解负经验风险导致的过拟合问题,并对所提方法在不准确类别先验概率和标签噪声下的鲁棒性进行了理论分析。实验结果表明,所提出的方法在多种设置下始终优于现有的基线方法,验证了其在弱监督学习领域的有效性和潜力。这一研究为处理有限标注数据场景下的机器学习任务提供了新的思路和工具。
弱监督学习相似度置信度置信度差异风险估计机器学习
AHDMIL:用于快速且准确的全切片图像分类的非对称层次蒸馏多实例学习
📝 作者: Jiuyang Dong, Jiahan Li, Junjun Jiang, Kui Jiang, Yongbing Zhang
📄 中文摘要:
本文提出了一种非对称层次蒸馏多实例学习框架(AHDMIL),旨在解决病理图像分类中多实例学习(MIL)因处理每张千兆像素全切片图像(WSI)中数千个切片而导致的高推理成本问题。AHDMIL通过两步训练过程剔除无关切片,实现快速且准确的分类。该框架包含两个核心组件:动态多实例网络(DMIN),用于处理高分辨率WSI;以及双分支轻量级实例预筛选网络(DB-LIPN),用于分析对应的低分辨率图像。第一步中,通过自蒸馏(SD),DMIN被训练用于WSI分类,同时生成每个实例的注意力分数以识别无关切片。这些分数指导第二步的非对称蒸馏(AD),DB-LIPN学习预测每个低分辨率切片的相关性。DB-LIPN预测的相关切片与高分辨率WSI中的切片具有空间对应关系,用于DMIN的微调和高效推理。此外,本文设计了计算病理学中首个基于切比雪夫多项式的Kolmogorov-Arnold(CKA)分类器,通过可学习的激活层提升分类性能。在四个公开数据集上的广泛实验表明,AHDMIL在分类性能和推理速度上均优于先前的最先进方法。例如,在Camelyon16数据集上,AHDMIL的准确率相对提高了5.3%,推理速度提升了1.2倍。在所有数据集上,曲线下面积(AUC)、准确率、F1分数和Brier分数均显示出一致的提升,平均推理速度提升在1.2到2.1倍之间。本研究为病理图像分析提供了高效且高性能的解决方案。
多实例学习全切片图像病理图像分类非对称蒸馏推理速度
HFedATM:基于最优传输和正则化均值聚合的层次联邦域泛化方法
📝 作者: Thinh Nguyen, Trung Phan, Binh T. Nguyen, Khoa D Doan, Kok-Seng Wong
📄 中文摘要:
联邦学习(FL)是一种去中心化的方法,允许多个客户端在不共享原始数据的情况下协作训练一个共享的全局模型。然而,传统联邦学习随着参与设备数量的增加,面临着计算和通信需求的巨大挑战,单一中央服务器的扩展性问题凸显。层次联邦学习(HFL)通过将模型聚合任务分布到中间节点(站点)来解决这些问题,从而提升系统的可扩展性和对单点故障的鲁棒性。尽管如此,HFL仍存在一个常被忽视的关键限制:域偏移,即不同客户端和站点间数据分布的显著差异,这会导致模型在未见目标域上的性能下降。近年来,联邦域泛化(FedDG)方法被提出以提高对域偏移的鲁棒性,但其在HFL框架中的集成研究尚不充分。本文正式提出了层次联邦域泛化(HFedDG)这一新场景,旨在研究层次架构中的域偏移问题,并设计了一种新的层次聚合方法HFedATM。该方法首先通过滤波器级最优传输对齐(Filter-wise Optimal Transport Alignment)对不同站点的模型卷积滤波器进行对齐,随后采用收缩感知的正则化均值聚合(Shrinkage-aware Regularized Mean Aggregation)合并对齐后的模型。广泛的实验评估表明,HFedATM在多个数据集上显著提升了现有FedDG基线的性能,同时保持了计算和通信效率。此外,理论分析表明,HFedATM相比标准层次平均方法具有更紧的泛化误差界限,从而实现了更快的收敛速度和更稳定的训练行为。本研究为解决层次联邦学习中的域偏移问题提供了重要的理论和实践贡献。
联邦学习层次联邦学习域泛化最优传输正则化聚合
基于深度学习的动物行为分析:来自小鼠慢性疼痛模型的见解
📝 作者: Yu-Hsi Chen, Wei-Hsin Chen, Chien-Yao Wang, Hong-Yuan Mark Liao, James C. Liao, Chien-Chang Chen
📄 中文摘要:
评估小鼠慢性疼痛行为对于临床前研究至关重要。然而,现有方法主要依赖于人工标注行为特征,而人类对哪些行为最能代表慢性疼痛缺乏清晰理解,导致现有方法难以准确捕捉慢性疼痛中隐匿且持续的行为变化。本研究提出了一种无需依赖人工定义动作标签即可自动发现与慢性疼痛相关特征的框架。该方法利用通用动作空间投影器自动提取小鼠动作特征,避免了人工标注可能引入的偏差,同时保留了原始视频中丰富的行为信息。此外,本研究还收集了一个小鼠疼痛行为数据集,涵盖了神经病理性疼痛和炎症性疼痛在多个时间点的疾病进展情况。实验结果表明,该方法在15类疼痛分类任务中取得了48.41%的准确率,显著优于人类专家(21.33%)和广泛使用的B-SOiD方法(30.52%)。当分类简化为仅三种类别(神经病理性疼痛、炎症性疼痛和无疼痛)时,该方法的准确率达到73.1%,同样明显高于人类专家(48%)和B-SOiD(58.43%)。此外,该方法在零样本加巴喷丁药物测试中揭示了不同类型疼痛的药物疗效差异,结果与以往药物疗效文献一致。本研究展示了该方法在临床应用中的潜力,为疼痛研究及相关药物开发提供了新的见解,有助于更深入地理解慢性疼痛行为特征及其治疗效果。
深度学习动物行为分析慢性疼痛小鼠模型药物疗效
FCBV-Net:通过特征条件双臂价值预测实现类别级机器人衣物平整
📝 作者: Mohammed Daba, Jing Qiu
📄 中文摘要:
类别级机器人衣物操作(如双臂平整)的泛化能力因高维度、复杂动态和类别内差异而面临重大挑战。现有方法往往难以应对,要么在特定实例上过度拟合同时学习的视觉特征,要么尽管具备类别级感知泛化能力,但无法有效预测协同双臂动作的价值。本研究提出了一种特征条件双臂价值网络(FCBV-Net),该网络基于3D点云操作,专门增强衣物平整任务的类别级策略泛化能力。FCBV-Net通过预训练且冻结的密集几何特征对双臂动作价值预测进行条件化,确保对类别内衣物差异的鲁棒性。随后,可训练的下游组件利用这些静态特征学习特定任务的策略。在使用CLOTH3D数据集的GarmentLab模拟实验中,FCBV-Net展现出卓越的类别级泛化能力。对于未见过的衣物,其效率下降(Steps80)仅为11.5%,相比之下,基于2D图像的基线下降高达96.2%。此外,FCBV-Net实现了89%的最终覆盖率,优于基于3D对应关系的基线(覆盖率为83%),后者虽使用相同的逐点几何特征,但依赖固定的基本操作。这些结果表明,将几何理解与双臂动作价值学习解耦能够显著提升类别级泛化能力。本研究为机器人衣物操作的类别级泛化提供了一种有效方法,具有重要的理论和应用价值。
机器人衣物操作类别级泛化双臂价值预测3D点云特征条件网络
pFedDSH:通过无数据子超网络实现个性化联邦学习中的知识转移
📝 作者: Thinh Nguyen, Le Huy Khiem, Van-Tuan Tran, Khoa D Doan, Nitesh V Chawla, Kok-Seng Wong
📄 中文摘要:
联邦学习(FL)通过在分布式客户端之间协作训练模型而无需共享原始数据,提供了显著的隐私保护优势。然而,大多数现有的个性化联邦学习(pFL)方法假设客户端参与是静态的,这与现实世界中不断有新客户端加入联邦系统(即动态客户端加入)的场景不符。本文探讨了一种实际场景,即在学习任务不变的情况下,逐步引入新批次的客户端。这种动态环境带来了多重挑战,包括在不重新训练的情况下保持现有客户端的性能,以及实现客户端批次之间的高效知识转移。为解决这些问题,本文提出了个性化联邦无数据子超网络(pFedDSH),这是一个基于中央超网络的新颖框架,通过嵌入向量为每个客户端生成个性化模型。为了维持现有客户端的知识稳定性,pFedDSH引入了批次特定的掩码,通过激活神经元子集来保留知识。此外,本文还引入了一种受DeepInversion启发的无数据回放策略,以促进反向转移,在不损害隐私的前提下提升现有客户端的性能。在CIFAR-10、CIFAR-100和Tiny-ImageNet数据集上的广泛实验表明,pFedDSH在所研究的场景中优于最先进的pFL和联邦持续学习基线方法。我们的方法在现有客户端的性能稳定性、新客户端的适应性以及神经资源的高效利用方面均表现出色。
个性化联邦学习知识转移无数据回放超网络动态客户端
旋转等变任意尺度图像超分辨率
📝 作者: Qi Xie, Jiahong Fu, Zongben Xu, Deyu Meng
📄 中文摘要:
任意尺度图像超分辨率(ASISR)是计算机视觉领域近年来的热门研究课题,旨在从低分辨率输入图像中实现任意尺度的高分辨率恢复。该任务通过将图像表示为连续隐式函数来实现,主要依赖于两个核心模块:基于深度网络的编码器和隐式神经表示(INR)模块。尽管已有显著进展,但这一高度病态问题的关键挑战在于,低分辨率图像中的许多常见几何模式(如重复纹理、边缘或形状)会严重扭曲和变形,导致高分辨率恢复中出现意外的伪影。因此,将旋转等变性嵌入到ASISR网络中显得尤为必要,因为已有研究广泛证明,这种增强能够使恢复结果忠实地保持输入图像中几何模式的原始方向和结构完整性。基于此,本研究致力于构建一种旋转等变的ASISR方法。具体而言,我们精心重新设计了INR和编码器模块的基本架构,引入了超越传统ASISR网络的内在旋转等变能力。通过这种改进,ASISR网络首次实现了从输入到输出的端到端旋转等变性。我们还提供了坚实的理论分析来评估其内在等变误差,证明了嵌入这种等变结构的固有特性。实验结果进一步证实了所提出方法的优越性,实验在模拟和真实数据集上均取得了显著成效。此外,我们验证了该框架可以以即插即用的方式轻松集成到现有的ASISR方法中,进一步提升其性能。本研究为解决低分辨率图像恢复中的几何失真问题提供了新的视角和有效工具。
图像超分辨率旋转等变隐式神经表示计算机视觉深度学习
S$^2$M-Former:用于脑听觉注意力检测的尖峰对称混合分支变换器
📝 作者: Jiaqi Wang, Zhengyu Ma, Xiongri Shen, Chenlin Zhou, Leilei Zhao, Han Zhang, Yi Zhong, Siqi Cai, Zhen
📄 中文摘要:
听觉注意力检测(AAD)旨在通过脑电图(EEG)记录解码听者在复杂听觉环境中的注意力焦点,这对于开发神经驱动的听力设备至关重要。尽管近年来取得了进展,但基于EEG的AAD仍受限于缺乏协同框架,无法在能效约束下充分利用互补的EEG特征。本研究提出了一种新颖的尖峰对称混合框架S$^2$M-Former,通过两大创新解决这一局限:一是提出了一种尖峰驱动的对称架构,由并行的空间和频率分支组成,采用镜像模块化设计,利用生物学上合理的令牌-通道混合器增强分支间的互补学习;二是引入轻量级一维令牌序列替代传统的三维操作,将参数量减少了14.7倍。受大脑启发的尖峰架构进一步降低了功耗,与近期的人工神经网络(ANN)方法相比,能耗降低了5.8倍,同时在参数效率和性能上超越了现有的尖峰神经网络(SNN)基线。在三个AAD基准数据集(KUL、DTU和AV-GC-AAD)上的全面实验,涵盖三种设置(试验内、跨试验和跨受试者),表明S$^2$M-Former实现了与最先进的解码精度相当的性能,使其成为AAD任务中一种有前景的低功耗高性能解决方案。本研究不仅在技术上实现了创新,还为神经驱动听力设备的实际应用提供了重要支持,具有显著的学术和应用价值。
听觉注意力检测脑电图尖峰神经网络对称混合框架能效优化
SPA++:通用领域适应的广义图谱对齐框架
📝 作者: Zhiqing Xiao, Haobo Wang, Xu Lu, Wentao Ye, Gang Chen, Junbo Zhao
📄 中文摘要:
领域适应(Domain Adaptation, DA)旨在将知识从有标签的源领域转移到无标签或稀疏标签的目标领域,以应对领域偏移问题。现有研究多集中于捕捉领域间的可转移性,但往往忽略了领域内的丰富结构,导致目标领域的区分能力甚至下降。为解决这一矛盾,本文提出了一种广义图谱对齐框架SPA++。该框架的核心包括以下三个方面:首先,通过将领域适应问题转化为图结构问题,构建了一种粗粒度的图对齐机制,并引入了一种新的谱正则化方法,在特征空间中对齐源领域和目标领域的图结构;其次,开发了一种细粒度的邻域感知传播机制,以增强目标领域的区分能力;最后,通过结合数据增强和一致性正则化,SPA++能够适应包括大多数领域适应设置在内的复杂场景,甚至应对具有挑战性的分布情景。此外,本文还提供了理论分析支持,包括基于图的领域适应的泛化界限以及谱对齐和平滑一致性的作用。大量基准数据集上的实验表明,SPA++在各种具有挑战性的适应场景中持续优于现有的前沿方法,展现出卓越的鲁棒性和适应性。研究结果表明,SPA++在领域适应任务中实现了显著的性能提升,为解决领域偏移问题提供了新的视角和方法。
领域适应图谱对齐机器学习数据增强一致性正则化
无源跨域少样本分割的文本与视觉引导任务适应
📝 作者: Jianming Liu, Wenlong Qiu, Haitao Wei
📄 中文摘要:
少样本分割(FSS)旨在通过少量标注样本高效分割新对象。然而,当训练域与部署域之间存在域差异时,其性能会显著下降。为解决这一问题,跨域少样本分割(CD-FSS)被提出以缓解性能下降。现有CD-FSS方法主要致力于在源域上开发能够跨域泛化的分割模型。然而,由于数据隐私问题的日益加剧以及减少数据传输和训练成本的需求,开发无源CD-FSS方法变得至关重要。本研究提出了一种无源CD-FSS方法,利用文本和视觉信息在不依赖源域数据的情况下促进目标域任务适应。具体而言,我们首先在预训练骨干网络的特征金字塔中添加任务特定注意力适配器(TSAA),以适应从共享预训练骨干网络中提取的多层次特征到目标任务。然后,通过视觉-视觉嵌入对齐(VVEA)模块和文本-视觉嵌入对齐(TVEA)模块训练TSAA参数。VVEA模块利用全局-局部视觉特征对不同视图的图像特征进行对齐,而TVEA模块则利用预对齐的多模态特征(如CLIP)的文本先验来指导跨模态适应。通过密集比较操作结合这两个模块的输出,并通过跳跃连接进行融合,我们的方法生成了精细的预测掩码。在1-shot和5-shot设置下,该方法在四个跨域数据集上的平均分割精度分别提高了2.18%和4.11%,显著优于现有的CD-FSS方法。这一研究为无源跨域少样本分割提供了有效的解决方案,具有重要的应用价值。
少样本分割跨域分割无源适应文本视觉对齐任务适应
不要追求星辰:重新思考联邦学习的拓扑结构以提升鲁棒性
📝 作者: Mirko Konstantin, Anirban Mukhopadhyay
📄 中文摘要:
联邦学习(FL)通过在分布式客户端之间进行协作模型训练,同时保持数据本地化以保护隐私。传统的联邦学习方法依赖于中心化的星形拓扑结构,其中中央服务器负责聚合来自客户端的模型更新。然而,这种架构存在多个局限性,包括单点故障、个性化能力有限、对分布偏移的鲁棒性较差以及对故障客户端的脆弱性。此外,中心化联邦学习中的更新选择通常依赖于低层次的参数差异,当客户端数据不是独立同分布时,这种方法可能不可靠,且客户端的控制权有限。本研究提出了一种去中心化的点对点(P2P)联邦学习框架,利用P2P拓扑的灵活性,使每个客户端能够识别并聚合一组个性化的、可信且有益的更新。该框架被命名为‘本地推理引导的异构训练环境聚合以通过一致性和正则化提升效果(LIGHTYEAR)’。该方法的核心是一个一致性分数,通过本地验证集计算,量化了功能空间中传入更新与客户端参考模型的语义对齐程度。每个客户端根据该分数选择定制化的更新子集,并通过附加正则化项进行聚合,进一步稳定训练过程。在两个数据集上的实证评估表明,该方法在客户端级别的性能上始终优于中心化基线和现有的P2P方法,特别是在对抗性和异构条件下表现尤为突出。本研究为联邦学习提供了一种新的拓扑视角,显著提升了系统的鲁棒性和个性化能力,为分布式机器学习领域的发展提供了重要参考。
联邦学习点对点拓扑去中心化鲁棒性个性化更新
分割两相流中的复杂和不规则结构:基于SAM2的现实世界实证研究
📝 作者: Semanur K\"u\c{c}\"uk, Cosimo Della Santina, Angeliki Laskari
📄 中文摘要:
在多相流中分割气泡是一项关键但尚未解决的挑战,广泛应用于冶金加工到海上阻力减小等工业场景。传统方法以及大多数最新的基于学习的方法通常假设气泡接近球形,这限制了它们在气泡发生变形、合并或破裂的复杂情况下的有效性。这种复杂性在空气润滑系统中尤为明显,其中合并的气泡形成无定形且拓扑结构多样的斑块。本研究通过现代视觉基础模型的视角重新审视了这一问题,将任务转化为一个迁移学习问题,并首次证明了经过微调的Segment Anything Model (SAM v2.1) 能够在仅使用100张标注图像的情况下,准确分割高度非凸和不规则的气泡结构。研究背景聚焦于解决工业应用中气泡分割的实际需求,主要方法包括利用SAM v2.1模型进行迁移学习,通过少量标注数据实现高效的模型适应。关键发现表明,该方法在处理复杂气泡形态时表现出显著的鲁棒性和准确性,特别是在气泡变形和合并的场景中。结论指出,基于现代视觉基础模型的迁移学习为多相流中气泡分割提供了一种高效且实用的解决方案,未来可进一步扩展到其他工业领域的复杂分割任务中。这一研究为解决现实世界中的视觉分割难题提供了新的思路和工具,具有重要的应用价值。
两相流气泡分割迁移学习视觉基础模型SAM2
CWEFS:受脑体积传导效应启发的通道级EEG特征选择用于多维情感识别
📝 作者: Xueyuan Xu, Wenjia Dong, Fulin Wei, Li Zhuo
📄 中文摘要:
由于颅内体积传导效应的影响,高维多通道脑电图(EEG)特征往往包含大量的冗余和无关信息,这不仅阻碍了区分性情感表征的提取,还降低了实时性能。特征选择已被证明是解决这一挑战的有效方法,同时提升了情感识别模型的透明度和可解释性。然而,现有EEG特征选择研究忽视了潜在EEG特征结构对情感标签相关性的影响,并假设各通道的重要性一致,直接限制了多维情感计算中EEG特征选择模型的精确构建。为解决这些局限性,本文提出了一种新颖的通道级EEG特征选择方法(CWEFS)用于多维情感识别。具体而言,CWEFS受脑体积传导效应的启发,将EEG情感特征选择整合到一个共享的潜在结构模型中,旨在构建跨不同EEG通道的一致潜在空间。为了保留局部几何结构,该一致空间进一步与多维情感标签的潜在语义分析相结合。此外,CWEFS引入了自适应通道权重学习,以自动确定不同EEG通道在情感特征选择任务中的重要性。CWEFS的有效性通过三个流行的多维情感标签EEG数据集得到验证。与十九种特征选择方法相比,全面的实验结果表明,CWEFS选择的EEG特征子集在六个评估指标上均实现了最佳的情感识别性能。这一研究为EEG特征选择提供了新的视角,并显著提升了多维情感识别的精度和效率。
脑电图特征选择情感识别体积传导效应多维情感计算
FDC-Net:重新思考EEG伪影去除与多维情感计算之间的关联
📝 作者: Wenjia Dong, Xueyuan Xu, Tianze Yu, Junming Zhang, Li Zhuo
📄 中文摘要:
基于脑电图(EEG)的情感识别在情感计算和脑机接口领域具有重要价值。然而,在实际应用中,EEG记录易受多种生理伪影的影响。传统方法通常将去噪和情感识别视为独立任务,采用级联架构处理,这不仅导致误差累积,还未能充分利用两任务之间的潜在协同效应。此外,传统的EEG情感识别模型往往基于“完美去噪数据”的理想化假设,缺乏对噪声鲁棒性的系统设计。为解决这些挑战,本文提出了一种新颖的框架——反馈驱动协作网络(FDC-Net),通过深度耦合去噪和情感识别任务实现端到端的噪声鲁棒情感识别。FDC-Net的主要创新在于通过以下方式建立了伪影去除与情感识别之间的动态协作机制:(1)采用联合优化策略的双向梯度传播;(2)结合频率自适应Transformer和可学习频带位置编码的门控注意力机制。研究使用两个流行的EEG情感数据集(DEAP和DREAMER)进行实验,数据集包含多维情感标签,并将FDC-Net与九种最先进的方法在伪影去除和情感识别性能上进行比较。在去噪任务中,FDC-Net在DEAP数据集上的最大相关系数(CC)值为96.30%,在DREAMER数据集上为90.31%。在生理伪影干扰下的情感识别任务中,FDC-Net在DEAP数据集上的情感识别准确率为82.3±7.1%,在DREAMER数据集上为88.1±0.8%。研究结果表明,FDC-Net在去噪和情感识别任务中均表现出色,为EEG情感计算提供了有效的解决方案,并展示了任务协同优化的潜力。
脑电图情感识别伪影去除噪声鲁棒性深度学习
小波引导的双频编码用于遥感变化检测
📝 作者: Xiaoyang Zhang, Guodong Fan, Guang-Yong Chen, Zhen Hua, Jinjiang Li, Min Gan, C. L. Philip Chen
📄 中文摘要:
遥感图像中的变化检测在自然灾害监测、城市扩张追踪和基础设施管理等工程应用中发挥着重要作用。尽管近年来深度学习取得了显著进展,但现有方法大多依赖于空间域建模,特征表示的多样性有限,难以检测细微变化区域。本研究观察到,频域特征建模,特别是小波域建模,能够放大频率分量的细粒度差异,从而增强对空间域中难以捕捉的边缘变化的感知能力。为此,本文提出了一种名为小波引导的双频编码(WGDF)的方法。具体而言,首先通过离散小波变换(DWT)将输入图像分解为高频和低频分量,分别用于建模局部细节和全局结构。在高频分支中,设计了双频特征增强(DFFE)模块以强化边缘细节表示,并引入频域交互差异(FDID)模块以增强细粒度变化的建模能力。在低频分支中,利用Transformer捕捉全局语义关系,并采用渐进式上下文差异模块(PCDM)逐步细化变化区域,实现精确的结构语义表征。最后,通过协同融合高频和低频特征,统一局部敏感性和全局区分能力。在多个遥感数据集上的广泛实验表明,WGDF方法显著缓解了边缘模糊问题,相较于现有最先进方法,取得了更高的检测精度和鲁棒性。该研究的代码将在https://github.com/boshizhang123/WGDF上公开。
遥感变化检测小波变换双频编码深度学习频域建模
CoCAViT:具有鲁棒全局协调的紧凑视觉变换器
📝 作者: Xuyang Wang, Lingjuan Miao, Zhiqiang Zhou
📄 中文摘要:
近年来,大规模视觉骨干网络通过广泛的预训练在图像中学习通用特征方面展现了卓越能力。同时,许多高效架构也涌现出来,其在领域内基准测试中的性能可与更大模型媲美。然而,研究发现,对于较小的模型,在分布外(OOD)数据上的性能下降幅度更大,表明现有高效模型在泛化性能上存在不足。为解决这一问题,本文识别了导致该问题的关键架构瓶颈和不当设计选择,旨在为较小模型保留鲁棒性。为了恢复纯窗口注意力的全局视野,本文进一步引入了协调器-补丁交叉注意力(CoCA)机制,该机制具有动态的、领域感知的全局令牌,能够增强局部-全局特征建模,并自适应地捕获跨领域的鲁棒模式,同时计算开销极低。结合这些改进,本文提出了CoCAViT,一种为鲁棒实时视觉表示设计的新型视觉骨干网络。大量实验验证了该设计的有效性。在224*224分辨率下,CoCAViT-28M在ImageNet-1K上实现了84.0%的top-1准确率,在多个OOD基准测试中取得了显著提升,优于竞争模型。此外,它在COCO目标检测上达到了52.2 mAP,在ADE20K语义分割上达到了51.3 mIOU,同时保持了低延迟。研究结果表明,CoCAViT在高效性和鲁棒性之间取得了良好的平衡,为计算机视觉领域中小型模型的泛化能力提供了重要改进。
视觉变换器鲁棒性全局协调泛化性能计算机视觉
分而治之:增强半监督持续学习中的无标签学习、稳定性和可塑性
📝 作者: Yue Duan, Taicai Chen, Lei Qi, Yinghuan Shi
📄 中文摘要:
半监督持续学习(SSCL)旨在在顺序学习环境中同时利用有标签和无标签数据,以降低标注成本并应对持续到达的数据。SSCL 面临多重复杂挑战,包括确保有效的无标签学习(UL),同时平衡记忆稳定性(MS)和学习可塑性(LP)。以往的 SSCL 研究通常仅关注这三个方面的某一孤立部分,而本文提出了一种名为 USP 的分而治之框架,旨在协同增强这三个方面:(1)特征空间保留(FSR)策略,用于提升学习可塑性(LP),通过将旧类别塑造成等角紧框架,为未来类别构建保留的特征位置;(2)分而治之伪标签(DCP)方法,用于无标签学习(UL),对高置信度和低置信度的无标签数据均分配可靠的伪标签;(3)类均值锚定无标签蒸馏(CUD),用于记忆稳定性(MS),重用 DCP 的输出,将无标签数据锚定到稳定的类均值上进行蒸馏,以防止遗忘。全面的评估表明,USP 在最终准确率上比之前的 SSCL 方法提高了高达 5.94%,验证了其有效性。本文的代码已公开,链接为 https://github.com/NJUyued/USP4SSCL。通过综合考虑无标签学习、稳定性和可塑性,USP 框架为半监督持续学习提供了一种创新且高效的解决方案,对未来的研究和应用具有重要参考价值。
半监督持续学习无标签学习记忆稳定性学习可塑性分而治之框架
文本反转用于高效适应开放词汇目标检测器而不遗忘
📝 作者: Frank Ruis, Gertjan Burghouts, Hugo Kuijf
📄 中文摘要:
本文提出了一种基于文本反转(Textual Inversion, TI)的创新方法,用于高效适应大型预训练视觉语言模型(VLMs)以进行开放词汇目标检测,同时避免遗忘原有能力。近年来,大型VLMs在多个目标检测基准测试中取得了最先进的性能,并展现出强大的零样本能力。然而,为了在特定目标上获得最佳性能,仍需进行一定程度的微调。传统的微调方法虽然能通过少样本学习实现良好的迁移学习效果,但往往会导致模型丧失原有的自然语言查询和零样本能力。受文本反转在个性化文本到图像扩散模型中成功的启发,本文提出了一种类似的方法,通过学习新的或改进现有的词汇标记(tokens),使VLM能够从仅三个示例中准确检测新颖或细粒度的对象。所学习的标记与原始VLM权重完全兼容,同时保持原始权重冻结,从而保留了模型在基准测试中的性能,并充分利用其现有能力,如零样本领域迁移(例如,仅在真实照片上训练后即可检测对象的草图)。此外,该方法将存储和梯度计算限制在标记嵌入维度上,相较于全模型微调显著降低了计算需求。作者通过广泛的定量和定性实验评估了该方法是否能匹配或超越那些存在遗忘问题的基线方法。实验结果表明,该方法在保持模型原有能力的同时,实现了对新目标的高效适应,为开放词汇目标检测提供了一种计算效率高且性能优越的解决方案。
文本反转开放词汇目标检测视觉语言模型少样本学习零样本能力
PriorRG:基于先验引导的对比预训练与粗到细解码的胸部X射线报告生成
📝 作者: Kang Liu, Zhuoqi Ma, Zikang Fang, Yunan Li, Kun Xie, Qiguang Miao
📄 中文摘要:
胸部X射线报告生成旨在通过自动生成高质量的初步报告来减轻放射科医生的工作负担。然而,如何有效利用患者特定的先验知识(如临床背景、症状、病史以及最近的先验图像)仍是一个关键但未被充分探索的问题,而这些信息是放射科医生在诊断推理中常规依赖的依据。现有方法大多基于单一图像生成报告,忽略了这些重要的先验信息,导致无法捕捉诊断意图或疾病进展。为解决这一问题,本文提出了PriorRG,一个新型的胸部X射线报告生成框架,通过两阶段训练流程模拟真实的临床工作流程。在第一阶段,引入了一种基于先验引导的对比预训练方案,利用临床背景指导时空特征提取,使模型更贴近放射学报告中的内在时空语义。在第二阶段,提出了一种先验感知的粗到细解码方法,用于报告生成,该方法逐步将患者特定的先验知识与视觉编码器的隐藏状态相结合。这种解码方式使模型能够聚焦于诊断重点并追踪疾病进展,从而提高生成报告的临床准确性和流畅性。在MIMIC-CXR和MIMIC-ABN数据集上的广泛实验表明,PriorRG在性能上优于现有最先进方法,在MIMIC-CXR数据集上BLEU-4和F1分数分别提升了3.6%和3.8%,在MIMIC-ABN数据集上BLEU-1分数提升了5.9%。研究代码和检查点将在论文被接受后发布。
胸部X射线报告生成先验知识对比预训练粗到细解码
CT-GRAPH:基于解剖学指导的CT报告生成的层次图注意力网络
📝 作者: Hamza Kalisch, Fabian H\"orst, Jens Kleesiek, Ken Herrmann, Constantin Seibold
📄 中文摘要:
随着医学影像在诊断过程中的核心地位日益凸显,自动化生成放射学报告以减轻放射科医生繁重工作负担的需求日益增加。当前大多数方法仅依赖于全局图像特征,未能捕捉到对准确报告至关重要的细粒度器官关系。为此,本研究提出了一种名为CT-GRAPH的层次图注意力网络,通过将解剖区域构建为图结构,显式地建模放射学知识,将细粒度的器官特征与更粗粒度的解剖系统以及全局患者上下文相连接。该方法利用预训练的3D医学特征编码器,通过解剖掩码获取全局和器官级别的特征。这些特征在图结构中进一步细化,随后被整合到大型语言模型中以生成详细的医学报告。本研究在大型胸部CT数据集CT-RATE上对报告生成任务进行了评估,并深入分析了预训练特征编码器在CT报告生成中的作用。实验结果表明,与当前最先进的方法相比,CT-GRAPH在F1分数上实现了7.9%的显著提升。本研究的代码已公开,展示了其在医学影像报告生成领域的应用潜力,为未来的研究提供了重要参考。
医学影像CT报告生成图注意力网络解剖学指导预训练编码器
用于组织病理全切片图像分析的可变形注意力图表示学习
📝 作者: Mingxi Fu, Xitong Ling, Yuxuan Chen, Jiawen Li, fanglei fu, Huaitian Yuan, Tian Guan, Yonghong He, L
📄 中文摘要:
本文提出了一种新颖的图神经网络(GNN)框架,结合可变形注意力机制,用于组织病理全切片图像(WSIs)和感兴趣区域(ROIs)的精确分类,这是计算病理学中的一项基本挑战。传统方法多采用多实例学习(MIL),但难以捕捉组织结构之间的空间依赖性。虽然图神经网络通过建模实例间关系提供了一种解决方案,但大多数方法依赖静态图拓扑,忽略了组织切片的空间位置信息。此外,常规注意力机制缺乏特异性,限制了其聚焦于结构相关区域的能力。本研究基于切片特征构建了一个动态加权有向图,其中每个节点通过注意力加权边从邻居节点聚合上下文信息。特别地,模型引入了基于切片真实坐标的可学习空间偏移量,使其能够自适应地关注切片中形态学相关的区域。这一设计在保留空间特异性的同时显著扩展了上下文视野。实验结果表明,该框架在四个基准数据集(TCGA-COAD、BRACS、胃肠化生分级和肠道ROI分类)上取得了最先进的性能,证明了可变形注意力在捕捉WSIs和ROIs复杂空间结构方面的强大能力。研究结论强调了该方法在提升计算病理学图像分析精度和效率方面的潜力,为未来的病理诊断和研究提供了重要工具。
图神经网络可变形注意力组织病理图像全切片图像计算病理学
使用机器学习和合成数据生成对中小企业银行交易进行分类
📝 作者: Aluffi Pietro Alessandro, Brandi Jess, Marya Bazzi, Kate Kennedy, Matt Arderne, Daniel Rodrigues, Ma
📄 中文摘要:
中小企业(SME)尽管对经济贡献显著,但由于信息不对称,传统融资渠道对其获取资金构成持续障碍。现金流贷款作为一种有前景的替代方案,其有效性依赖于对交易级数据的准确建模。然而,中小企业交易分析的主要挑战在于文本描述的非结构化特性,包括极端缩写、上下文有限以及标签分布不平衡等问题。与消费者交易描述通常具有跨个体的显著共性不同,中小企业交易描述往往因企业和行业差异而呈现非标准化和不一致性。为解决这些挑战,本研究提出了一种银行交易分类流程,利用合成数据生成技术扩充现有交易数据集。该方法包括三个核心组成部分:(1)一个合成数据生成模块,能够在保留上下文和语义意义的同时复制交易属性;(2)一个在扩充数据集上微调的分类模型;(3)一个校准方法,确保模型输出与现实世界的标签分布一致。实验结果表明,该方法在保留数据上的标准准确率为73.49%(±5.09),高置信度预测的准确率达到90.36%(±6.52)。模型在不同类型中小企业和交易中表现出强大的泛化能力,适用于现金流贷款应用的实际部署。通过解决数据稀缺、噪声和不平衡等核心问题,本框架为数据稀疏的中小企业贷款场景中构建稳健的分类系统提供了实用解决方案。研究结果不仅提升了交易分类的准确性,还为中小企业融资提供了技术支持,具有重要的应用价值。
中小企业机器学习合成数据交易分类现金流贷款
任务复杂性塑造神经网络的内部表征和鲁棒性
📝 作者: Robert Jankowski, Filippo Radicchi, M. \'Angeles Serrano, Mari\'an Bogu\~n\'a, Santo
📄 中文摘要:
神经网络在多种任务中表现出色,但其内部机制仍是一个黑箱问题,特别是任务复杂性如何影响输入数据和问题解决的内部表征尚不明确。本研究引入了五种与数据无关的探测方法——剪枝、二值化、噪声注入、符号翻转和二分网络随机化,以量化任务难度对多层感知器(MLP)中表征拓扑结构和鲁棒性的影响。从网络科学的角度,将MLP表示为有符号的加权二分图,并对比了在MNIST和Fashion-MNIST数据集上的简单和困难分类任务的表现。研究发现,在困难任务模型中对权重进行二值化会导致准确率骤降至随机水平,而简单任务模型则表现出较强的鲁棒性。此外,在二值化的困难任务模型中剪枝低幅度边会引发性能的急剧相变。研究还发现,适度的噪声注入可以提高准确率,类似于与小幅度权重符号翻转相关的最佳随机共振效应。最后,仅保留符号结构而非精确权重幅度的二分网络随机化足以维持高准确率。这些现象定义了一种与模型和模态无关的任务复杂性度量:全精度与二值化或打乱后的神经网络性能之间的差距。研究结果强调了有符号二分拓扑在学习表征中的关键作用,并提出了与任务复杂性相符的模型压缩和可解释性的实用策略。
神经网络任务复杂性内部表征鲁棒性二分拓扑
F2PASeg:内窥镜手术中垂体解剖结构分割的特征融合方法
📝 作者: Lumin Chen, Zhiying Wu, Tianye Lei, Xuexue Bai, Ming Feng, Yuxi Wang, Gaofeng Meng, Zhen Lei, Hongbi
📄 中文摘要:
垂体肿瘤常导致邻近重要结构的变形或包裹,解剖结构分割技术能够为外科医生提供手术风险区域的早期预警,从而提高垂体手术的安全性。然而,垂体手术的像素级标注视频流数据集极为稀缺。为解决这一问题,本研究引入了一个新的垂体解剖结构分割(PAS)数据集,包含从120个视频中提取的7845张时间连贯图像。为缓解类别不平衡问题,研究团队在训练数据中应用数据增强技术,模拟手术器械的存在。垂体解剖结构分割的一个主要挑战是由于遮挡、相机运动和术中出血导致的特征表示不一致。为此,本文提出了F2PASeg模型,通过特征融合模块,利用高分辨率图像特征和深度语义嵌入来优化解剖结构分割,增强了对术中变化的鲁棒性。实验结果表明,F2PASeg能够在实时情况下持续分割关键解剖结构,为术中垂体手术规划提供了可靠的解决方案。本研究不仅填补了垂体手术数据集的空白,还通过创新的特征融合方法显著提升了分割精度和稳定性,对内窥镜手术的精准性和安全性具有重要意义。代码已开源,供进一步研究和应用。
垂体解剖分割特征融合内窥镜手术医学图像处理数据增强
SMOL-MapSeg:展示单一标签
📝 作者: Yunshuang Yuan, Frank Thiemann, Thorsten Dahms, Monika Sester
📄 中文摘要:
历史地图对于研究地球表面的变化具有重要价值。随着深度学习的兴起,UNet等模型已被用于通过语义分割从这些地图中提取信息。近年来,预训练的基础模型在自动驾驶、医学成像和工业检测等领域表现出色。然而,这些模型在处理历史地图时面临挑战。由于预训练模型主要基于现代或特定领域的图像进行训练,其模式可以通过常识或专家知识与预定义概念相关联,而历史地图缺乏这种一致性——相似概念可能以完全不同的形状和风格呈现。为解决这一问题,本文提出了一种基于需求的声明式(On-Need Declarative, OND)知识提示方法,通过明确的提示指导模型识别特定模式与概念的对应关系。用户可在推理过程中指定目标概念和模式(即基于需求的推理)。具体实现上,本文将基础模型SAM的提示编码器替换为OND提示机制,并在历史地图数据集上进行微调,开发出名为SMOL-MapSeg(Show Me One Label)的模型。实验结果表明,SMOL-MapSeg能够准确分割由OND知识定义的类别,并通过少样本微调适应未见过的类别。此外,其平均分割性能优于基于UNet的基准模型。本研究为历史地图的语义分割提供了一种创新解决方案,展示了通过知识引导提升模型适应性的潜力,对文化遗产数字化和历史地理研究具有重要意义。
历史地图语义分割深度学习知识提示少样本学习
揭示潜在信息:一种受物理启发的自监督预训练框架用于噪声和稀疏事件数据
📝 作者: Lin Zhu, Ruonan Liu, Xiao Wang, Lizhi Wang, Hua Huang
📄 中文摘要:
事件相机作为一种新型神经形态视觉传感器,以其高时间分辨率和宽动态范围记录数据,为复杂场景下的精确视觉表示提供了新的可能性。然而,事件数据本质上稀疏且充满噪声,主要反映亮度变化,这使得有效特征提取变得复杂。为解决这一问题,本文提出了一种自监督预训练框架,旨在充分揭示事件数据中的潜在信息,包括边缘信息和纹理线索。该框架包含三个阶段:首先,基于差异引导的掩码建模阶段,受事件物理采样过程的启发,重构时间强度差异图,从原始事件数据中提取增强信息;其次,骨干网络固定的特征转换阶段,通过对比事件和图像特征而不更新骨干网络,保留掩码建模阶段学习的表示,并稳定其对对比学习的影响;最后,聚焦目标的对比学习阶段,更新整个模型,通过关注高价值区域提升语义区分能力。大量实验表明,该框架具有鲁棒性,在多个下游任务(如目标识别、语义分割和光流估计)中持续优于现有最先进方法。本文的代码和数据集已公开,展示了其在事件数据处理领域的应用潜力。研究结果表明,该框架不仅有效解决了事件数据的稀疏性和噪声问题,还为神经形态视觉传感器的应用提供了新的思路,具有重要的理论和实践意义。
事件相机自监督学习预训练框架计算机视觉特征提取
FS-IQA:用于鲁棒图像质量评估的认证特征平滑方法
📝 作者: Ekaterina Shumitskaya, Dmitriy Vatolin, Anastasia Antsiferova
📄 中文摘要:
本文提出了一种新颖的认证防御方法FS-IQA,用于图像质量评估(IQA)模型,基于在特征空间而非输入空间中应用随机平滑噪声。与以往直接在输入图像中注入高斯噪声的方法不同,后者往往会降低视觉质量,而本文方法在提供鲁棒性保证的同时保留了图像保真度。为了在特征空间的噪声水平与输入空间的相应扰动之间建立形式化联系,作者分析了骨干网络雅可比矩阵的最大奇异值。该方法支持全参考(FR)和无参考(NR)IQA模型,无需对架构进行任何修改,适用于多种场景。此外,该方法计算效率高,每张图像仅需一次骨干网络前向传递。与先前方法相比,在不进行认证时推理时间减少了99.5%,在应用认证时减少了20.6%。作者在两个基准数据集上进行了广泛实验,涉及六种广泛使用的FR和NR IQA模型,并与五种最先进的认证防御方法进行了比较。实验结果表明,与主观质量评分的相关性一致提升,最高达30.9%。该研究为IQA模型的鲁棒性提供了有效的解决方案,展示了在保持图像质量的同时抵御扰动的潜力,对计算机视觉领域具有重要意义。结论指出,FS-IQA方法在计算效率和鲁棒性之间取得了良好平衡,为未来的IQA研究奠定了基础。
图像质量评估特征平滑鲁棒性随机平滑计算机视觉
最优大脑连接:面向高效结构化剪枝的研究
📝 作者: Shaowu Chen, Wei Ma, Binhua Huang, Qingyuan Wang, Guoxin Wang, Weize Sun, Lei Huang, Deepu John
📄 中文摘要:
结构化剪枝作为一种有效的神经网络压缩方法已被广泛研究。然而,现有方法往往忽略了参数之间的相互连接性。为解决这一局限性,本文提出了一种名为‘最优大脑连接’的结构化剪枝框架。首先,作者引入了雅可比准则(Jacobian Criterion),这是一种用于评估结构参数显著性的一阶度量方法。与现有的孤立评估参数的一阶方法不同,该准则明确捕捉了组件内部的交互以及层间依赖关系。其次,作者提出了等效剪枝机制(Equivalent Pruning),该机制利用自编码器在微调过程中保留所有原始连接(包括被剪枝的连接)的贡献。实验结果表明,雅可比准则在保持模型性能方面优于几种流行的度量方法,而等效剪枝机制有效缓解了微调后的性能下降问题。通过这一框架,本文在神经网络压缩领域提供了一种新的视角,强调了参数连接的重要性,并为未来的结构化剪枝研究奠定了基础。研究不仅在理论上具有创新性,还通过公开代码(https://github.com/ShaowuChen/Optimal_Brain_Connection)为后续研究提供了实践支持。总体而言,本文提出的方法在神经网络模型压缩和性能优化方面展现了显著的应用潜力,可能对深度学习模型的部署和高效计算产生积极影响。
结构化剪枝神经网络压缩雅可比准则等效剪枝参数连接
探索未知:针对已知和未知动作分割的动作发现研究
📝 作者: Federico Spurio, Emad Bahrami, Olga Zatsarynna, Yazan Abu Farha, Gianpiero Francesca, Juergen Gall
📄 中文摘要:
本文提出了一种新颖的时间动作分割研究框架——动作发现(Action Discovery),旨在解决部分标注数据集中模糊动作定义和不完整标注的挑战。在该框架中,训练数据中仅有一部分动作(称为已知动作)被标注,而其他未知动作则未被标注。这种情境在神经科学等领域尤为常见,例如已明确定义的行为(如行走、进食)与微妙或不常见的动作并存,同时也适用于因标签模糊或缺失而导致数据集部分标注的应用场景。为解决这一问题,本文提出了一种两步方法,利用已知动作的标注指导未知动作片段的时间和语义粒度。首先,引入了粒度引导分割模块(Granularity-Guided Segmentation Module, GGSM),通过模仿已知动作的标注粒度,识别已知和未知动作的时间区间。其次,提出了未知动作片段分配(Unknown Action Segment Assignment, UASA)方法,通过学习嵌入相似性,在未知动作中识别具有语义意义的类别。本文在三个具有挑战性的数据集——Breakfast、50Salads 和 Desktop Assembly 上系统性地探索了动作发现的设置,实验结果表明,所提出的方法显著优于现有基线方法。通过这种方式,本研究不仅填补了部分标注数据集在动作分割领域的空白,还为处理复杂行为数据提供了新的视角和工具,具有重要的理论和应用价值。
动作发现时间动作分割未知动作粒度引导嵌入相似性
无标签适应视觉-语言模型:一项全面综述
📝 作者: Hao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink
📄 中文摘要:
视觉-语言模型(VLMs)在多种任务中展现了卓越的泛化能力。然而,当直接应用于特定下游场景时,若不进行任务特定的适应,其性能往往不尽如人意。为了在保持数据效率的同时提升其实用性,近期研究越来越多地关注无需标签数据的无监督适应方法。尽管该领域的研究兴趣日益增加,但仍缺乏一个统一的、以任务为导向的无监督VLM适应综述。为了填补这一空白,本文提供了一个全面且结构化的领域概览。作者基于无标签视觉数据的可用性和性质提出了一种分类法,将现有方法分为四大范式:无数据迁移(无数据)、无监督域迁移(数据丰富)、 episodic 测试时适应(批量数据)和在线测试时适应(流式数据)。在这一框架内,文章分析了每个范式相关的核心方法和适应策略,旨在建立对该领域的系统性理解。此外,作者回顾了跨多样化应用的代表性基准,突出了开放性挑战和未来研究的有前景方向。本文还提供了一个积极维护的相关文献库,链接为https://github.com/tim-learn/Awesome-LabelFree-VLMs。通过这一综述,作者为无监督VLM适应研究提供了重要的参考框架,有助于推动该领域的发展。
视觉-语言模型无监督适应数据迁移测试时适应人工智能
X-VFL:一种新的垂直联邦学习框架,具备跨补全和决策子空间对齐功能
📝 作者: Qinghua Yao, Xiangrui Xu, Zhize Li
📄 中文摘要:
垂直联邦学习(VFL)通过整合来自多个客户端/方的非重叠特征子集实现协作学习。然而,VFL通常面临两大挑战:一是要求所有客户端的数据样本完全对齐(不允许特征缺失);二是要求所有客户端联合进行协作推理/预测(不支持单个客户端的本地独立推理)。为解决这些问题,本文提出了一种新的VFL框架——X-VFL,旨在处理非对齐数据样本中部分特征缺失的情况,并支持每个客户端对新数据样本进行本地独立推理。X-VFL设计了两个创新模块:跨补全(XCom)和决策子空间对齐(DS-Align)。XCom通过利用其他客户端的信息补全/重建非对齐数据样本中的缺失特征;DS-Align则在决策子空间内将本地特征与补全后的全局特征对齐,从而使每个客户端能够进行本地独立推理。此外,本文为X-VFL训练中使用的不同算法提供了收敛性定理,证明了SGD类算法的收敛率为O(1/√T),PAGE类算法的收敛率为O(1/T),其中T表示训练更新步数。大量实验基于真实世界数据集进行,结果表明X-VFL显著优于现有方法,例如在图像数据集CIFAR-10上准确率提升了15%,在医疗数据集MIMIC-III上提升了43%。这些结果验证了X-VFL在处理部分特征缺失和本地独立推理场景中的实用性和优越性,为垂直联邦学习领域提供了重要的技术进步。
垂直联邦学习跨补全决策子空间对齐本地独立推理数据缺失
医学时间序列分析中的差异感知对比适应
📝 作者: Yifan Wang, Hongfeng Ai, Ruiqi Li, Maowei Jiang, Ruiyuan Kang, Jiahua Dong, Cheng Jiang, Chenzhong L
📄 中文摘要:
本文针对医学时间序列疾病诊断中的两大关键挑战展开研究。首先,医学数据的高标注成本导致在标签有限的单中心数据集上训练的模型容易过拟合。为解决这一问题,作者提出引入相关任务的外部数据,并利用自编码生成对抗网络(AE-GAN)提取先验知识,为下游任务提供有价值的参考。其次,现有研究多采用对比学习来获取更具泛化能力的医学序列表示,用于诊断任务,但通常依赖手动设计的多样化正负样本对,方法复杂且缺乏泛化性,无法自适应地捕捉不同疾病的特定特征。为此,作者提出了可学习多视图对比框架(LMCF),该框架集成了多头注意力机制,通过视图间和视图内的对比学习策略自适应地学习不同视图的表示。此外,预训练的AE-GAN被用于重构目标数据中的差异,并将其转化为疾病概率,进而融入对比学习过程。在三个目标数据集上的实验表明,该方法在性能上持续优于其他七个基线方法,凸显了其在医疗应用中的重要影响,如心肌梗死、阿尔茨海默病和帕金森病的诊断。作者还公开了源代码以供进一步研究和应用。本研究通过创新的框架设计和数据利用方式,为医学时间序列分析提供了新的视角和解决方案,具有较高的实际应用价值。
医学时间序列对比学习自适应表示AE-GAN疾病诊断
DART:开放词汇多标签识别的双重自适应精炼迁移框架
📝 作者: Haijing Liu, Tao Pu, Hefeng Wu, Keze Wang, Liang Lin
📄 中文摘要:
开放词汇多标签识别(OV-MLR)旨在在一张图像中识别多个已知和未知的对象类别,要求同时具备精确的类内定位以确定对象位置,以及有效的类间推理以建模复杂的类别依赖关系。尽管视觉-语言预训练(VLP)模型为开放词汇识别提供了强大的基础,但其在弱监督下的细粒度定位能力较弱,且通常无法显式利用超出基本语义的结构化关系知识,导致特别是在未知类别上的性能受限。为解决这些问题,本文提出了双重自适应精炼迁移(DART)框架。DART通过两个协同的自适应模块增强了冻结的VLP主干网络。在类内精炼方面,自适应精炼模块(ARM)自适应地优化图像块特征,并结合一种新颖的弱监督图像块选择(WPS)损失函数,仅使用图像级标签即可实现区分性定位。在类间迁移方面,自适应迁移模块(ATM)利用从大型语言模型(LLM)中挖掘的结构化知识构建类别关系图(CRG),并采用图注意力网络自适应地传递类别表示之间的关系信息。据作者所知,DART是首个在OV-MLR任务中显式整合外部LLM派生关系知识进行自适应类间迁移,同时在弱监督下执行自适应类内精炼的框架。在多个具有挑战性的基准数据集上的广泛实验表明,DART取得了新的最优性能,验证了其有效性。研究结果不仅展示了DART在提升开放词汇多标签识别任务中的潜力,也为未来结合外部知识和自适应学习的研究提供了新思路。
开放词汇识别多标签识别自适应精炼视觉-语言预训练类别关系图
跨域图像合成:从多重生物标志物成像生成H&E图像
📝 作者: Jillur Rahman Saurav, Mohammad Sadegh Nasr, Jacob M. Luber
📄 中文摘要:
本研究探讨了如何利用多重免疫荧光(mIF)成像数据生成虚拟的苏木精与伊红(H&E)染色图像,以整合分子数据和形态学标准,为组织分析提供互补信息。虚拟H&E染色不仅能为mIF数据提供即时的形态学背景,还能使基于H&E的计算机辅助诊断(CAD)工具应用于丰富的分子数据分析,从而弥合分子与形态分析之间的差距。本文提出了一种多层次向量量化生成对抗网络(VQGAN)方法,用于从mIF图像生成高保真的虚拟H&E染色图像,并在两个公开的结直肠癌数据集上与标准的条件生成对抗网络(cGAN)基线进行了严格比较。评估指标包括图像相似性以及下游分析的功能性实用性。研究结果表明,尽管两种架构都能生成视觉上可信的图像,但VQGAN生成的虚拟染色图像在计算机辅助诊断中的表现更为优越。具体而言,在基于VQGAN生成图像的核分割和组织分类任务中,语义保存和性能表现均优于cGAN生成图像,并与真实数据分析结果更为一致。本研究确立了多层次VQGAN作为生成科学上有用虚拟染色图像的强大架构,为将mIF的丰富分子数据整合到成熟且有效的H&E分析流程中提供了可行路径。这一方法具有重要的应用潜力,有助于推动分子与形态学数据的联合分析。
图像合成虚拟染色生成对抗网络多重免疫荧光计算机辅助诊断
GRIT:基于图正则化的零样本细胞类型注释逻辑精炼
📝 作者: Tianxiang Hu, Chenyi Zhou, Jiaxiang Liu, Jiongxin Wang, Ruizhe Chen, Haoxiang Xia, Gaoang Wang, Jian
📄 中文摘要:
细胞类型注释是单细胞RNA测序(scRNA-seq)数据分析的基础步骤。传统上,人类专家通常依赖主成分分析(PCA)揭示的结构,并结合k-最近邻(k-NN)图构建来指导注释过程。然而,这一过程劳动密集且难以扩展到大规模数据集。近期,基于CLIP风格模型的进展为自动化细胞类型注释提供了有前景的路径。通过将scRNA-seq表达谱与自然语言描述对齐,LangCell等模型实现了零样本注释。尽管LangCell在零样本性能上表现尚可,但其预测结果仍不理想,尤其是在所有细胞类型的准确性一致性方面存在不足。本文提出了一种通过图正则化优化框架精炼LangCell生成的零样本逻辑值(logits)的方法。通过在基于任务特定的PCA构建的k-NN图上强制局部一致性,该方法结合了预训练模型的可扩展性与专家注释所依赖的结构鲁棒性。我们在来自4项研究的14个已注释的人类scRNA-seq数据集上评估了该方法,这些数据集涵盖11个器官和超过20万个单细胞。结果表明,我们的方法持续提升了零样本注释的准确性,准确率提升高达10%。进一步分析揭示了GRIT通过图结构有效传播正确信号的机制,将错误标记的细胞拉回更准确的预测。该方法无需训练,与模型无关,作为一个简单而有效的插件,可在实践中增强自动化细胞类型注释。
单细胞RNA测序细胞类型注释零样本学习图正则化生物信息学
基于BIRADS的乳腺影像检索高级多架构深度学习框架:超级集成优化的全面性能分析
📝 作者: MD Shaikh Rahman, Feiroz Humayara, Syed Maudud E Rabbi, Muhammad Mahbubur Rashid
📄 中文摘要:
基于内容的乳腺影像检索系统需要在五个不同的BIRADS类别上实现精确匹配,相较于文献中常见的二分类任务具有显著更高的复杂性。当前医学影像检索研究存在方法学局限,包括样本量不足、数据分割不当以及统计验证不足等问题,这些都阻碍了临床转化。本研究开发了一个全面的评估框架,系统比较了多种卷积神经网络架构(DenseNet121、ResNet50、VGG16)与高级训练策略,包括复杂的微调、度量学习和超级集成优化。评估采用了严格的分层数据分割(训练/验证/测试比例为50%/20%/30%)、602个测试查询,并通过1000次采样的Bootstrap置信区间进行系统验证。高级微调结合差异化学习率取得了显著改进:DenseNet121的precision@10达到34.79%(提升19.64%),ResNet50达到34.54%(提升19.58%)。通过结合互补架构的超级集成优化,precision@10进一步提升至36.33%(95%置信区间:[34.78%, 37.88%]),较基线提升24.93%,平均每次查询提供3.6个相关病例。统计分析显示不同优化策略间性能差异显著(p<0.001),同时保持了较高的特征一致性(相关性>0.8)和实际搜索效率(2.8毫秒)。该性能远超5类医学检索任务的现实预期,文献中认为20-25%的precision@10是BIRADS精确匹配的可实现性能。本框架不仅建立了新的性能基准,还为临床部署中的诊断支持和质量保证应用提供了基于证据的架构选择指南。
乳腺影像检索深度学习BIRADS分类超级集成优化医学影像处理
超越像素:基于隐式神经表示的医学图像质量评估
📝 作者: Caner \"Ozer, Patryk Rygiel, Bram de Wilde, \.Ilkay \"Oks\"uz, Jelmer M. Wolterink
📄 中文摘要:
医学图像中的伪影对诊断准确性和后续分析构成了重大挑战。传统的基于图像的伪影检测方法虽然有效,但往往依赖于预处理步骤,这些步骤可能导致信息丢失,并且高内存需求的医学图像限制了分类模型的可扩展性。本研究提出了一种基于隐式神经表示(INRs)的医学图像质量评估方法。INRs为医学图像提供了紧凑且连续的表示方式,能够自然处理分辨率和图像大小的变化,同时显著降低内存开销。本文开发了基于INRs的深度权重空间网络、图神经网络以及关系注意力变换器,用于实现图像质量评估。研究在ACDC数据集上进行了评估,该数据集包含了人工生成的伪影模式。实验结果表明,该方法在图像质量评估方面表现出色,与传统方法相比,使用更少的参数即可达到相似的性能。这表明INRs在医学图像处理中具有潜在的应用价值,不仅提高了计算效率,还为处理大规模医学图像数据提供了新的可能性。研究结论指出,基于INRs的方法在未来的医学图像质量评估中可能发挥重要作用,尤其是在需要高效处理高分辨率图像的场景中。
医学图像隐式神经表示图像质量评估图神经网络注意力变换器
PerSense:无训练个性化密集图像实例分割
📝 作者: Muhammad Ibraheem Siddiqui, Muhammad Umer Sheikh, Hassan Abid, Muhammad Haris Khan
📄 中文摘要:
随着基础模型的出现,图像分割技术取得了显著进步。然而,在密集场景中,由于遮挡、尺度变化和杂乱背景等因素,精确的实例分割仍然面临挑战。为解决这一问题,本文提出了PerSense,一个端到端、无需训练且与模型无关的单次学习框架,用于密集图像中的个性化实例分割。研究首先开发了一个新的基线方法,通过提出一个新颖的实例检测模块(IDM)自动生成实例级点提示,该模块利用密度图(DMs)来捕捉图像中对象的空间分布。为了减少误报,本文设计了点提示选择模块(PPSM),基于自适应阈值和空间门控机制对IDM的输出进行优化。IDM和PPSM模块无缝集成到与模型无关的框架中。此外,本文引入了一种反馈机制,使PerSense能够通过自动化示例选择过程来提高密度图的生成精度,从而提升分割准确性。为了推动这一相对未充分探索领域的研究,本文还提出了PerSense-D,一个用于密集图像实例分割的评估基准。通过广泛的实验,PerSense在密集场景中的表现优于当前最先进的方法(SOTA),展示了其在解决复杂分割问题上的潜力。研究结果表明,PerSense为密集图像实例分割提供了一种高效且灵活的解决方案,可能对未来的计算机视觉研究产生重要影响。
实例分割密集图像无训练框架计算机视觉密度图
SincVAE:一种基于SincNet和变分自编码器改进EEG数据异常检测的半监督方法
📝 作者: Andrea Pollastro, Francesco Isgr\`o, Roberto Prevete
📄 中文摘要:
过去几十年中,脑电图(EEG)监测已成为诊断神经系统疾病的重要工具,尤其是在癫痫发作检测方面。癫痫作为全球最常见的神经系统疾病之一,影响着约1%的人口,患者面临重大风险,因此需要在日常生活中进行可靠、持续的癫痫发作监测。然而,文献中讨论的大多数技术依赖于监督机器学习方法,而癫痫EEG波形的准确标注存在困难,且发作事件(ictal events)的稀有性导致数据高度不平衡,可能降低监督学习方法的预测性能。相比之下,半监督方法仅在不包含癫痫发作的数据上训练模型,从而避免了数据不平衡问题。本研究提出了一种基于深度学习的半监督方法SincVAE,用于从EEG数据中检测癫痫发作。该方法结合了变分自编码器(VAE)和一种定制的带通滤波器阵列作为首层,潜在地消除了传统预处理阶段中识别和隔离信息频段的步骤。研究结果表明,SincVAE显著提高了EEG数据中的癫痫发作检测能力,不仅能够在发作前期(preictal stage)识别早期癫痫发作,还能在发作后期(postictal stage)持续监测患者状态。这一方法为癫痫监测提供了一种创新且有效的解决方案,具有重要的临床应用潜力。
脑电图癫痫检测半监督学习变分自编码器SincNet
通过拟合框架研究物体内部几何
📝 作者: Stephen M. Pizer, Zhiyuan Liu, Junjie Zhao, Nicholas Tapp-Hughes, James Damon, Miaomiao Zhang, JS Ma
📄 中文摘要:
本文提出了一种在物体边界和内部计算拟合框架的方法,并利用这些框架生成几何特征。这些特征不仅与对齐无关,更重要的是能够在物体群体中实现局部对应。本研究针对解剖学物体设计了一种表示方法,旨在实现物体群体内强有力的位置对应,从而提供有力的物体统计数据。该方法通过将物体理解为椭球体内部闭合的微分同胚变形,并通过在变形过程中拟合的骨架表示,生成目标物体的模型。初始时,目标物体以边界网格的形式提供。通过对患有某种疾病的个体与其他个体之间的海马体形状进行分类性能测试,本文将所提出的方法与两种最先进的物体表示方法进行了比较。这两种方法旨在捕捉物体群体间的几何对应,并生成可用于统计的几何特征。结果显示,本文提出的新表示方法——进化s-rep,在分类性能上显著优于其他方法。此外,本文还讨论了从各种表示中提取的几何特征,特别是通过拟合框架得到的特征。研究表明,这种基于拟合框架的表示方法在捕捉物体几何特征和实现群体对应方面具有显著优势,为后续的统计分析和疾病诊断提供了重要工具。作者通过实验验证了该方法在海马体形状分类任务中的有效性,突显了其在医学影像分析和解剖学研究中的潜在应用价值。总之,本研究为物体几何建模和特征提取提供了一种创新且高效的解决方案。
拟合框架物体几何进化s-rep解剖学物体几何特征
口述化表征学习:可解释的少样本泛化
📝 作者: Cheng-Fu Yang, Da Yin, Wenbo Hu, Heng Ji, Nanyun Peng, Bolei Zhou, Kai-Wei Chang
📄 中文摘要:
人类仅通过观察少量示例即可识别物体,这一卓越能力得益于他们对现实世界环境的语言理解能力。开发口述化且可解释的表征方法可以在低数据环境下显著提升模型的泛化能力。本研究提出了一种新颖的方法——口述化表征学习(Verbalized Representation Learning, VRL),用于自动提取人类可解释的特征以进行少样本数据下的物体识别。VRL通过使用视觉-语言模型(Vision-Language Model, VLM)以自然语言形式捕捉不同类别之间的关键区分特征以及同一类别内的共有特性,独具特色地将类间差异和类内共性表达出来。随后,这些口述化特征通过VLM映射为数值向量,并可进一步用于训练和推理下游分类器。实验结果表明,在相同模型规模下,VRL相较于先前最先进的方法取得了24%的绝对性能提升,同时仅使用了95%更少的数据和更小的模型规模。此外,与人类标注的属性相比,VRL学习的特征在下游分类任务中表现出20%的绝对性能增益。这一方法不仅在少样本学习中展现了强大的泛化能力,还通过自然语言形式增强了特征的可解释性,为未来的研究提供了新的视角和工具。代码已公开,研究人员可进一步验证和扩展该方法的应用。
口述化表征学习少样本学习可解释性视觉-语言模型物体识别
PL-DCP:一种基于域和类别原型的成对学习框架,用于未见目标条件下的EEG情感识别
📝 作者: Guangli Li, Canbiao Wu, Zhehao Zhou, Tuo Sun, Ping Tan, Li Zhang, Zhen Liang
📄 中文摘要:
脑电图(EEG)信号在情感脑机接口(aBCI)和情感计算领域中是一种重要的工具。近年来,深度学习技术的引入显著推动了aBCI的发展。然而,当前的基于深度迁移学习的情感识别方法面临模型对源域和目标域双重依赖的挑战,同时受到标签噪声的影响,严重降低了模型的性能和泛化能力。为解决这一问题,本文提出了一种名为PL-DCP(Pairwise Learning framework with Domain and Category Prototypes)的成对学习框架,用于未见目标条件下的EEG情感识别。该框架集成了特征解耦和原型推断的概念,通过特征解耦模块提取并分离情感EEG特征,形成域特征和类别特征,并进一步计算双重原型表示。其中,域原型捕捉跨个体的个体差异,而类别原型则捕捉情感类别的跨个体共性。此外,成对学习策略有效减少了错误标签带来的噪声影响。PL-DCP框架在公开数据集SEED、SEED-IV和SEED-V上进行了系统性实验评估,准确率分别为82.88%、65.15%和61.29%。实验结果表明,尽管在训练过程中完全未见过目标域数据,PL-DCP模型的性能仍略优于需要源域和目标域数据的深度迁移学习方法,与其他最先进(SOTA)方法相比也表现出色。这项工作为情感识别提供了一种有效且鲁棒的潜在解决方案,相关源代码已公开。本研究为未见目标条件下的情感识别提供了新的思路,可能对脑机接口和情感计算领域产生重要影响。
脑电图情感识别成对学习深度学习脑机接口
MetaOcc:基于时空融合的环视4D雷达与相机3D占用预测及双重训练策略
📝 作者: Long Yang, Lianqing Zheng, Wenjin Ai, Minghao Liu, Sen Li, Qunshu Lin, Shengyu Yan, Jie Bai, Zhixion
📄 中文摘要:
在自动驾驶领域,鲁棒的3D占用预测对于应对恶劣天气条件下的感知挑战至关重要,而传统的纯视觉系统在这种情况下往往表现不佳。环视4D雷达与相机的融合提供了一种低成本的解决方案,但如何有效提取和整合这些异构传感器的数据特征仍是一个难题。本文提出了一种全新的多模态框架MetaOcc,用于全向3D占用预测,充分利用了多视角4D雷达和图像数据。针对直接将面向LiDAR的编码器应用于稀疏雷达数据的局限性,作者设计了雷达高度自注意力模块(Radar Height Self-Attention),以增强垂直空间推理和特征提取能力。此外,提出了一种分层多尺度多模态融合策略(Hierarchical Multi-scale Multi-modal Fusion),实现跨模态和时间维度的自适应局部-全局融合,有效缓解时空错位问题并丰富融合特征表示。为了减少对昂贵点云标注的依赖,作者还开发了一种基于开放集分割器的伪标签生成流程,结合半监督学习策略,仅使用50%的真实标签即可达到全监督性能的90%,在标注成本与精度之间实现了有效平衡。大量实验表明,MetaOcc在全监督条件下取得了最先进的性能,在OmniHD-Scenes数据集上相较于先前方法提升了+0.47 SC IoU和+4.02 mIoU,在SurroundOcc-nuScenes数据集上提升了+1.16 SC IoU和+1.24 mIoU。这些结果验证了MetaOcc在不同传感器领域和训练条件下的可扩展性和鲁棒性,为其在现实世界自动驾驶系统中的实际部署奠定了基础。代码和数据已公开于GitHub。
3D占用预测4D雷达多模态融合自动驾驶半监督学习
BUFFER-X:面向多样化场景的零样本点云配准方法
📝 作者: Minkyun Seo, Hyungtae Lim, Kanghee Lee, Luca Carlone, Jaesik Park
📄 中文摘要:
近年来,基于深度学习的点云配准方法在泛化能力上取得了显著进步,但大多数方法仍需针对每个新环境进行重新训练或手动参数调整。本文识别出限制泛化能力的三个关键因素:(1) 对特定环境体素大小和搜索半径的依赖;(2) 基于学习的特征点检测器在域外鲁棒性较差;(3) 直接使用原始坐标导致尺度差异加剧。为解决这些问题,本文提出了一种名为BUFFER-X的零样本配准流程,通过以下方式实现:(1) 自适应确定体素大小和搜索半径;(2) 使用最远点采样替代学习型检测器;(3) 利用分块尺度归一化确保坐标范围一致性。特别地,本文提出了一种多尺度分块描述符生成方法和跨尺度的层次内点搜索策略,以提升在多样化场景中的鲁棒性。此外,本文还设计了一个新的泛化能力基准测试,涵盖了11个数据集,涉及多种室内外场景和传感器类型。实验结果表明,BUFFER-X在无需先验信息或手动参数调整的情况下,实现了显著的泛化能力,适用于测试数据集。作者公开了相关代码,为后续研究提供了便利。本研究为点云配准领域提供了一种高效的零样本解决方案,尤其在处理跨域和多样化场景时表现出色,为未来的实际应用奠定了基础。
点云配准零样本学习泛化能力多尺度描述符计算机视觉
从噪声有序疾病进展标签中学习疾病状态
📝 作者: Gustav Schmidt, Holger Heidrich, Philipp Berens, Sarah M\"uller
📄 中文摘要:
本文研究了从噪声有序标签中学习疾病状态表示的可能性,特别是在医学影像领域。作者以新生血管性年龄相关性黄斑变性(nAMD)为研究对象,将医疗访问之间的疾病进展建模为一个有序排名的分类任务,标签分为‘好转’、‘恶化’和‘稳定’三类。为了提高模型的泛化能力,研究团队设计了三种策略:(1)独立的图像编码方式,确保图像特征提取的独立性;(2)反对称逻辑空间等变性,增强模型对有序标签的适应性;(3)有序尺度感知,确保模型能够正确理解标签的顺序关系。此外,针对标签噪声问题,作者引入了不确定性估计方法,通过损失重新加权来减轻噪声的影响。实验结果表明,尽管模型仅基于成对图像的有序疾病进展标签进行训练,但其学习到的疾病表示具有很强的可解释性,并且在相关任务——基于单张图像的nAMD活动性分类中表现出色,实现了强大的少样本性能。这一研究不仅为噪声有序标签的学习提供了新思路,也为医学影像分析中的疾病状态分类任务提供了有效的解决方案。作者通过创新的模型设计和噪声处理方法,成功地将有序标签转化为有意义的疾病表示,为未来的临床应用奠定了基础。
医学影像噪声标签有序分类黄斑变性少样本学习
向量量化精英算法:无监督且问题无关的质量-多样性优化
📝 作者: Constantinos Tsakonas, Konstantinos Chatzilygeroudis
📄 中文摘要:
质量-多样性(Quality-Diversity, QD)算法通过优先发现多样化且高性能的解决方案,革新了传统优化方法。然而,传统的QD方法,如MAP-Elites,高度依赖预定义的行为描述符和对任务的完全先验知识来构建行为空间网格,这限制了其灵活性和适用性。本研究提出了一种新的质量-多样性算法——向量量化精英算法(Vector Quantized-Elites, VQ-Elites),该算法通过无监督学习自主构建结构化的行为空间网格,无需依赖任务特定的先验知识。VQ-Elites的核心在于集成了向量量化变分自编码器(Vector Quantized Variational Autoencoders),能够动态学习行为描述符并生成结构化的行为空间网格,而非无结构的网格,这相较于现有的无监督QD方法是一项重大进步。这一设计使VQ-Elites成为一个灵活、鲁棒且与任务无关的优化框架。为了进一步提升无监督QD算法的性能,本研究引入了行为空间边界和协作机制,显著提高了收敛性和性能;同时提出了有效多样性比率(Effective Diversity Ratio)和覆盖多样性分数(Coverage Diversity Score)两个新颖指标,用于量化无监督环境下的实际多样性。我们在机械臂姿态到达、移动机器人空间覆盖以及MiniGrid探索任务上验证了VQ-Elites的性能。实验结果表明,该算法能够高效生成多样化且高质量的解决方案,凸显了其适应性、可扩展性、对超参数的鲁棒性,以及将质量-多样性优化扩展到复杂、以往难以触及领域的潜力。
质量-多样性优化无监督学习向量量化行为空间优化算法
深度学习方法在电池生产线热失控事件检测中的应用
📝 作者: Athanasios Athanasopoulos, Mat\'u\v{s} Mihal\'ak, Marcin Pietrasik
📄 中文摘要:
电池制造中的一个关键安全问题是热失控,即温度不受控制地升高,可能导致火灾、爆炸和有毒气体排放。因此,开发能够检测此类事件的自动化系统在学术和工业领域都具有重要意义。本研究探讨了深度学习在荷兰汽车制造商VDL Nedcar电池生产线上检测热失控的应用。具体而言,研究团队从生产线上收集了代表正常状态(非热失控)和热失控状态的数据,通过外部热源和烟雾源模拟热失控情况。数据包括光学图像和热成像图像,这些图像在输入模型前经过预处理和融合。本研究评估了三种在计算机视觉领域广泛使用的深度学习模型,包括浅层卷积神经网络、残差神经网络和视觉变换器,并基于两种性能指标进行比较。此外,研究还采用了可解释性方法评估这些模型,以深入了解它们从输入中捕获相关特征信息的能力。研究结果表明,深度学习在电池生产线热失控检测中是一种可行的方法。实验显示,模型能够有效区分正常和异常状态,为生产线的安全监控提供了技术支持。研究还揭示了不同模型在特征提取和决策过程中的差异,为未来优化模型设计提供了指导。总之,本研究为电池制造安全领域的自动化检测技术提供了新的视角和实践基础,具有重要的应用价值。
深度学习热失控检测电池制造计算机视觉可解释性方法
SimLabel:一种基于相似性加权的迭代框架用于多标注者学习与缺失标注
📝 作者: Liyun Zhang, Zheng Lian, Hong Liu, Takanori Takebe, Yuta Nakashima
📄 中文摘要:
多标注者学习(MAL)旨在建模每个标注者的特定标注模式。然而,现有方法面临一个关键挑战:当遇到缺失标签时(这是现实世界众包数据集中常见的情况,每个标注者仅标注少量样本),它们简单地跳过更新标注者特定的模型参数,导致数据利用效率低下和过拟合风险。为解决这一问题,本文提出了一种新颖的基于相似性加权的半监督学习框架(SimLabel),该框架利用标注者之间的相似性为缺失标注生成加权软标签,从而充分利用未标注样本,而非完全跳过这些样本。此外,本文还引入了一种基于置信度的迭代优化机制,通过结合最大概率和基于熵的不确定性,优先选择预测的高质量伪标签来填补缺失标签,从而随时间逐步提升相似性估计和模型性能。为了评估该方法,本文贡献了一个新的多模态多标注者数据集AMER2,该数据集具有较高的且变化较大的缺失率,反映了现实世界中的标注稀疏性,并支持在不同稀疏度水平下的评估。实验结果表明,SimLabel在处理缺失标注时显著优于现有方法,展现了其在数据利用效率和模型鲁棒性方面的优势。研究结论指出,该框架为多标注者学习提供了一种有效的解决方案,尤其适用于标注稀疏的现实场景,并为未来的研究奠定了基础。
多标注者学习缺失标注相似性加权半监督学习迭代优化
特征归因的概率稳定性保证
📝 作者: Helen Jin, Anton Xue, Weiqiu You, Surbhi Goel, Eric Wong
📄 中文摘要:
特征归因的稳定性保证已成为评估特征归因方法的重要手段,但现有的认证方法依赖于过度平滑的分类器,往往产生过于保守的保证结果。针对这一局限性,本研究引入了软稳定性(soft stability)的概念,并提出了一种简单、与模型无关且样本高效的稳定性认证算法(SCA)。该算法能够为任何特征归因方法提供非平凡且可解释的稳定性保证。此外,研究表明,适度的平滑可以在准确性和稳定性之间实现更有利的权衡,避免了先前认证方法中过于激进的妥协。为了解释这一现象,作者利用布尔函数分析推导出了平滑条件下稳定性的新颖表征。SCA算法在视觉和语言任务上的实验评估表明,软稳定性在衡量解释方法的鲁棒性方面具有显著效果。研究背景方面,特征归因在可解释性人工智能领域至关重要,但其稳定性问题一直是一个挑战。本文通过理论分析和实验验证,展示了SCA算法在不同任务中的适用性和优越性,特别是在避免过度平滑对模型性能的负面影响方面。关键发现包括:软稳定性提供了一种更贴近实际需求的评估方式;适度平滑能够有效提升归因方法的稳定性,同时保持较高的分类准确性。结论指出,SCA算法为特征归因的稳定性认证提供了一种实用且高效的工具,未来可进一步扩展到更多复杂模型和应用场景中。
特征归因稳定性保证软稳定性机器学习可解释性
基于图的旋转机械故障诊断:自适应分割与结构特征整合
📝 作者: Moirangthem Tiken Singh
📄 中文摘要:
本文提出了一种新颖的基于图的框架,用于旋转机械的鲁棒且可解释的多类故障诊断。该方法结合了熵优化的信号分割、时频特征提取以及图论建模,将振动信号转化为适合分类的结构化表示。通过计算图的度量指标,如平均最短路径长度、模块度以及谱间隙,并结合局部特征,捕捉全局和分段级别的故障特性。在两个基准数据集上进行评估,包括CWRU轴承数据集(0-3 HP负载)和东南大学齿轮箱及轴承数据集(不同速度-负载配置),该方法表现出高诊断精度。使用逻辑回归分类器,在CWRU数据集上的分类准确率高达99.8%,在东南大学数据集上达到100%。此外,该模型展现出强大的抗噪能力,在高噪声水平(标准差=0.5)下仍保持超过95.4%的准确率,并在负载转移场景中表现出高达99.7%的F1分数,证明了其出色的跨域迁移能力。与传统技术相比,该方法无需深度学习架构,降低了复杂性,同时保证了可解释性。研究结果证实了该方法在工业诊断中的可扩展性、可靠性和实时部署潜力。这一框架为旋转机械故障诊断提供了一种高效且直观的新途径,具有重要的应用价值。
旋转机械故障诊断图论建模信号分割特征提取
CLOT:用于无监督动作分割的闭环最优传输
📝 作者: Elena Bueno-Benito, Mariella Dimiccoli
📄 中文摘要:
无监督动作分割是计算机视觉领域的重要研究方向,近期通过基于最优传输(OT)的ASOT方法取得了显著进展。ASOT通过同时学习动作表征和利用伪标签进行聚类,突破了传统方法的限制,且无需对动作顺序做任何假设,能够从视频帧与动作标签之间的噪声成本矩阵中解码出时间一致的分割结果。然而,ASOT的分割结果缺乏段级监督,导致帧与动作表征之间的反馈效果受限。为解决这一问题,本文提出了闭环最优传输(CLOT),一种新颖的基于OT的框架,引入了多层次循环特征学习机制。CLOT采用编码器-解码器架构,通过解决两个独立的OT问题,同时学习伪标签以及帧和段的嵌入表示。随后,通过帧嵌入与段嵌入之间的交叉注意力机制,结合第三个OT问题,进一步优化帧嵌入和伪标签。在四个基准数据集上的实验结果表明,循环学习机制在无监督动作分割任务中具有显著优势,CLOT在分割精度和时间一致性方面均优于现有方法。本研究不仅提升了无监督动作分割的性能,还为基于最优传输的表征学习提供了新的思路,具有重要的理论和应用价值。
无监督动作分割最优传输闭环学习计算机视觉特征嵌入
SPICE:一个自动化的SWE-Bench标注流水线,用于问题清晰度、测试覆盖率和努力估算
📝 作者: Gustavo A. Oliva, Gopi Krishnan Rajbahadur, Aaditya Bhatia, Haoxiang Zhang, Yihao Chen, Zhilong Chen
📄 中文摘要:
高质量的标注数据集对于软件工程领域基础模型的训练和评估至关重要,但其创建过程往往成本高昂且劳动密集。本文提出了一种名为SPICE的可扩展自动化标注流水线,专门用于SWE-bench风格数据集的标注,涵盖问题清晰度、测试覆盖率和努力估算等维度。SPICE通过上下文感知的代码导航、基于理性的提示设计以及多轮共识机制,生成与专家标注高度一致的标签。其设计灵感来源于作者在标注超过800个SWE-Gym实例时的经验和挑战。SPICE在与人工标注的SWE-bench Verified数据对比中表现出很高的一致性,同时将标注1000个实例的成本从约10万美元(人工标注)大幅降低至仅5.10美元。这一成果表明,SPICE有潜力以低成本支持软件工程领域基础模型的大规模数据集创建。为了进一步支持学术界和行业,作者开源了SPICE工具以及SPICE Bench——一个包含6802个SPICE标注实例的新数据集,数据来源于SWE-Gym中的291个开源项目,规模是SWE-bench Verified的13倍以上。研究结果不仅展示了SPICE在自动化标注中的高效性和准确性,也为软件工程领域的数据集构建和模型开发提供了重要的工具和资源,具有显著的实用价值和推广潜力。
软件工程自动化标注数据集构建SPICESWE-Bench
融合前先观察:基于2D引导的跨模态对齐以实现鲁棒的3D检测
📝 作者: Xiang Li, Zhangchi Hu, Xiao Xu, Bin Kong
📄 中文摘要:
本文研究了如何通过将激光雷达(LiDAR)和相机输入整合为统一的鸟瞰视图(BEV)表示,以提升自动驾驶车辆的3D感知能力。现有方法在激光雷达和相机特征的空间对齐上存在问题,导致相机分支的深度监督不准确以及跨模态特征聚合过程中的融合错误。研究发现,这些对齐问题的根源在于投影误差,主要由校准不准确和滚动快门效应引起。作者提出一个关键洞见,即这些投影误差的位置并非随机,而是高度可预测,主要集中在物体与背景的边界处,而这些边界可以通过2D检测器可靠地识别。因此,本文的主要动机是利用2D物体先验在融合前对跨模态特征进行预对齐。为解决局部对齐问题,作者提出了先验引导深度校准(PGDC),利用2D先验缓解对齐误差并保留正确的跨模态特征对。为解决全局对齐问题,引入了不连续性感知几何融合(DAGF),以抑制PGDC的残余噪声,并明确增强物体-背景边界处的深度锐利过渡,从而生成结构感知的表示。此外,为了有效利用这些对齐后的表示,作者设计了结构引导深度调制器(SGDM),通过门控注意力机制高效融合对齐后的深度和图像特征。实验结果表明,该方法在nuScenes验证数据集上取得了最先进的性能,mAP和NDS分别达到71.5%和73.6%。本文通过创新的对齐策略和融合机制,显著提升了3D检测的鲁棒性和精度,为自动驾驶领域的感知技术提供了重要贡献。
3D检测跨模态对齐自动驾驶鸟瞰视图深度校准
QuMAB:基于查询的多标注者行为建模及其在稀疏标签下的可靠性研究
📝 作者: Liyun Zhang, Zheng Lian, Hong Liu, Takanori Takebe, Yuta Nakashima
📄 中文摘要:
多标注者学习传统上通过聚合不同标注者的标注结果来逼近单一的真实标签,将标注者之间的分歧视为噪声。然而,这种范式面临根本性挑战:主观任务往往缺乏绝对的真实标签,且稀疏的标注覆盖率使得聚合在统计上不可靠。本研究提出了一种范式转变,从样本级的聚合转向标注者级的行为建模。通过将标注者分歧视为有价值的信息而非噪声,建模标注者特定的行为模式可以重构未标注数据,从而降低标注成本、提高聚合可靠性,并解释标注者的决策行为。为此,本文提出了QuMAB(基于查询的多标注者行为模式学习)方法,该方法使用轻量级查询来建模个体标注者的行为,同时通过隐式正则化捕捉标注者之间的相关性,防止对稀疏个体数据的过拟合,保持个体化并提升泛化能力。此外,通过可视化标注者的关注区域,QuMAB提供了对行为理解的可解释分析。本研究贡献了两个大规模数据集,STREET(每位标注者4300个标签)和AMER(平均每位标注者3118个标签),其中AMER是首个多模态多标注者数据集。大量实验表明,QuMAB在建模个体标注者行为模式、预测共识以及在稀疏标注场景下的适用性方面表现出色。研究结果不仅展示了QuMAB在多标注者学习中的优越性,还为未来的标注行为研究提供了新的视角和工具。
多标注者学习行为建模稀疏标签查询学习可解释性
GPSMamba:一种基于全局相位和频谱提示引导的Mamba模型用于红外图像超分辨率
📝 作者: Yongsong Huang, Tomo Miyazaki, Shinichiro Omachi
📄 中文摘要:
红外图像超分辨率(IRSR)因红外数据的低对比度和稀疏纹理而面临挑战,需要强大的长距离建模能力以保持全局一致性。尽管状态空间模型(如Mamba)在长距离依赖建模方面表现出色,但其固有的1D因果扫描机制会破坏2D图像的全局上下文,从而阻碍精细细节的恢复。为解决这一问题,本文提出了全局相位和频谱提示引导的Mamba模型(GPSMamba),该框架结合了架构引导和非因果监督。首先,我们设计了自适应语义-频率状态空间模块(ASF-SSM),将融合的语义-频率提示直接注入Mamba模块中,整合非局部上下文以指导重建过程。其次,提出了一种新颖的热谱注意力和相位一致性损失函数,提供明确的非因果监督,以确保全局结构和频谱保真度。通过结合这两项创新,本研究提出了一种系统性策略来缓解因果建模的局限性。大量实验表明,GPSMamba在红外图像恢复任务中取得了最先进的性能,验证了我们的方法作为红外图像恢复的新范式的有效性。此外,本文还公开了相关代码以供进一步研究和应用。本研究不仅在技术上实现了突破,还为红外图像处理领域提供了新的研究方向和实用工具,具有重要的学术价值和应用前景。
红外图像超分辨率Mamba模型全局相位频谱提示非因果监督
LIT-PCBA基准测试中的数据泄露与冗余问题
📝 作者: Amber Huang, Ian Scott Knight, Slava Naprienko
📄 中文摘要:
LIT-PCBA是一个广泛用于评估虚拟筛选模型的基准测试数据集,但本文通过审计发现其存在根本性缺陷。研究揭示了数据集分割中广泛的数据泄露和分子冗余问题,包括训练集与验证集之间以及内部存在的二维相同配体、普遍的类似物重叠以及查询集的低多样性。例如,在ALDH1目标中,存在323对训练-验证类似物对,其ECFP4 Tanimoto相似度≥0.6;在所有目标中,有2491个二维相同的非活性分子同时出现在训练和验证集中,而对应的活性分子却极少。这些重叠使得模型可以通过支架记忆而非泛化能力取得成功,从而人为地提高了富集因子和AUROC分数。这些缺陷并非偶然,其严重程度使得一个无学习参数的简单记忆基线即可利用这些问题,达到或超过当前最先进的深度学习和三维相似性模型的报告性能。因此,几乎所有基于LIT-PCBA的已发表结果都受到质疑。即使是在“零样本”模式下评估的模型,也因类似物泄露到查询集中而影响了泛化能力的声明。作者指出,在当前形式下,LIT-PCBA基准测试无法衡量模型恢复新型化学类型的能力,也不应被视为方法学进步的证据。本研究呼吁对该基准测试进行彻底修订,以确保其在虚拟筛选研究中的可靠性,并避免误导领域发展。
数据泄露分子冗余虚拟筛选LIT-PCBA模型泛化
通过呼吸信号实现高效疼痛识别:单交叉注意力变换器多窗口融合管道
📝 作者: Stefanos Gkikas, Ioannis Kyprakis, Manolis Tsiknakis
📄 中文摘要:
疼痛是一种复杂的状况,影响着大量人群,准确且一致的评估对于疼痛患者至关重要,同时也支持开发有效且先进的管理策略。自动疼痛评估系统能够提供持续监测并支持临床决策,旨在减轻痛苦并防止功能下降。本研究提交至《第二届多模态感知大挑战:下一代疼痛评估(AI4PAIN)》。研究提出了一种创新的管道方法,以呼吸信号作为输入,结合高效的交叉注意力变换器和多窗口策略。通过广泛的实验,研究证明呼吸是一种有价值的生理模态,可用于疼痛评估。此外,实验还揭示了紧凑且高效的模型在适当优化后能够取得优异性能,常常超越更大的模型。所提出的多窗口方法有效捕捉了短期和长期特征以及全局特性,从而增强了模型的表征能力。研究结果表明,通过呼吸信号结合先进的深度学习技术,可以显著提升疼痛评估的准确性和效率,为临床应用提供了新的可能性。研究还强调了模型优化和多尺度特征提取在提升疼痛识别系统性能中的重要作用,为未来的研究和应用奠定了基础。
疼痛识别呼吸信号交叉注意力变换器多窗口融合自动评估
探索深度学习技术在眼部图像性别分类中的可行性
📝 作者: Basna Mohammed Salih Hasan, Ramadhan J. Mstafa
📄 中文摘要:
性别分类在安全、人机交互、监控和广告等领域中具有重要意义。然而,化妆和伪装等因素可能影响分类的准确性。为解决这一问题,本研究专注于利用眼周区域的彩色图像进行性别分类。眼周区域包括眼睑、眉毛及其之间的区域,包含了可用于提取性别分类关键特征的视觉线索。本文提出了一种先进的卷积神经网络(CNN)模型,利用彩色图像数据库评估眼周区域在性别分类中的有效性。为验证模型性能,研究在两个眼部数据集CVBL和(Female and Male)上进行了测试。所提出的架构在未曾使用过的CVBL数据集上取得了99%的出色准确率,而在(Female and Male)数据集上以较少的参数(7,235,089)达到了96%的可观准确率。为了进一步确认模型在眼周区域性别分类中的有效性,研究通过多种指标评估了其性能,并与其他最先进的方法进行了比较。结果明确显示了该模型的高效性,表明其在安全和监控等领域的实际应用潜力。研究不仅展示了深度学习技术在性别分类中的强大能力,也为基于生物特征的身份识别提供了新的视角。未来,该模型可能进一步优化以适应更复杂的应用场景,或与其他生物特征结合以提高分类的鲁棒性。总之,本研究为性别分类提供了一种创新且高效的解决方案,具有重要的理论和实践价值。
性别分类深度学习卷积神经网络眼周区域生物特征识别
RoboMemory:一种受大脑启发的多记忆代理框架,用于物理实体系统的终身学习
📝 作者: Mingcong Lei, Honghao Cai, Binbin Que, Zezhou Cui, Liangchen Tan, Junkun Hong, Gehan Hu, Shuangyu Zh
📄 中文摘要:
本文提出了RoboMemory,一种受大脑启发的多记忆框架,旨在解决物理实体系统在现实世界环境中的终身学习问题,应对持续学习、多模块记忆延迟、任务相关性捕捉以及闭环规划中的无限循环等关键挑战。该框架以认知神经科学为基础,集成了四个核心模块:信息预处理器(类似丘脑)、终身实体记忆系统(类似海马体)、闭环规划模块(类似前额叶)和低级执行器(类似小脑),以实现长期规划和累积学习。终身实体记忆系统是该框架的核心,通过空间、时间、情景和语义子模块的并行更新与检索,缓解了复杂记忆框架中的推理速度问题。此外,它引入了动态知识图谱(KG)和一致的架构设计,以增强记忆一致性和可扩展性。在EmbodiedBench上的评估显示,RoboMemory在平均成功率上比开源基线(Qwen2.5-VL-72B-Ins)高出25%,并比闭源最先进技术(Claude3.5-Sonnet)高出5%,确立了新的技术前沿。消融研究验证了关键组件(评论家、空间记忆、长期记忆)的重要性,而现实世界的部署进一步确认了其在重复任务中的终身学习能力,成功率显著提高。RoboMemory通过可扩展性有效缓解了高延迟挑战,为物理机器人中多模态记忆系统的集成提供了基础性参考。
终身学习多记忆框架物理实体系统认知神经科学机器人学习
面向可靠音频深度伪造归因与模型识别的多层次自编码器框架
📝 作者: Andrea Di Pierno (IMT School of Advanced Studies), Luca Guarnera (University of Catania), Dario Alle
📄 中文摘要:
随着音频深度伪造技术的扩散,数字通信的信任面临日益严重的威胁。尽管检测方法已取得进展,但将音频深度伪造归因于其源模型仍是一个未充分探索但至关重要的挑战。本文提出了一种名为LAVA(分层语音归因架构)的层次化框架,用于音频深度伪造检测与模型识别。该框架利用仅在伪造音频上训练的卷积自编码器提取的注意力增强型潜在表示,并在此基础上运行两个专门的分类器:音频深度伪造归因(ADA)分类器,用于识别生成技术;以及音频深度伪造模型识别(ADMR)模块,用于识别具体的生成模型实例。为了在开放集条件下提升鲁棒性,框架引入了基于置信度的拒绝阈值。实验在ASVspoof2021、FakeOrReal和CodecFake数据集上展示了优异性能:ADA分类器在所有数据集上的F1分数超过95%,ADMR模块在六个类别上的宏F1分数达到96.31%。此外,在ASVspoof2019 LA数据集上的未见攻击测试和错误传播分析进一步验证了LAVA的鲁棒性和可靠性。该框架通过引入一种监督式方法,推进了开放集条件下的深度伪造归因与模型识别研究,并在公共基准数据集上得到验证,同时公开了模型和代码。这一工作为音频深度伪造的溯源和防御提供了重要工具,对数字通信安全具有重要意义。
音频深度伪造模型识别自编码器开放集条件数字通信安全
超越子空间隔离:用于光场图像超分辨率的Many-to-Many Transformer
📝 作者: Zeke Zexi Hu, Xiaoming Chen, Vera Yuk Ying Chung, Yiran Shen
📄 中文摘要:
光场图像超分辨率(LFSR)任务中,空间-角度特征的有效提取至关重要。卷积和Transformer的引入显著提升了该领域的性能。然而,由于光场图像具有庞大的四维数据量,许多现有方法选择将数据分解为多个低维子空间,并在每个子空间内单独执行Transformer操作。这种方法无意中将自注意力机制限制在One-to-One模式,仅能访问光场数据的有限子集,明显阻碍了对所有空间和角度线索的全面优化。本文识别出这种局限性为子空间隔离,并提出了一种新颖的Many-to-Many Transformer(M2MT)来解决这一问题。M2MT在执行自注意力机制之前,在空间子空间中聚合角度信息,使其能够完全访问光场图像中所有子孔径图像(SAIs)的所有信息。因此,M2MT能够全面捕捉长距离相关性依赖。以M2MT为核心组件,本文开发了一个简单而有效的M2MT网络用于LFSR。实验结果表明,M2MT在多个公开数据集上实现了最先进的性能,同时在模型性能和效率之间取得了良好的平衡,以较低的内存和计算需求提供了更高质量的LFSR结果。此外,本文通过局部归因图(LAM)进行了深入分析以获得视觉可解释性,结果验证了M2MT在空间和角度子空间中具备真正的非局部上下文能力,有效缓解了子空间隔离问题,并获得了有效的空间-角度表示。
光场图像超分辨率Many-to-Many Transformer子空间隔离自注意力机制空间-角度特征
在线图拓扑学习通过时间-顶点自适应滤波:从理论到心脏颤动
📝 作者: Alexander Jenkins, Thiernithi Variddhisai, Ahmed El-Medany, Fu Siong Ng, Danilo Mandic
📄 中文摘要:
图信号处理(GSP)为分析复杂的互联系统提供了一个强大的框架,通过将数据建模为图上的信号来进行研究。尽管近年来的进展使得从观测信号中学习图拓扑成为可能,但现有方法在处理时变系统和实时应用时常常面临挑战。为解决这一问题,本文提出了一种稀疏感知的自适应算法AdaCGP,用于从多变量时间序列中动态估计图拓扑结构。AdaCGP通过设计递归更新公式来估计图移位算子(GSO),该公式针对稀疏性、移位不变性和偏差问题进行了优化。通过广泛的仿真实验,研究表明AdaCGP在多种图拓扑结构上的表现持续优于多个基准方法,在GSO估计方面的改进超过83%,同时保持了良好的计算扩展性。其变量分割方法能够以接近零的误报率和最小的漏边率可靠地识别因果连接。在应用于心脏颤动记录时,AdaCGP比传统方法(如Granger因果分析)更有效地追踪传播模式的动态变化,捕捉到静态方法所忽略的图拓扑时间变化。该算法成功识别出可能维持心律失常的传导模式中的稳定性特征,显示出在复杂生物医学系统的诊断和治疗中的临床应用潜力。研究结果表明,AdaCGP为实时图拓扑学习提供了一种高效且准确的解决方案,可能对动态系统的分析和应用产生深远影响。
图信号处理图拓扑学习自适应算法心脏颤动动态系统
STARFormer:一种用于脑部疾病诊断的fMRI时空聚合重组Transformer模型
📝 作者: Wenhao Dong, Yueyang Li, Weiming Zeng, Lei Chen, Hongjie Yan, Wai Ting Siok, Nizhuan Wang
📄 中文摘要:
本文提出了一种新颖的时空聚合重组Transformer模型(STARFormer),用于基于功能性磁共振成像(fMRI)的脑部疾病(如自闭症谱系障碍ASD和注意力缺陷多动障碍ADHD)分类。传统方法往往忽略了血氧水平依赖(BOLD)信号的空间和时间依赖性整合,导致分类结果不够准确或精确。为解决这一问题,STARFormer通过三个关键模块有效捕捉BOLD信号的空间和时间特征。首先,感兴趣区域(ROI)空间结构分析模块利用特征向量中心性(EC)基于有效连接性对脑区进行重组,突出了与脑部疾病相关的关键空间关系。其次,时间特征重组模块将时间序列系统地分割为等维度的窗口令牌,并通过可变窗口和跨窗口注意力机制捕捉多尺度特征。最后,时空特征融合模块采用并行Transformer架构,设置专门的时间和空间分支以提取整合特征。STARFormer在两个公开数据集上进行了严格评估,针对ASD和ADHD的分类任务表现出色,实验结果表明其在多个评估指标上达到了最先进的性能,为脑部疾病诊断和生物医学研究提供了更准确、可靠的工具。本研究通过创新性地结合空间和时间特征,为神经影像学领域提供了重要的技术进步。
功能性磁共振成像脑部疾病诊断时空特征融合Transformer模型自闭症谱系障碍
基于微调自监督模型的脑网络分析用于脑疾病诊断
📝 作者: Yifei Tang, Hongjie Jiang, Changhong Jing, Hieu Pham, Shuqiang Wang
📄 中文摘要:
功能性脑网络分析已成为脑疾病研究中不可或缺的工具,深度学习方法显著提升了其对脑区(ROI)之间复杂连接的表征能力。然而,脑网络基础模型的研究仍较为有限,且局限于单一维度,限制了其在神经科学中的广泛应用。本研究提出了一种用于脑疾病诊断的微调脑网络模型,通过扩展原始脑网络模型在多维度上的脑区表征能力,增强了模型的泛化性能。该模型包含两个核心模块:(1)适配器模块,用于扩展脑区特征到不同维度;(2)基于自监督学习的微调基础脑网络模型,该模型在来自数千名参与者的fMRI数据上进行预训练,其Transformer模块能够有效提取脑区特征并计算脑区间关联性。此外,本研究还推导出了用于脑疾病诊断的紧凑潜在脑网络表征。在下游实验中,该模型在脑疾病诊断任务中表现出色,优于现有方法。研究结果表明,该模型为脑网络分析提供了一种有前景的方法,可能推动脑疾病诊断技术的发展,并为神经科学研究提供新的工具和视角。作者通过结合自监督学习和多维度特征扩展,成功提升了模型对复杂脑网络的建模能力,为未来的脑疾病诊断和神经科学应用奠定了基础。
脑网络分析脑疾病诊断自监督学习深度学习fMRI数据
胶囊-卷积KAN:一种用于医学图像分类的混合神经网络方法
📝 作者: Laura Pitukov\'a, Peter Sin\v{c}\'ak, L\'aszl\'o J\'ozsef Kov\'acs, Pe
📄 中文摘要:
本研究对四种神经网络架构进行了全面比较,包括卷积神经网络(CNN)、胶囊网络(Capsule Network)、卷积Kolmogorov-Arnold网络(ConvKAN)以及新提出的胶囊-卷积Kolmogorov-Arnold网络(Capsule-ConvKAN)。Capsule-ConvKAN是一种创新的混合模型,结合了胶囊网络的动态路由和空间层次结构能力,以及卷积Kolmogorov-Arnold网络灵活且可解释的函数逼近特性,旨在提升特征表示能力和分类精度,尤其是在复杂的现实世界生物医学图像数据中表现出色。研究在组织病理学图像数据集上对这些架构进行了评估,结果显示Capsule-ConvKAN取得了最高的分类性能,准确率达到91.21%。实验结果表明,Capsule-ConvKAN在捕捉空间模式、管理复杂特征以及解决传统卷积模型在医学图像分类中的局限性方面具有显著潜力。该模型通过整合两种网络的优势,成功提升了分类任务的鲁棒性和准确性,为医学图像分析领域提供了一种新的有效工具。研究还讨论了该模型在实际应用中的潜在价值,特别是在需要高精度诊断的医学场景中,同时指出了未来改进方向,如优化计算效率和扩展到更多类型的数据集。总之,本文提出的Capsule-ConvKAN架构为医学图像分类任务提供了一种有前景的解决方案,展示了混合神经网络在解决复杂问题中的重要作用。
医学图像分类胶囊网络卷积Kolmogorov-Arnold网络混合神经网络特征表示
基于几何引导反投影网络与自注意力的Sentinel-2图像超分辨率研究
📝 作者: Ivan Pereira-S\'anchez, Daniel Torres, Francesc Alcover, Bartomeu Garau, Julia Navarro, Catalin
📄 中文摘要:
Sentinel-2任务提供了13个波段的多光谱图像,分辨率分别为10米、20米和60米。其中,10米波段提供了精细的结构细节,而20米波段则包含更丰富的光谱信息。本研究提出了一种几何引导的超分辨率模型,用于融合10米和20米波段的数据。该方法引入了一种基于聚类的学习过程,从10米波段生成具有丰富几何信息的引导图像,并将其集成到一个展开的反投影架构中。该架构通过多头注意力机制利用图像的自相似性,建模空间和光谱维度上的非局部块状交互。此外,本研究还构建了一个评估数据集,包括城市、农村和沿海景观三种测试集。实验结果表明,该方法在超分辨率和融合任务上的表现优于传统的以及基于深度学习的超分辨率和融合技术。研究背景在于遥感图像处理领域对高分辨率多光谱图像的需求日益增加,而Sentinel-2数据的分辨率限制了其在某些应用中的潜力。通过提出的几何引导反投影网络与自注意力机制,本研究有效提升了图像的空间分辨率,同时保留了光谱信息的完整性。关键发现包括:几何引导图像能够显著提高融合结果的结构细节,多头注意力机制在捕捉非局部依赖关系方面表现出色。结论指出,该方法为Sentinel-2数据的超分辨率处理提供了一种高效且创新的解决方案,具有广泛的应用前景,如土地覆盖分类、灾害监测和环境变化分析等。
超分辨率Sentinel-2几何引导自注意力遥感图像
MedMambaLite:面向医疗图像分类的硬件感知Mamba模型
📝 作者: Romina Aalishah, Mozhgan Navardi, Tinoosh Mohsenin
📄 中文摘要:
随着AI驱动的医疗设备的发展,实时、设备端推理(如生物医学图像分类)需求日益增加。在边缘设备上部署深度学习模型已被用于医疗图像中的异常检测和分类等应用。然而,由于模型大小和计算能力的限制,在边缘设备上实现高性能仍具挑战性。为解决这一问题,本文提出了MedMambaLite,一种通过知识蒸馏优化的硬件感知Mamba模型,专门用于医疗图像分类。研究首先基于强大的MedMamba模型,该模型集成了Mamba结构以实现高效的医疗图像特征提取。通过修改和减少架构中的冗余部分,使模型在训练和推理过程中更加轻量和快速。随后,通过降低嵌入维度,将知识蒸馏到一个更小的学生模型中。优化后的MedMambaLite模型在10个MedMNIST数据集上取得了94.5%的总体准确率,参数量相比MedMamba减少了22.8倍。在NVIDIA Jetson Orin Nano上的部署实现了每推理35.6 GOPS/J的能效,比MedMamba的能效提高了63%。该研究展示了在边缘设备上实现高效医疗图像分类的潜力,为资源受限环境下的实时医疗应用提供了重要参考。研究结果表明,MedMambaLite在保持高准确率的同时显著降低了计算和能耗成本,为未来医疗AI设备的开发奠定了基础。
医疗图像分类硬件感知Mamba模型知识蒸馏边缘设备
MOVER:结合多个会议识别系统的输出
📝 作者: Naoyuki Kamo, Tsubasa Ochiai, Marc Delcroix, Tomohiro Nakatani
📄 中文摘要:
本文提出了一种新颖的系统组合方法——会议识别器输出投票错误减少(MOVER),用于会议识别任务。尽管已有方法可以组合说话人分割(例如DOVER)或自动语音识别(ASR)系统的输出(如ROVER),但MOVER是首个能够同时结合不同说话人分割和ASR输出的会议识别系统的方法。MOVER通过一个包含五个阶段的过程来组合具有不同时间间隔和说话人标签的假设,这些阶段包括说话人对齐、片段分组、词语和时间组合等。实验结果在CHiME-8 DASR任务和NOTSOFAR-1任务的多通道轨道上表明,MOVER能够成功地组合多个具有多样化说话人分割和识别输出的会议识别系统,分别实现了相对于最先进系统的tcpWER(时间校正的词错误率)相对改进9.55%和8.51%。研究背景在于会议识别任务中,单一系统的性能往往受到限制,而通过组合多个系统的输出可以有效提升识别精度。MOVER的关键创新在于其能够处理不同系统输出的异构性,包括时间边界和说话人标签的不一致性,从而在复杂的会议场景中显著降低错误率。结论表明,MOVER为会议识别领域提供了一种有效的系统组合策略,具有广泛的应用潜力,尤其是在多说话人、多通道的复杂语音环境中。
会议识别系统组合语音识别说话人分割MOVER
使用CMS开放数据通过CWoLa和TopicFlow进行夸克与胶子标记
📝 作者: Matthew J. Dolan, John Gargalionis, Ayodele Ore
📄 中文摘要:
本研究利用CMS开放数据,探讨了弱监督学习在大型强子对撞机(LHC)中标记夸克和胶子喷流时的性能。研究聚焦于Z+jet和dijet事件,分别作为夸克和胶子富集混合物的代表,并从2011年以7 TeV能量采集的真实数据以及蒙特卡洛模拟中提取样本。研究中训练了CWoLa和TopicFlow模型,并将其与在模拟数据上训练的全监督分类器进行比较。为了评估真实数据中的区分能力,研究考虑了三种不同的夸克/胶子混合比例估计方法。结果表明,与在模拟数据上的评估相比,全监督和弱监督方法的排名发生了反转。此外,基于真实数据的排名对测试集中混合比例的估计具有鲁棒性。最后,研究使用TopicFlow平滑小测试集中的统计波动,并提供了真实数据性能的不确定性估计。本研究展示了弱监督学习在高能物理数据分析中的潜力,尤其是在处理真实实验数据时,相较于传统全监督方法可能具有独特的优势。研究结果为未来的夸克与胶子标记方法提供了重要参考,同时也突显了在真实数据环境中评估模型性能的复杂性和必要性。
夸克标记胶子标记弱监督学习CMS开放数据高能物理
无监督学习在计算机断层扫描逆问题中的应用
📝 作者: Laura Hellwege, Johann Christopher Engster, Moritz Schaar, Thorsten M. Buzug, Maik Stille
📄 中文摘要:
本研究提出了一种无监督深度学习方法,用于计算机断层扫描(CT)图像重建,充分利用了深度神经网络训练与传统迭代重建方法之间的内在相似性。通过在深度学习框架中集成前向和后向投影层,本研究展示了在不依赖真实图像(ground-truth)的情况下,从投影数据重建图像的可行性。该方法在二维2DeteCT数据集上进行了评估,与传统的滤波反投影(FBP)和最大似然(ML)重建技术相比,在均方误差(MSE)和结构相似性指数(SSIM)方面表现出色。此外,该方法显著缩短了重建时间,使其成为实时医学成像应用的潜在替代方案。研究结果表明,无监督学习能够在CT图像重建中实现高质量的图像恢复,同时降低对标注数据的依赖,具有重要的应用价值。未来的研究将致力于将该方法扩展到三维重建,并进一步提升投影几何的适应性,以应对更复杂的成像场景和临床需求。
无监督学习计算机断层扫描图像重建深度学习医学成像
ADSEL:通过不完整多维情感标签进行EEG特征选择的自适应双重自表达学习
📝 作者: Tianze Yu, Junming Zhang, Wenjia Dong, Xueyuan Xu, Li Zhuo
📄 中文摘要:
基于EEG的多维情感识别在人机交互领域引起了广泛的研究兴趣。然而,EEG特征的高维度性与有限样本量常常导致分类器过拟合和计算复杂度高。特征选择是解决这些挑战的关键策略。目前,大多数EEG特征选择方法假设多维情感标签是完整的。然而,在实际开放采集环境中,由于情感感知的主观性,标签数据往往是不完整的,这可能损害模型的泛化能力。此外,现有的处理不完整多维标签的特征选择方法主要关注标签恢复过程中各维度之间的相关性,而忽略了标签空间中样本之间的相关性及其与各维度的交互作用。为解决这些问题,本文提出了一种新颖的不完整多维特征选择算法,用于基于EEG的情感识别。该方法将自适应双重自表达学习(ADSEL)与最小二乘回归相结合。ADSEL在标签空间内建立了样本层面和维度层面的自表达学习过程之间的双向路径,促进了这两个过程之间学习信息的交叉共享,从而能够同时利用样本和维度之间的有效信息进行标签重建。因此,ADSEL提高了标签恢复的准确性,并有效识别出多维情感识别的最佳EEG特征子集。研究结果表明,该方法在处理不完整标签数据时表现出色,为EEG情感识别提供了更鲁棒的特征选择方案,具有重要的应用价值。
EEG情感识别特征选择不完整标签自适应学习人机交互
基于虹膜图像的性别分类技术研究:深度综述与分析
📝 作者: Basna Mohammed Salih Hasan, Ramadhan J. Mstafa
📄 中文摘要:
性别分类在监控、公司画像和人机交互等多种应用中具有重要价值。作为一种软性生物特征,性别信息可以帮助识别个体身份。多年来,研究者开发了多种性别判别方法,其中基于面部特征的方法最为常见,而其他物理特征如指纹、掌纹、DNA、耳朵、步态和虹膜也被用于性别分类。虹膜作为一种重要的生物特征,因其在个体一生中基本保持不变而备受关注。此外,虹膜对外可见且对用户无侵入性,这使其在实际应用中具有优势。目前,虹膜图像的分割和编码技术已较为成熟,便于从虹膜纹理中提取特征向量。本研究综述了多种基于虹膜图像的性别分类方法,简要回顾了相关文献,并分析了性别分类过程中不同步骤所采用的多种技术。研究旨在为相关领域的研究人员提供现有性别分类方法的知识和分析,揭示该领域的差距与挑战,并提出改进建议和未来研究方向。通过对现有技术的深入探讨,本文不仅为虹膜性别分类研究提供了全面的视角,也为推动该领域的发展奠定了基础。研究结果表明,尽管虹膜性别分类技术已取得一定进展,但仍需解决诸如数据集多样性不足、算法鲁棒性等问题,以进一步提升分类精度和实用性。
性别分类虹膜图像生物特征识别深度综述特征提取
基于查找表的临床暗场胸部X射线图像束硬化信号校正方法
📝 作者: Maximilian E. Lochschmidt (Chair of Biomedical Physics, Department of Physics, TUM School of Natural
📄 中文摘要:
背景:在光栅基X射线成像中,微米级别的物质结构会导致超小角度X射线散射,例如在肺组织或塑料泡沫中观察到的现象。这种散射会降低条纹可见度,形成暗场信号。然而,多色束硬化也会改变可见度,即使在均匀、无散射的材料中,也会因衰减产生虚假的暗场信号。目的:本研究旨在开发一种快速、简单且鲁棒的方法,用于校正临床暗场胸部X射线图像中因束硬化引起的暗场信号及骨骼结构的影响。方法:该方法基于校准测量和图像处理。通过铝和水分别模拟骨骼和软组织引起的束硬化效应(两者均无微观结构,仅产生人工暗场信号),建立了相应的查找表。随后,通过加权平均方法将两者合并为单一查找表,并结合衰减图像,减少研究参与者图像中因束硬化导致的人工暗场信号及骨骼结构的影响。结果:研究发现,使用加权查找表进行校正后,暗场图像中的骨骼结构显著减少。铝成分的加权对骨骼结构在暗场图像中的可见度有重要影响。此外,成功校正了与铝加权相关的暗场图像中的较大负偏差。结论:通过所述方法,成功减少了暗场图像中的束硬化诱导信号。铝加权的选择(用于抑制肋骨结构)以及偏差校正的选择,应根据具体的临床问题进行评估。
暗场成像束硬化校正X射线图像查找表临床胸部影像