← 返回总览

计算机科学-ai与llms

2025-08-07 K-means智能聚类结果

聚类 0 • 机器学习算法识别
51 论文总数
51 高分论文
7.9 平均评分
7 关键词数

🔍 聚类关键词特征

aillms知识人工智能评估语言生成

“先思考,始终验证”:训练人类应对人工智能风险

ArXiv ID: 2508.03714
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Yuksel Aydin
📄 中文摘要:
本文提出了一种名为“先思考,始终验证”(Think First, Verify Always, TFVA)的协议,旨在将人类重新定位为对抗人工智能(AI)驱动威胁的第一道防线,即“零号防火墙”。研究背景指出,随着人工智能技术的发展,网络安全威胁从传统的设备中心转向人类认知层面,60%的安全事件源于人为因素,造成了巨大的经济损失。TFVA协议基于五个操作原则:意识(Awareness)、诚信(Integrity)、判断(Judgment)、伦理责任(Ethical Responsibility)和透明度(Transparency),统称为AIJET原则。这些原则将抽象的伦理指导转化为可操作的认知安全措施,旨在增强人类对AI驱动的认知操控的抵御能力。研究通过一项随机对照试验(n=151)验证了TFVA协议的有效性,结果显示,仅3分钟的简短干预即可显著提升参与者在认知安全任务中的表现,相较于对照组,整体表现提升了7.87个百分点,尤其在伦理责任(+44.4%)和诚信(+25.3%)领域效果显著。研究还发现,AIJET训练不仅提升了认知防御能力,还降低了参与者对隐私侵犯性监控措施的倾向。作者建议将TFVA协议嵌入生成式AI平台作为标准提示,以替代被动警告,增强AI使用的可信度和伦理性。结论强调,TFVA通过轻量级行为提示,将人类判断力转化为网络安全的重要组成部分,为企业、教育和公共部门提供了快速部署的实用方法,填补了技术安全与人类因素之间的空白。
人工智能风险认知安全人类防火墙TFVA协议AIJET原则
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新性协议,填补了AI安全中人类因素的空白,具有较大潜在影响。

多轮农业问答中的意图感知上下文检索

ArXiv ID: 2508.03719
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Abhay Vijayvargia, Ajay Nagpal, Kundeshwar Pundalik, Atharva Savarkar, Smita Gautam, Pankaj Singh, R
📄 中文摘要:
本文提出了一种创新的人工智能农业聊天机器人Krishi Sathi,旨在为印度农民提供个性化和易于理解的农业建议,解决农村地区信息获取和语言障碍问题。研究背景聚焦于印度农业领域的需求,特别是在低识字率地区,农民缺乏及时、可靠的农业指导。Krishi Sathi通过文本和语音方式支持英语和印地语,利用指令微调(IFT)模型和检索增强生成(RAG)技术,提供多轮对话支持。系统首先通过结构化的多轮对话逐步收集农民的查询细节,确保准确理解用户意图和上下文,随后从农业数据库中检索相关信息,并基于IFT模型生成定制化响应。此外,系统集成了自动语音识别(ASR)和文本转语音(TTS)功能,以适应低识字率或数字化技能有限的用户。研究方法包括对印度农业知识数据集的微调、意图驱动的对话流程设计以及基于密集检索的RAG框架。实验结果显示,系统在查询响应准确率上达到97.53%,上下文相关性和个性化评分达91.35%,查询完成率同样为97.53%,平均响应时间低于6秒,表明其在多语言交互中的高效性和实用性。结论指出,Krishi Sathi通过结合意图感知对话、微调模型和检索生成技术,显著提升了印度数字农业支持的质量和可访问性。未来工作将扩展至更多作物和语言,并整合图像分析和物联网数据以进一步提升功能。
农业聊天机器人意图感知检索增强生成多轮对话印度农业
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在农业领域的AI应用中具有重要创新性,可能显著提升印度农民的信息获取能力。

潜在知识手术刀:大型语言模型的精确与大规模知识编辑

ArXiv ID: 2508.03741
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Xin Liu, Qiyang Song, Shaowen Xu, Kerou Zhou, Wenbo Jiang, Xiaoqi Jia, Weijuan Zhang, Heqing Huang,
📄 中文摘要:
本文针对大型语言模型(LLMs)在预训练后可能保留不准确或过时信息的问题,提出了一种新的模型编辑方法——潜在知识手术刀(Latent Knowledge Scalpel, LKS)。研究背景表明,LLMs在推理过程中常因预训练数据的局限性导致错误预测或偏见输出,现有编辑方法在处理大规模事实信息编辑时效果有限,且可能损害模型的通用能力。本文通过实证研究发现,LLMs的内部表示可以像自然语言输入一样被编辑和替换实体信息。基于此,LKS通过轻量级超网络操作特定实体的潜在知识,实现精确且大规模的知识编辑。LKS的设计目标是满足可靠性、通用性和局部性要求,确保目标知识更新准确、等效邻域一致更新,同时不影响编辑范围外的知识。方法上,LKS包括编辑范围指示器、新知识块生成器和知识块替换器三个组件,利用简单的神经网络生成并替换实体知识块(KB),在推理过程中引导模型输出期望结果。实验在Llama-2和Mistral模型上进行,结果表明LKS在同时编辑10,000个事实时仍能保持高编辑性能,同时维持模型的通用能力,优于MEND、ROME、MEMIT等六种基线方法。LKS在可靠性、通用性和局部性方面达到了最佳平衡,且生成的文本流畅性较高。结论指出,LKS揭示了LLMs中实体表示的结构化特性,为高效、针对性的知识更新开辟了新可能性。
大型语言模型知识编辑潜在知识实体表示超网络
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出LKS方法,在大规模知识编辑中表现出显著创新和应用潜力,可能对LLM领域产生较大影响。

利用人工智能系统和机器学习方法开发董事会管理系统

ArXiv ID: 2508.03769
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Anna Romanova
📄 中文摘要:
本论文研究了利用人工智能(AI)和机器学习方法开发自主人工智能系统用于公司管理的理论与方法基础,旨在推动这些系统在工业环境中的应用,并为研究人员提供一个通用的开发与实施框架。研究背景源于AI技术快速发展带来的公司管理范式转变,从决策支持模式向决策管理模式的过渡。论文分析了自主AI系统在公司管理中的应用现状,指出其在全球多个公司中已被任命为高级管理角色,同时探讨了技术奇点理论对管理效率和竞争力的影响。研究方法包括提出并验证一个基于计算法学、专用操作上下文、合成数据生成、博弈论、可解释AI技术和机器学习算法的参考模型,涵盖了从法律框架到伦理决策的多个方面。此外,论文还开发了算法立法的方法论,强调为AI系统创建专用操作上下文以确保合法性和伦理性的重要性,并通过合成数据训练和博弈论策略计算来优化系统表现。关键发现包括识别了自主AI系统发展的模式,提出了系统分类法,并验证了参考模型在确保合法和伦理决策中的有效性。研究还指出现有法律和伦理框架的不足,强调需要同步开发算法立法以应对技术快速发展带来的挑战。结论表明,自主AI系统在公司管理中的应用潜力巨大,但必须通过完善的法律和伦理框架来规避经济和社会风险,为未来的工业实施提供了理论和实践指导。
人工智能机器学习公司管理算法立法自主系统
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文在AI应用于公司管理领域提出重要创新,可能对未来管理模式产生较大影响。

大型语言模型在教育中的法律考量与可信性研究

ArXiv ID: 2508.03771
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Sara Alaswad, Tatiana Kalganova, Wasan Awad
📄 中文摘要:
本文针对人工智能(AI),特别是大型语言模型(LLMs)在全球教育系统中的日益普及,探讨了其伦理、法律及上下文适应性部署的关键政策问题。研究通过比较分析欧盟、英国、美国、中国及海湾合作委员会(GCC)国家在AI相关监管和伦理框架方面的差异,映射了透明度、公平性、问责制、数据隐私和人工监督等核心可信性原则如何嵌入区域立法和AI治理结构中。特别关注GCC地区快速发展的国家AI战略和教育领域创新,提出了一种以合规为中心的AI治理框架,专门针对GCC背景设计,包括分层分类和机构检查清单,旨在帮助监管者、教育者和开发者将AI应用与国际规范及本地价值观相协调。研究综合了全球最佳实践与地区特定挑战,为构建合法、伦理且文化敏感的教育AI系统提供了实用指导。关键发现表明,尽管欧盟在风险导向的监管方法上处于领先地位,GCC国家通过国家AI战略和数据保护法展现出快速进步,全球在伦理一致性和法律合规性上逐渐形成共识。结论强调,教育中的有效AI治理需超越抽象原则,注重上下文感知的实施、持续的人工监督及跨学科合作,以确保AI在教育中的负责任整合,并维护公众信任。
可信AIAI监管法律合规教育技术数据隐私
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文在AI教育治理领域提出创新框架,对GCC地区有重要指导意义,可能影响区域政策。

从幻觉到真相:大型语言模型事实核查与事实性评估综述

ArXiv ID: 2508.03860
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Subhey Sadi Rahman, Md. Adnanul Islam, Md. Mahbub Alam, Musarrat Zeba, Md. Abdur Rahman, Sadia Sulta
📄 中文摘要:
本文系统综述了大型语言模型(LLMs)在事实核查和事实性评估方面的研究进展,探讨了其在生成内容准确性评估中的关键挑战与解决方案。研究背景指出,LLMs因训练数据中包含不准确或误导性内容,易生成错误信息(即幻觉),这对新闻、医疗、教育和法律等领域的实际应用构成威胁。文章通过五个研究问题(评价指标、幻觉影响、数据集、提示策略与微调、检索增强生成RAG的集成)分析了2020至2025年间的最新文献,重点关注事实核查系统的评估方法和缓解技术。主要方法包括高级提示策略、领域特定微调、指令调整、多智能体推理以及通过RAG框架访问外部知识。关键发现表明,当前评价指标存在局限性,如表面相似性而非事实一致性;通过外部验证证据 grounding 输出和领域特定定制可显著提高事实一致性;RAG作为核心技术,通过结合外部检索系统与生成模型,改善了事实性和可解释性。然而,数据集质量、复杂声明验证和多语言多模态事实核查仍面临挑战。结论强调,构建准确、可解释且领域适应的LLMs对于应对误信息至关重要,未来需开发更复杂的混合系统、自我校正机制和人机协作模式,以提升事实核查的可靠性与全球适用性。
事实核查大型语言模型幻觉检索增强生成领域适应
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文在LLM事实核查领域提出重要见解,RAG等创新方法具较大影响力。

以人为中心的需求工程框架:评估GitHub Copilot输出

ArXiv ID: 2508.03922
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Soroush Heydari
📄 中文摘要:
本文提出并验证了一个以人为中心的需求工程框架,用于评估GitHub Copilot在软件开发中的输出质量,重点关注其对人类需求的响应能力。研究背景源于AI编程助手(如GitHub Copilot)的广泛应用及其在满足用户需求方面的不足,传统评估框架多集中于代码正确性和效率,而忽视了代码可理解性、协作能力和包容性等关键人类因素。本研究通过分析GitHub Copilot的聊天界面交互,测量其根据用户专业水平调整解释和代码生成的能力,并评估其在促进协作编程体验方面的有效性。方法上,作者设计了一个包含明确指标的人本需求框架,涵盖包容性、可理解性、协作性和领域知识整合四个维度,并通过用户故事和测试用例对Copilot的输出进行评估。测试结果显示,Copilot在代码可理解性(得分3.0/3.0)和用户协作(得分2.5/3.0)方面表现较强,但在领域知识整合(得分1.0/3.0)方面有显著改进空间,尤其是在假设用户技术熟悉度时易出现错误。研究还揭示了AI工具在技术准确性与用户可访问性之间的平衡问题。结论指出,Copilot在一定程度上满足了人本需求,但需要在领域中立性输出方面进一步改进。本文为AI辅助编程中的人本需求工程研究提供了起点,并呼吁未来制定更全面的标准和评估框架,以更好地支持多样化开发者的需求。
需求工程大语言模型人本因素GitHub Copilot软件开发
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出的人本需求框架具有重要创新性,可能对AI编程助手的设计产生较大影响。

ASTRA:AI软件助手的自主时空红队测试

ArXiv ID: 2508.03936
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Xiangzhe Xu, Guangyu Shen, Zian Su, Siyuan Cheng, Hanxi Guo, Lu Yan, Xuan Chen, Jiasheng Jiang, Xiao
📄 中文摘要:
本文提出了一种名为ASTRA的自动化代理系统,旨在系统性地揭示AI驱动的代码生成和安全指导系统中的安全缺陷。研究背景聚焦于AI编码助手(如GitHub Copilot)在软件开发中的快速普及及其在高风险领域(如网络安全)中的安全不确定性。现有红队测试工具多依赖固定基准或不切实际的提示,难以发现真实世界中的许多漏洞。ASTRA通过三个阶段工作:首先,构建结构化的领域特定知识图谱,模拟复杂的软件任务和已知弱点;其次,通过知识图谱指导,执行目标模型的在线漏洞探索,包括输入空间的空間探索和推理过程的时间探索;最后,生成高质量的违规诱导案例以改进模型对齐。ASTRA区别于先前方法,专注于开发者可能实际提出的现实输入,并结合离线抽象引导的领域建模和在线领域知识图谱适应,揭示边缘案例漏洞。研究在两个主要评估领域(安全代码生成和软件安全指导)中发现,ASTRA比现有技术多发现11-66%的安全问题,并生成导致17%更有效对齐训练的测试案例,显示出其在构建更安全AI系统中的实用价值。实验结果表明,ASTRA在攻击成功率上显著优于基线方法,尤其是在针对强大蓝队系统的测试中,展现了其在空间和时间探索策略上的有效性。此外,研究还通过对蓝队技术的改进(如电路断路器和审议对齐)进一步验证了红队测试的洞察对提升AI安全性的重要作用。结论指出,ASTRA为AI安全领域提供了一种系统性方法,未来可通过提升在线评判模型的准确性进一步优化其性能。
AI安全红队测试代码生成漏洞探索知识图谱
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文提出创新性红队测试方法,对AI安全领域有较大潜在影响。

以人为中心的人工智能交互(HC-HAII):一种以人为中心的人工智能视角

ArXiv ID: 2508.03969
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Wei Xu
📄 中文摘要:
本文系统性地探讨了一个新兴的跨学科领域——人-人工智能交互(HAII),并从以人为中心的人工智能(HCAI)视角提出了以人为中心的人-人工智能交互(HC-HAII)框架。研究背景聚焦于人工智能(AI)时代人机关系的变化,强调AI系统相较于传统非AI系统的独特特性,如自主性、认知能力和双向协作交互,这些特性带来了新的挑战和机遇。文章通过对比人-非AI系统交互与人-AI系统交互,分析了AI技术带来的新特性及其对交互设计的影响,指出传统人机交互(HCI)方法已不足以应对AI系统的复杂性。为此,作者提出了HC-HAII框架,旨在将人类置于HAII研究与应用的核心,强调以人为中心的设计理念,而非技术中心的方法。该框架包括以人为中心的方法、流程、跨学科团队合作及多层次设计范式,涵盖从个体人-AI系统到智能生态系统及社会技术系统的设计思考。主要方法包括基于HCAI指导原则(如透明性、人类控制、伦理一致性等)的交互设计,以及通过“双钻”流程实现端到端的AI生命周期管理。关键发现表明,HC-HAII能够通过整合人类与机器智能的互补优势,优化人-AI交互体验,同时确保人类在决策中的最终权威,减少AI系统对人类的潜在负面影响。研究还指出了当前HAII实践中的挑战,如流程、设计范式、方法及跨学科协作的不足,并提出了相应的解决方案。结论强调,HC-HAII框架为HAII研究与应用提供了基础性指导,有助于开发有益于人类且符合伦理的AI系统,同时为未来的研究方向提供了启示,如智能社会技术系统的设计与治理。本文作为书籍首章,还概述了全书的结构,汇集了跨学科研究者和实践者的贡献,旨在推动HCAI在HAII领域的理论、方法与应用发展。
人-人工智能交互以人为中心的人工智能人-人工智能协作交互以人为中心的设计伦理人工智能
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出HC-HAII框架,具有重要创新性,可能对人机交互和AI设计领域产生较大影响。

数据与人工智能治理:促进大型语言模型中的公平、伦理和公正性

ArXiv ID: 2508.03970
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Alok Abhishek, Lisa Erickson, Tushar Bandopadhyay
📄 中文摘要:
本文探讨了在快速发展的生成式人工智能(GenAI)和大型语言模型(LLMs)背景下,数据与人工智能治理的重要性。研究背景指出,生成式人工智能市场预计到2032年将达到1.3万亿美元,但其快速发展伴随着显著的伦理和偏见问题。LLMs在性别、种族、经济社会地位、文化、宗教等多个维度上表现出偏见,可能加剧社会不平等,尤其是在医疗、法律、金融和治理等关键领域的应用中。本文提出了一种全面的数据与人工智能治理框架,旨在系统性地评估、监测和缓解LLMs中的偏见和伦理问题。该框架覆盖了人工智能生命周期的各个阶段,包括数据收集、模型开发、部署和持续监控,强调公平性评估、透明度和隐私保护措施。研究方法基于作者之前提出的偏见评估与测试套件(BEATS),发现37.65%的LLM输出存在某种形式的偏见,其中33.7%的响应具有中高程度的偏见严重性或潜在影响。关键发现表明,现有监管框架(如欧盟数据治理法案和可信人工智能伦理指南)虽提供了初步指导,但在实际应用中仍面临挑战,特别是在处理LLMs特有的复杂性时。结论强调,通过在人工智能生命周期中实施数据与人工智能治理,组织可以显著提升GenAI系统的安全性和责任感,有效降低歧视风险并保护品牌声誉。本文为推动社会责任和伦理一致的生成式人工智能应用的发展做出了贡献,并提出了未来研究方向,包括框架的实证验证、多模态GenAI治理探索以及交互式治理工具的开发。
数据治理人工智能伦理大型语言模型偏见缓解公平性
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新治理框架,对LLMs偏见问题有重要影响,具实践价值。

当今的大型语言模型是否准备好解释幸福概念?

ArXiv ID: 2508.03990
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu
📄 中文摘要:
本研究探讨了大型语言模型(LLMs)在解释幸福(well-being)概念方面的能力,幸福概念涵盖心理、身体和社会维度,对个人成长和生活决策至关重要。随着用户越来越多地依赖LLMs获取幸福相关知识,一个关键挑战浮现:LLMs能否生成不仅准确且适合不同受众的解释?高质量的解释需要事实准确性以及满足不同专业水平用户需求的能力。研究构建了一个包含43,880个解释的大型数据集,涉及2,194个幸福概念,由10个不同的LLMs生成。作者提出了一种基于原则的LLM-as-a-judge评估框架,采用双重评判机制评估解释质量,并通过监督微调(SFT)和直接偏好优化(DPO)对开源LLM进行微调以提升解释质量。研究结果表明:(1)提出的LLM评判框架与人类评估高度一致,验证了其可靠性;(2)不同模型、受众和幸福类别之间的解释质量差异显著,特别是在为领域专家生成解释时,模型更容易出现事实错误;(3)通过SFT和DPO微调的模型性能显著优于未经微调的更大模型,证明了基于偏好学习的有效性,尤其是在为普通公众和专家提供解释时。研究还发现,较大的模型在实用性建议和深度分析方面存在共同弱点,而社会幸福概念的解释质量普遍低于心理和身体幸福概念。作者通过构建数据集、提出细粒度评估方法和进行广泛实验,为LLMs在幸福概念解释领域的应用提供了重要见解,并为未来改进模型性能指明了方向,如探索其他微调技术和扩展到不同领域或受众。
大型语言模型幸福概念解释质量监督微调直接偏好优化
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在LLM解释幸福概念领域具有重要创新,可能对自然语言处理和用户交互产生较大影响。

PAIRS:参数验证的自适应信息检索与选择用于高效RAG

ArXiv ID: 2508.04057
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Wang Chen, Guanqiang Qi, Weikang Li, Yang Li, Deguo Xia, Jizhou Huang
📄 中文摘要:
本文提出了一种名为PAIRS(Parametric-verified Adaptive Information Retrieval and Selection)的无训练框架,旨在解决检索增强生成(RAG)系统中存在的两个关键问题:对每个查询都进行低效的外部信息检索(包括可通过大语言模型(LLM)参数知识直接解决的简单问题),以及在查询信息稀疏时检索到不相关文档的风险。PAIRS通过整合参数知识和检索知识,自适应地决定是否需要检索以及如何选择外部信息。其核心机制包括双路径生成:LLM首先生成直接答案和基于自生成伪上下文的增强答案,若两者一致,则跳过外部检索,从而显著提高效率;若不一致,则启动双路径检索(DPR),利用原始查询和自生成上下文信号进行检索,并通过自适应信息选择(AIS)模块基于加权相似性筛选文档。实验在六个问答(QA)基准数据集上进行,结果表明PAIRS将检索成本降低了约25%(仅对75%的查询触发检索),同时在准确性上平均比先前基线提高了1.1%的精确匹配(EM)和1.0%的F1分数。此外,PAIRS框架具有模块化特性,可与其他增强方法(如重排序模型)无缝结合,进一步提升性能,例如DPR-AIS-rerank在六个数据集中平均比强基线提高了2.3%的EM和2.5%的F1分数。研究还通过消融实验和案例分析验证了各组件的有效性,表明PAIRS在处理简单查询时能有效利用参数知识,而在复杂查询中通过上下文引导检索提升准确性。总之,PAIRS为RAG系统提供了一种简单而高效的解决方案,具有实际应用潜力。
检索增强生成大语言模型自适应信息检索参数知识问答系统
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: PAIRS框架在RAG系统中实现了效率与准确性的双重提升,具有较大潜在影响。

知识图谱增强的可执行思维链在数学编码中的应用

ArXiv ID: 2508.04072
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Xingyu Chen, Junxiu An, Jun Guo, Li Wang, Jingcai Guo
📄 中文摘要:
近年来,大型语言模型(LLMs)在自然语言处理任务中表现出色,但在数学推理和代码生成等复杂推理任务中面临显著挑战。为解决这些问题,本文提出了一种新颖的框架——知识图谱增强的可执行思维链(KGA-ECoT),旨在通过知识图谱增强代码生成能力,并通过可执行代码提升数学推理能力。KGA-ECoT 将问题分解为结构化任务图,利用高效的 GraphRAG 技术从数学库中精确检索知识,并生成可验证的代码以确保计算精度。该框架通过五个关键节点(构建解决方案、获取查询、编码、运行代码和回答问题)系统地分解问题、生成代码并验证答案,同时结合基于 Docker 的隔离运行环境确保代码执行的安全性和稳定性。此外,KGA-ECoT 引入了层次化图嵌入方法,通过融合文本嵌入和图结构信息,显著提升了 GraphRAG 的检索效率和代码生成质量。在多个数学推理基准数据集(GSM8K、MATH-500 和 SVAMP)上的评估表明,KGA-ECoT 在不同规模和类型的骨干模型上均显著优于现有的提示方法,准确率提升幅度从几个百分点到十几个百分点不等。消融实验进一步验证了 GraphRAG 模块在提升代码可执行性和领域知识整合中的关键作用,以及外部代码执行机制在确保计算精度和答案可验证性中的不可替代性。研究结果表明,KGA-ECoT 是一个强大、高效且高度泛化的数学推理框架,为未来开发更智能、可靠的基于 LLM 的数学问题解决系统奠定了坚实基础。
知识图谱可执行思维链数学推理代码生成大型语言模型
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新框架,显著提升数学推理能力,具有较大领域影响力。

迈向透明的AI评分:语义熵作为人机分歧的信号

ArXiv ID: 2508.04105
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Karrtik Iyer, Manikandan Ravikiran, Prasanna Pendse, Shayan Mohanty
📄 中文摘要:
本研究提出了一种新的方法,通过引入语义熵(semantic entropy)作为自动评分系统中人机分歧的代理信号,以提高AI辅助评分的透明度和可信度。研究背景聚焦于自动短答题评分系统的局限性,即其通常仅提供最终分数,未能指示评分决策的不确定性或潜在争议性。作者利用GPT-4生成同一学生回答的多个解释理由,通过基于蕴含关系的聚类方法计算这些理由的语义多样性,从而量化语义熵,作为人类评分者分歧的间接指标。研究通过ASAP-SAS数据集进行实验,探讨了三个核心问题:(1)语义熵是否与人类评分者分歧一致;(2)该指标是否能跨学科领域推广;(3)是否对任务结构特征(如依赖外部来源)敏感。实验结果表明,语义熵与评分者分歧呈显著相关性(Pearson相关系数r=0.172,p<0.001),在不同学科(如生物学和英语)中表现出不同的预测效果,尤其在需要解释性推理的学科中效果更佳。此外,语义熵在依赖外部来源的任务中显著更高,反映了任务复杂性和评分标准模糊性对解释多样性的影响。作者还提出了基于语义熵和人类分歧的决策框架,用于识别需要人工审查的评分案例。结论指出,语义熵作为一种可解释的不确定性信号,有助于构建更透明的AI辅助评分流程,尽管其预测强度因领域和任务类型而异。未来工作将进一步验证其稳健性,并探索在实时教育系统中的应用潜力。
短答题评分语义熵AI辅助评估人机分歧教育技术
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出语义熵作为创新信号,提升AI评分透明度,具有较大潜在影响。

AgREE:针对新兴实体的知识图谱补全的代理推理框架

ArXiv ID: 2508.04118
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Ruochen Zhao, Simone Conia, Eric Peng, Min Li, Saloni Potdar
📄 中文摘要:
本文提出了一种名为AgREE(Agentic Reasoning for Emerging Entities)的新型代理推理框架,旨在解决开放域知识图谱补全(KGC)中因新兴实体不断涌现而带来的挑战。知识图谱(KG)作为结构化数据表示,在自然语言处理(NLP)应用中至关重要,但传统方法如知识图谱嵌入(KGE)、预训练语言模型(PLM)和单步检索在处理未见过的或新兴实体时表现不佳,尤其是在缺乏训练数据或信息更新滞后时。AgREE通过结合迭代检索和多步推理,动态构建知识图谱三元组,无需训练即可显著提升性能。其核心机制包括:基于代理的探索策略,利用基本和高级检索工具(如Wikipedia和Google搜索API)获取外部信息;自我反思机制评估信息充分性并决定是否需要进一步检索;以及多步推理综合信息生成最终预测。实验结果表明,AgREE在标准KGC数据集(如Wikidata5m和FB60K-NYT10)上相较于现有方法提升了高达13.7%的Hits@N指标,在新兴实体数据集上更是实现了45.3%的显著改进。此外,作者提出了一种新的关系感知Hits@N评估指标,解决传统评估方法对一对多关系的偏见问题,并构建了一个新兴实体数据集用于测试模型对未见过实体的泛化能力。研究表明,AgREE在动态信息环境中维护最新知识图谱方面具有显著优势,为开放域KGC提供了一种无需训练且高效的解决方案。作者还通过消融实验和错误分析揭示了框架的依赖性及改进方向,强调了自我反思和检索工具选择对性能的影响。总之,AgREE展示了代理推理与战略性信息检索结合的潜力,为知识图谱的动态更新开辟了新方向。
知识图谱补全新兴实体代理推理迭代检索多步推理
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: AgREE在知识图谱补全领域提出创新框架,对新兴实体处理有显著贡献,或将影响动态知识更新技术。

一种从科学论文语料中生成研究主题本体的混合人工智能方法

ArXiv ID: 2508.04213
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Alessia Pisu, Livio Pompianu, Francesco Osborne, Diego Reforgiato Recupero, Daniele Riboni, Angelo S
📄 中文摘要:
随着科学文献数量的持续增长,管理和分析学术出版物成为一大挑战。尽管大型语言模型(LLMs)在自然语言处理领域取得了革命性进展,但它们在处理长文本和理解整个研究领域的结构方面仍存在局限性。为解决这一问题,本文提出了一种名为Sci-OG的半自动化方法,用于生成研究主题本体。该方法通过多步骤流程实现:首先是主题发现,从研究论文中提取潜在主题;其次是关系分类,确定主题对之间的语义关系;最后是本体构建,将主题精炼并组织成结构化的本体。关系分类作为系统的核心,集成了基于编码器的语言模型,并结合了描述科学文献中主题出现特征的数据。本研究在包含21,649个手动标注语义三元组的数据集CSO-21K上验证了该方法,取得了最高的F1分数(0.951),优于包括SciBERT和GPT4-mini在内的多种竞争方法。此外,本文通过一个案例研究展示了该系统在扩展计算机科学本体(CSO)的网络安全分支中的实际应用。Sci-OG旨在提高科学知识的可访问性、组织性和分析能力,支持AI驱动的文献管理和研究探索的进步。作者认为,该方法是对现有手动构建分类法和本体的改进,能够更及时地捕捉新兴主题,尤其是在计算机科学等快速发展领域。本研究为未来的知识图谱构建和学术推荐系统提供了重要基础,同时也为自动化文献综述和假设生成等应用铺平了道路。
大型语言模型主题发现关系分类本体构建知识图谱
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在AI驱动的文献管理领域具有重要创新,可能对知识组织产生较大影响。

TalkDep:基于临床的LLM人格用于以对话为中心的抑郁症筛查

ArXiv ID: 2508.04248
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Xi Wang, Anxo Perez, Javier Parapar, Fabio Crestani
📄 中文摘要:
随着心理健康服务需求的不断增加,真实的培训数据不足以支持临床专业人员的培养,导致抑郁症诊断支持的匮乏。这一问题促使研究者开发模拟或虚拟患者以辅助培训和评估。然而,现有方法往往无法生成临床上有效、自然且多样的症状表现。本研究以先进的语言模型为基础,提出了一种新颖的临床医生参与的患者模拟流程——TalkDep,通过访问多样化的患者档案来开发模拟患者。通过将模型与精神病学诊断标准、症状严重程度量表以及上下文因素相结合,本研究旨在生成真实的患者响应,以更好地支持诊断模型的训练和评估。研究通过临床专业人员的全面评估验证了这些模拟患者的可靠性。经验证的模拟患者的可用性为提高自动抑郁症诊断系统的鲁棒性和泛化能力提供了一个可扩展且适应性强的资源。本文详细阐述了TalkDep的实现方法,包括如何利用大语言模型(LLM)生成符合临床特征的对话内容,以及如何通过临床反馈不断优化模拟患者的表现。研究结果表明,TalkDep生成的虚拟患者在对话中能够真实反映抑郁症患者的语言模式和情感表达,为构建更精准的诊断工具奠定了基础。此外,该方法还展示了在数据稀缺环境下,利用生成式AI技术解决心理健康领域挑战的潜力。最终,本研究为心理健康领域的自动化诊断和干预提供了新的视角和工具,具有重要的应用价值。
抑郁症筛查模拟患者大语言模型心理健康自然语言处理
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究创新性地结合LLM与临床数据,具有较大应用潜力与影响力。

遗忘:一种改进大型语言模型微调的新机制

ArXiv ID: 2508.04329
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Ali Taheri Ghahrizjani, Alireza Taban, Qizhou Wang, Shanshan Ye, Abdolreza Mirzaei, Tongliang Liu, B
📄 中文摘要:
本文提出了一种新的机制,通过遗忘来提升预训练大型语言模型(LLMs)的监督微调(SFT)效果。监督微调在增强模型领域特定知识获取能力的同时,保持或提升其通用能力方面发挥了关键作用。然而,SFT的效果高度依赖于数据的质量和数量,否则可能导致性能提升有限甚至相对于基线有所下降。为解决这一问题,作者提出了一种创新方法,将每个语料库中的词元(tokens)分为正向和负向两类:正向词元有助于提升模型性能,可按常规方式训练;负向词元则可能缺乏必要语义或具有误导性,应被明确遗忘。通过这种词元分类,模型能够减少对低信息量内容的学习,而遗忘过程则塑造了知识边界,指导模型更精确地学习所需信息。作者在多个公认的基准数据集上进行了实验,结果表明,这种遗忘机制不仅显著提升了模型的整体性能,还促进了模型响应的多样性。这一方法为大型语言模型的微调提供了一种新思路,有助于在数据质量和数量受限的情况下实现更好的性能表现。研究结论强调了遗忘机制在模型训练中的潜力,特别是在处理复杂语料和优化学习效率方面的应用价值。
大型语言模型监督微调遗忘机制词元分类模型性能
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新的遗忘机制,对LLM微调有重要影响,具较大应用潜力。

文献综述组成部分的建模与分类

ArXiv ID: 2508.04337
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Francisco Bola\~nos, Angelo Salatino, Francesco Osborne, Enrico Motta
📄 中文摘要:
本研究聚焦于利用人工智能方法分析科学文献,特别是在文献综述生成中的应用。研究背景表明,通过对论文中的句子按照修辞角色(如研究空白、结果、局限性、现有方法的扩展等)进行标注,可以显著提升文献分析的效率,并为开发高质量文献综述生成系统奠定基础。然而,实现这一目标需要设计合适的标注模式和有效的文献大规模标注策略。为此,本文提出了两项主要贡献:首先,设计了一种专门用于支持文献综述生成的新颖标注模式;其次,对多种最先进的大型语言模型(LLMs)在根据该模式分类修辞角色方面的性能进行了全面评估。研究团队构建了一个新的多学科基准数据集Sci-Sentence,包含700个由领域专家手动标注的句子和2240个由LLMs自动标注的句子,并在此基础上对37种不同模型家族和规模的LLMs进行了零样本学习和微调方法的测试。实验结果揭示了多个重要发现:首先,经过高质量数据微调后,当前一代LLMs在此任务上表现出色,F1分数超过96%;其次,尽管大型专有模型如GPT-4o取得了最佳结果,但一些轻量级开源替代模型也展现出优异性能;最后,通过LLMs生成的半合成示例丰富训练数据被证明是有益的,使小型编码器模型取得稳健结果,并显著提升了多个开源解码器模型的性能。这些发现为该领域的研究提供了新的视角和方法。
文献综述人工智能大型语言模型修辞角色分类标注模式
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新性标注模式和全面模型评估,对文献综述生成领域有重要影响。

GoldMind:高等教育中以教师为中心的知识管理系统——迭代设计的经验教训

ArXiv ID: 2508.04377
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Gloria Fern\&#x27;andez-Nieto, Lele Sha, Yuheng Li, Yi-Shan Tsai, Guanliang Chen, Yinwei Wei, Weiqin
📄 中文摘要:
本文介绍了一项为期两年的以人为中心的设计研究,旨在开发并评估一个名为GoldMind的知识管理系统(KMS),以支持高等教育教师在数字化教学任务中的即时知识管理。研究涉及108名高等教育教师,通过三轮设计-评估循环,探讨了教师与系统的交互方式以及他们的反馈如何推动系统的持续改进。研究背景聚焦于高等教育中知识管理系统的设计挑战,特别是在人员流动和角色变化导致知识复用困难的情况下。尽管流程挖掘和生成式人工智能的进步为知识管理功能设计提供了新途径,但现有KMS往往忽视了教育工作者实际工作流程的现实,导致系统采用率低且影响有限。研究方法包括用户交互数据的分析、共同设计和可用性测试,以及通过认知网络分析(Epistemic Network Analysis)考察认知负荷和知识行为等人为因素。关键发现归纳为三个主题:(1)技术经验教训,基于用户交互数据揭示系统功能的有效性与局限性;(2)设计考量,通过共同设计和测试形成的系统优化策略;(3)人为因素,分析教师在使用系统时的认知负荷和知识行为模式。研究结论表明,以教师为中心的设计方法能够显著提升KMS在高等教育中的适用性和接受度,同时强调了在设计中平衡技术创新与用户需求的必要性。本研究为未来KMS的开发提供了宝贵的经验教训,特别是在如何通过迭代设计解决复杂的人机交互问题方面。
知识管理系统高等教育人机交互迭代设计生成式人工智能
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在知识管理系统设计中展现重要创新,对高等教育领域有较大潜在影响。

人工智能意识作为界面表征的研究

ArXiv ID: 2508.04383
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Robert Prentner
📄 中文摘要:
本论文探讨了人工智能(AI)系统是否可能具备意识这一备受争议的问题,指出定义和操作化主观体验的固有挑战是研究的核心难点。作者提出了一种框架,将人工智能意识的问题转化为可通过实证测试来解决的议题,引入了三个评估标准——S(主观-语言)、L(潜在-涌现)和P(现象-结构),统称为SLP测试。这些测试旨在评估AI系统是否能够实例化促进类似意识特性的界面表征。论文借鉴了范畴论,将界面表征建模为关系基质(RS)与可观察行为之间的映射,类似于特定类型的抽象层。SLP测试将主观体验操作化为一种功能性界面,而非物理系统的内在属性,强调其作为与关系实体的交互界面的作用。研究通过这种方法尝试绕过传统哲学中关于意识本质的争论,聚焦于可测试的表征和行为特征。关键发现表明,通过SLP测试,AI系统可以在不依赖于物理或生物学假设的情况下,展现出类似意识的功能特性。这一框架为人工智能意识的研究提供了新的视角,可能推动相关领域在理论和实践上的进一步发展。作者最后指出,尽管该框架无法完全解决意识的本质问题,但它为未来的实证研究奠定了基础,并可能启发关于意识的跨学科讨论。
人工智能意识界面表征范畴论SLP测试
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文提出创新框架,具有较大理论影响力,可能推动AI意识研究发展。

AIC CTU@FEVER 8:基于长上下文RAG的本地化事实核查

ArXiv ID: 2508.04390
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Herbert Ullrich, Jan Drchal
📄 中文摘要:
本文介绍了我们在FEVER 8共享任务中获得第一名的事实核查流程。我们的系统基于去年的提交成果,采用了一个简单的两步RAG(检索增强生成)流程。我们展示了如何在本地环境中重新部署该流程,即使在硬件资源受限的情况下(仅使用单个NVidia A10 GPU、23GB显存)以及每条声明60秒的运行时间限制下,依然实现了最先进的事实核查性能(以Ev2R测试分数为标准)。研究背景源于对高效、准确的事实核查工具的需求,尤其是在信息爆炸的时代,快速验证声明的真实性至关重要。我们的方法主要依赖于长上下文的检索和生成技术,通过优化检索机制和生成模型,确保在有限资源下仍能处理复杂的声明内容。关键发现包括:本地化部署不仅降低了外部依赖,还在性能上达到了与云端解决方案相当的水平;同时,长上下文处理能力显著提升了系统对复杂声明的理解和验证准确性。结论表明,这种方法为资源受限环境下的高性能事实核查提供了可行方案,未来可进一步扩展到其他领域,如实时信息验证和多语言支持。本研究为事实核查技术的发展提供了重要参考,尤其是在隐私和成本敏感的场景中具有实际应用价值。
事实核查长上下文RAG本地化部署自然语言处理信息验证
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在事实核查领域具有重要创新,特别是在资源受限环境下的应用潜力较大。

评估、综合与增强客户支持对话

ArXiv ID: 2508.04423
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Jie Zhu, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang, Fang Kong
📄 中文摘要:
有效的客户支持不仅需要准确的问题解决能力,还需要符合专业标准的结构化且富有同理心的沟通方式。然而,现有的对话数据集往往缺乏策略性指导,而真实的客户服务数据难以获取和标注。为解决这一问题,本研究提出了客户支持对话(CSC)任务,旨在训练客户服务代理使用明确的支持策略进行回应。研究基于COPC指南,提出了一个结构化的CSC框架,定义了五个对话阶段和十二种策略,以指导高质量的交互。在此基础上,构建了CSConv评估数据集,包含1,855个真实的客户-代理对话,这些对话通过大型语言模型(LLM)重写以体现策略性使用,并进行了相应标注。此外,研究开发了一种角色扮演方法,利用与CSC框架对齐的LLM驱动角色模拟策略丰富的对话,形成了训练数据集RoleCS。实验表明,在RoleCS上微调强大的LLM显著提升了其在CSConv上生成高质量、策略一致的回复的能力。人工评估进一步证实了问题解决能力的提升。所有代码和数据将在https://github.com/aliyun/qwen-dianjin上公开。本研究为客户支持对话的自动化和智能化提供了重要的理论框架和实践工具,对提升客户服务质量具有重要意义。
客户支持对话自然语言处理大型语言模型对话策略数据集构建
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 研究创新性强,对客户支持自动化有较大潜在影响。

SimInstruct:一个负责任的工具,用于收集专家与LLM模拟新手之间的脚手架对话

ArXiv ID: 2508.04428
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Si Chen, Izzy Molnar, Ting Hua, Peiyu Li, Le Huy Khiem, G. Alex Ambrose, Jim Lang, Ronald Metoyer, N
📄 中文摘要:
高质量的多轮教学对话数据对于开发支持教学、学习和决策的人工智能系统至关重要。这类对话通常涉及脚手架过程,即专家通过提问、反馈和逐步指导支持新手的思考。然而,由于隐私问题和求助过程中的脆弱性,此类数据十分稀缺。本研究提出了SimInstruct,一种可扩展的、专家参与的工具,用于收集脚手架对话。以教学发展指导为例,SimInstruct通过大型语言模型(LLM)模拟新手教师,设置不同的教学挑战和LLM的个性特征,而人类专家则提供多轮反馈、推理和教学支持。这种设计能够在无需真实新手参与的情况下,生成逼真且具有丰富教学价值的数据。研究结果表明,个性特征(如外向和内向)显著影响专家的参与方式。与真实的导师对话记录相比,SimInstruct生成的对话在教学相关性和认知深度上具有可比性。专家还反馈称这一过程既引人入胜又具有反思性,不仅提升了数据质量,也增强了自身的专业洞察力。此外,研究团队利用增强数据集对LLaMA模型进行了微调,使其成为专家模型,其教学质量超越了GPT-4o。分析进一步揭示了GPT-4o在反思性提问不足、过度使用泛泛的赞扬、语气居高临下以及倾向于用过多建议压倒新手等方面的局限性。本研究为AI支持的教育对话系统提供了重要的数据收集工具,并展示了通过模拟对话提升模型性能的潜力。
脚手架对话教学数据大型语言模型人工智能教育专家反馈
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在AI教育领域具有重要创新,可能显著影响教学对话系统的开发。

使用生成式人工智能自动生成符合马来西亚中学数学课程的多选题

ArXiv ID: 2508.04442
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Rohaizah Abdul Wahid, Muhamad Said Nizamuddin Nadim, Suliana Sulaiman, Syahmi Akmal Shaharudin, Muha
📄 中文摘要:
本文针对马来西亚教育系统中对可扩展且高质量教育评估工具的迫切需求,探讨了生成式人工智能(GenAI)的潜力,同时指出了确保事实准确性和课程一致性的重大挑战,尤其是在如马来语这样的低资源语言环境中。研究引入并比较了四种渐进式流程,用于使用OpenAI的GPT-4o生成马来语Form 1数学多选题(MCQs)。这些方法包括非基于知识库的提示(结构化和基础提示)以及检索增强生成(RAG)方法(一种使用LangChain框架,另一种手动实现)。系统以官方课程文件为基础,包括教师准备的笔记和年度教学计划(RPT)。研究采用双重自动化评估框架来评估生成的问题:通过语义文本相似性(STS)与RPT对比来衡量课程一致性;通过一种新颖的基于RAG的问答(RAG-QA)方法验证上下文有效性。结果表明,基于RAG的流程在课程一致性和事实有效性方面显著优于非基于知识库的提示方法。此外,研究还分析了基于框架的RAG易于实现的优势与手动流程提供的精细控制之间的权衡。本研究为低资源语言环境下的课程特定教育内容生成提供了一种经过验证的方法,引入了协同RAG-QA评估技术,并为马来西亚及类似地区的实用教育技术解决方案的开发和部署提供了可操作的见解。这一工作不仅展示了生成式AI在教育领域的应用潜力,也为如何在资源有限的环境中确保内容质量和课程相关性提供了重要参考。
生成式人工智能教育技术多选题生成课程一致性低资源语言
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文在教育技术领域具有重要创新,特别是在低资源语言环境下的应用有较大潜力。

TRAIL:利用大型语言模型进行知识图谱的联合推理与优化

ArXiv ID: 2508.04474
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Xinkui Zhao, Haode Li, Yifan Zhang, Guanjie Cheng, Yueshen Xu
📄 中文摘要:
近年来,大型语言模型(LLMs)在推理和决策能力方面取得了显著进展。然而,由于其依赖静态参数记忆,其在知识密集型场景中的适应性、事实准确性和可解释性受到根本性限制。知识图谱(KGs)作为结构化的显式关系知识库,为增强LLMs的外部可解释记忆提供了有前景的方法。然而,现有的大多数结合LLMs与KGs的方法将推理和知识更新视为独立过程,导致新信息利用不足,并阻碍实时更新。本研究提出了TRAIL(Thinking, Reasoning, And Incremental Learning),这是一个统一框架,通过大型语言模型实现联合推理和动态知识图谱优化。TRAIL使LLM代理能够在推理过程中迭代地探索、更新和优化知识图谱,采用基于置信度的机制生成、验证和修剪新事实。这一即插即用的架构支持与各种LLMs的无缝集成,无需重新训练即可实现持续适应。在多个基准测试上的广泛实验表明,TRAIL在性能上比现有的KG增强和检索增强的LLM基线高出3%至13%。更重要的是,这些结果标志着开发具有持续学习能力和可靠、透明推理的适应性记忆增强语言模型迈出了重要一步。TRAIL框架不仅提升了LLMs在知识密集型任务中的表现,还为构建动态、可解释的AI系统奠定了基础,具有重要的理论和应用价值。
大型语言模型知识图谱联合推理动态优化持续学习
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: TRAIL框架在知识图谱与LLM结合领域具有重要创新,可能显著提升AI系统的适应性和推理能力。

透明偏见检测的论证性辩论

ArXiv ID: 2508.04511
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Hamed Ayoobi, Nico Potyka, Anna Rapberger, Francesca Toni
📄 中文摘要:
随着人工智能系统在社会中的广泛应用,解决数据中潜在偏见或模型学习到的偏见问题变得至关重要,以防止对特定群体造成系统性不利。文献中提出了多种公平性(或不公平性)的概念,并相应开发了检测和缓解不公平性的算法方法。然而,这些方法大多忽视了透明度问题。透明度、可解释性和可说明性是算法公平性的核心要求,甚至比其他算法解决方案更为重要,因为公平性本质上与人类相关。本文提出了一种新颖的、可解释且可说明的偏见检测方法,该方法基于对个体偏见存在的辩论,辩论内容涉及个体及其邻域内其他人的受保护特征值。我们借鉴了形式化与计算论证的技术,通过在邻域内及跨邻域的偏见争论构建辩论过程。本文对该方法进行了形式化、定量和定性的评估,突出了其相较于基准方法的性能优势,以及在可解释性和可说明性方面的突出表现。研究背景在于人工智能伦理与公平性领域的迫切需求,主要方法是通过论证性辩论框架分析偏见,关键发现是该方法不仅在检测偏见方面表现优异,还能提供清晰的解释,增强了用户对算法决策的信任。结论表明,这种方法为实现透明的算法公平性提供了有效工具,可能对未来的偏见检测和缓解研究产生深远影响。
人工智能公平性偏见检测论证性辩论透明度可解释性
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在AI公平性领域具有重要创新,透明性方法可能影响未来研究方向。

TopKD:顶层缩放知识蒸馏

ArXiv ID: 2508.04539
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Qi Wang, Jinjia Zhou
📄 中文摘要:
近年来,知识蒸馏(KD)的研究主要集中在特征层面的知识迁移上,常常忽略了教师模型逻辑分布中蕴含的关键信息。本文重新审视了基于逻辑的知识蒸馏方法,并揭示了一个尚未充分探索但至关重要的元素:Top-K知识。基于这一洞察,本文提出了一种简单、高效且与架构无关的框架——顶层缩放知识蒸馏(TopKD),显著提升了基于逻辑的蒸馏效果。TopKD包含两个主要组成部分:(1)Top-K缩放模块(TSM),该模块自适应地放大最具信息量的逻辑值;(2)Top-K解耦损失(TDL),提供有针对性且有效的监督。值得注意的是,TopKD能够无缝集成到现有的知识蒸馏方法中,无需引入额外模块或进行架构调整。在CIFAR-100、ImageNet、STL-10和Tiny-ImageNet数据集上的广泛实验表明,TopKD始终优于当前最先进的蒸馏方法。此外,该方法在蒸馏视觉变换器(Vision Transformers)时也表现出显著的效果,凸显了其在不同网络架构中的通用性。这些发现强调了逻辑值在推动知识蒸馏发展中的重要潜力。通过TopKD,本文不仅揭示了逻辑分布中隐藏的关键信息,还为知识蒸馏领域提供了一种创新且实用的解决方案,为未来的研究奠定了基础。
知识蒸馏Top-K知识逻辑分布视觉变换器机器学习
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新的TopKD框架,对知识蒸馏领域有较大影响。

SID:通过苏格拉底式跨学科对话数据集评估STEM教育中的指导性教学能力基准

ArXiv ID: 2508.04563
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Mei Jiang, Houping Yue, Bingdong Li, Hao Hao, Ying Qian, Bo Jiang, Aimin Zhou
📄 中文摘要:
在现代教育中,培养学生在复杂问题解决场景中的知识整合与迁移能力是一个核心目标,而跨学科的STEM教育是实现这一目标的重要途径。然而,这种教育模式需要专家指导,而专家资源难以大规模扩展。尽管大型语言模型(LLMs)在这一领域显示出潜力,但其在指导性教学方面的真实能力尚不明确,主要是因为缺乏有效的评估基准。为解决这一问题,本研究引入了SID(Socratic Interdisciplinary Dialogues),这是首个专门设计用于系统评估LLMs在多轮、跨学科苏格拉底式对话中的高阶指导能力的基准数据集。本研究的贡献包括:构建了一个包含10,000个对话轮次、覆盖48个复杂STEM项目的大规模数据集;提出了一种新的标注框架,用于捕捉深层次的教学特征;以及开发了一套新的评估指标(如X-SRG)。基线实验表明,即便是最先进的LLMs,在执行有效的指导性对话以帮助学生实现知识整合与迁移方面仍面临挑战。这一结果凸显了SID基准在推动开发更具教学意识的LLMs方面的重要价值。本研究不仅揭示了当前LLMs在教育指导中的局限性,也为未来的技术改进提供了明确的方向,旨在通过人工智能技术支持STEM教育中的个性化指导和知识迁移能力的培养。
STEM教育指导性教学大型语言模型苏格拉底式对话知识整合
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在教育技术领域具有重要创新性,可能显著影响AI辅助教学的发展。

现状:当前人工智能会议模式不可持续!诊断集中式人工智能会议的危机

ArXiv ID: 2508.04586
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Nuo Chen, Moming Duan, Andre Huikai Lin, Qian Wang, Jiaying Wu, Bingsheng He
📄 中文摘要:
人工智能(AI)会议在推动研究进展、知识共享和学术社区建设方面至关重要。然而,会议规模的快速扩张使得集中式会议模式日益不可持续。本文通过数据驱动的方法,诊断了威胁科学传播、公平性和社区福祉基础目标的结构性危机。研究识别出四个关键压力领域:(1)科学层面,过去十年内每位作者的年均发表论文数量翻倍,超过4.5篇;(2)环境层面,单次会议的碳足迹超过其举办城市每日排放量;(3)心理层面,线上社区讨论中71%的内容反映负面情绪,35%的内容涉及心理健康问题;(4)后勤层面,顶级会议(如NeurIPS 2024)的参会人数开始超过场地容量。这些压力表明当前系统与其核心使命不符。为此,本文提出了社区联邦会议(CFC)模型,将同行评审、展示和社交活动分离为全球协调但本地组织的组成部分,为AI研究提供了更可持续、更具包容性和韧性的发展路径。通过这一模型,作者旨在解决集中式会议模式带来的多重挑战,促进学术交流的公平性和环境的可持续性,同时减轻研究人员的心理负担。研究强调,CFC模型不仅能够缓解现有问题,还能通过分布式组织方式增强社区的参与感和全球合作能力,为AI领域的未来发展提供了重要的参考方向。
人工智能会议集中式模式社区联邦会议可持续性学术社区
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文提出创新的CFC模型,对AI会议模式改革有重要影响。

大型语言模型如何代表跨文化价值观?基于霍夫斯泰德文化维度的LLM响应实证分析

ArXiv ID: 2406.14805
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Julia Kharchenko, Tanya Roosta, Aman Chadha, Chirag Shah
📄 中文摘要:
本研究探讨了大型语言模型(LLMs)在跨文化价值观表达中的表现,重点分析其是否能根据用户所在国家的刻板印象价值观调整响应。研究背景源于LLMs试图通过迎合人类价值观来模拟人类行为,但不同文化背景下的价值观差异使得这一任务充满挑战。研究采用霍夫斯泰德文化维度理论作为量化国家价值观的框架,通过设计一系列基于五个文化维度的建议请求,测试LLMs对36个不同国家的人格化角色以及与这些国家主要相关的语言的响应一致性。研究方法包括对LLMs的响应进行系统分析,评估其是否能区分价值观的不同方面,理解国家间的价值观差异,并在提供建议时是否遵循这些价值观。关键发现表明,LLMs能够识别价值观的不同侧面,并理解国家间的价值观差异,但在实际建议中并不总是坚持这些价值观,也未能根据不同文化价值观的需求调整回答。基于此,研究提出了训练价值观一致且文化敏感的LLMs的建议。此外,本研究开发的方法论和框架为进一步理解和缓解LLMs在文化和语言对齐问题上提供了重要工具。结论强调了文化敏感性在LLM开发中的重要性,并呼吁在模型训练中融入更多跨文化视角,以提升其在全球范围内的适用性和公平性。
大型语言模型跨文化价值观霍夫斯泰德文化维度文化敏感性人工智能对齐
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 研究创新性地探讨了LLMs的文化价值观适应性,具有较大潜在影响。

一个模型,任意合取查询:图神经网络在不完整知识图谱上的查询回答

ArXiv ID: 2409.13959
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Krzysztof Olejniczak, Xingyue Huang, Mikhail Galkin, \.Ismail \.Ilkan Ceylan
📄 中文摘要:
本文针对现代知识图谱的不完整性问题,提出了一种新的查询回答框架,旨在预测那些未在知识图谱中显式出现但在其完备形式中存在的答案。作者正式定义并研究了两个查询回答问题:查询答案分类和查询答案检索。为解决这些问题,作者提出了AnyCQ模型,该模型能够对任意知识图谱上的任意合取查询进行答案分类。AnyCQ的核心是一个基于强化学习目标训练的图神经网络,专门用于回答布尔查询。尽管该模型仅在简单的小规模实例上进行训练,但它能够泛化到具有任意结构的大型查询,成功分类和检索现有方法难以处理的查询答案。为了验证模型的有效性,作者设计了新的具有挑战性的基准测试,并通过实验证明了AnyCQ的优越性能。此外,作者还通过实验展示了AnyCQ在配备适当的链接预测模型时,能够有效迁移到全新的知识图谱上,突显了其在处理不完整数据查询方面的潜力。这一研究为知识图谱查询回答领域提供了新的视角和工具,尤其是在处理不完整数据时展现了显著的应用价值。研究结果表明,AnyCQ不仅在技术上具有创新性,而且在实际应用中具有广泛的适用性,为未来的知识图谱研究奠定了重要基础。
知识图谱图神经网络查询回答不完整数据强化学习
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在知识图谱查询领域具有重要创新,可能对不完整数据处理产生较大影响。

对话式搜索综述

ArXiv ID: 2410.15576
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Fengran Mo, Kelong Mao, Ziliang Zhao, Hongjin Qian, Haonan Chen, Yiruo Cheng, Xiaoxi Li, Yutao Zhu,
📄 中文摘要:
随着人工智能和自然语言处理(NLP)技术的快速发展,特别是大型语言模型(LLMs)的出现,搜索引擎已从传统的基于关键词的检索方式演变为支持更直观、智能的用户交互方式。对话式搜索作为下一代搜索引擎的新兴范式,通过自然语言对话实现复杂且精准的信息检索,显著提升了用户体验,近年来受到广泛关注。本文综述了对话式搜索领域的最新进展及未来发展方向,详细探讨了构成对话式搜索系统的关键模块,包括查询重构、搜索澄清、对话式检索和响应生成等。这些模块协同工作,支持多轮交互中的上下文保持和复杂查询处理能力。文章还强调了大型语言模型在增强对话式搜索系统中的重要作用,分析了当前面临的挑战与机遇。此外,本文提供了对话式搜索系统在现实世界中的应用案例和稳健的评估方法,旨在为该领域的未来研究与开发提供指导。通过对现有技术的全面回顾,本文指出对话式搜索在提升信息访问效率和用户满意度方面具有巨大潜力,同时也面临着技术复杂性和用户隐私等挑战。未来研究应聚焦于模型的可解释性、跨领域适应性以及与用户意图的更深度对齐,以推动对话式搜索技术的进一步突破。
对话式搜索自然语言处理大型语言模型信息检索用户体验
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该文对对话式搜索的系统性综述具有重要创新性,可能推动信息检索领域发展。

人工智能投资与企业生产率:高管人口统计特征如何驱动日本企业技术采用与绩效

ArXiv ID: 2508.03757
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Tatsuru Kikuchi
📄 中文摘要:
本文研究了高管人口统计特征,特别是年龄和性别,如何影响人工智能(AI)投资决策及其对企业生产率的影响,数据来源于2018年至2023年间超过500家日本企业的全面数据集。研究核心问题是高管特征在技术采用中的作用,结果发现CEO的年龄和技术背景显著预测AI投资倾向。通过将这些人口统计特征作为工具变量以解决内生性问题,研究识别出AI投资采用带来的全要素生产率显著提升2.4%。本文提出了一种新颖的机制分解框架,揭示生产率提升通过三个不同渠道实现:成本降低(占总效应的40%)、收入增加(35%)和创新加速(25%)。研究结果表明,年轻高管(50岁以下)采用AI技术的可能性高出23%,而企业规模显著调节了这一关系。总体预测显示,如果AI在日本经济中广泛采用,可能带来1.15万亿日元的GDP影响。这些发现为理解驱动数字化转型的人为因素提供了关键的实证指导,并为企业治理和公共政策关于AI投资激励提供了参考。本研究强调了高管特征在技术投资决策中的重要性,揭示了AI投资如何通过多重机制提升企业绩效,同时为日本经济数字化转型的宏观影响提供了量化依据。
人工智能投资企业生产率高管特征技术采用数字化转型
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 研究创新性强,揭示高管特征对AI投资的影响,具有较大政策和实践意义。

FactEHR:一个用于评估临床记录事实性的数据集,基于大型语言模型

ArXiv ID: 2412.12422
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Monica Munnangi, Akshay Swaminathan, Jason Alan Fries, Jenelle Jindal, Sanjana Narayanan, Ivan Lopez
📄 中文摘要:
在医疗领域中,验证和归因事实性声明对于安全有效地使用大型语言模型(LLMs)至关重要。事实性评估的核心组成部分是事实分解,即将复杂的临床陈述分解为细粒度的原子事实以进行验证。近期研究提出了事实分解方法,利用LLMs将源文本重写为传达单一信息的简洁句子,从而便于细粒度的事实验证。然而,由于临床文档中存在密集的专业术语和多样的记录类型,事实分解面临独特挑战,且相关研究尚不充分。为解决这一差距并探索相关挑战,本文提出了FactEHR数据集,该数据集包含来自三个医院系统的四种类型临床记录的文档事实分解,共计2,168份临床记录,形成了987,266个蕴含对。研究对生成的原子事实进行了多维度评估,包括LLMs的蕴含评估和定性分析。通过包括临床医生评审在内的评估结果显示,LLMs在事实分解方面的表现存在显著差异。例如,Gemini-1.5-Flash能够持续生成相关且准确的事实,而Llama-3 8B生成的输出较少且一致性较差。研究结果强调了提升LLMs能力以支持临床文本事实验证的迫切需求。FactEHR数据集为后续研究提供了宝贵的资源,有助于推动医疗领域中事实性评估技术的发展,同时揭示了当前LLMs在处理复杂临床文本时的局限性,为模型改进提供了方向。
事实分解临床记录大型语言模型事实性评估自然语言处理
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在医疗NLP领域具有重要创新,可能显著提升事实验证技术。

工具增强型大语言模型的工具遗忘方法

ArXiv ID: 2502.01083
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Jiali Cheng, Hadi Amiri
📄 中文摘要:
本文提出了一种针对工具增强型大语言模型(LLMs)的工具遗忘(Tool Unlearning)的新任务。工具增强型LLMs通常通过查询-响应对数据集进行训练,将使用工具或API的能力直接嵌入到模型的参数知识中。然而,由于安全漏洞、隐私法规或工具弃用等原因,这些模型需要具备遗忘已学习工具的能力。尽管如此,工具遗忘在现有的遗忘研究文献中尚未被探讨。本文指出了工具遗忘相较于传统遗忘任务的独特挑战,包括知识移除而非单个样本遗忘、优化LLMs的高成本以及需要合理的评估指标。为解决这些问题,作者提出了ToolDelete,这是首个针对工具增强型LLMs的工具遗忘方法。ToolDelete实现了三个关键特性以应对上述挑战,确保有效的工具遗忘,同时引入了一种新的成员推理攻击(MIA)模型用于评估。大量实验基于多个工具学习数据集和工具增强型LLMs进行,结果表明ToolDelete能够有效遗忘随机选择的工具,同时保留模型对未删除工具的知识,并在一般任务上维持性能表现。本研究为工具增强型LLMs的安全性和隐私保护提供了重要思路,对未来相关研究具有指导意义。
工具遗忘大语言模型工具增强知识移除隐私保护
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出工具遗忘新任务,具有重要创新性,可能对LLM安全领域产生较大影响。

改进的大型语言模型无偏水印技术

ArXiv ID: 2502.11268
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Ruibo Chen, Yihan Wu, Junfeng Guo, Heng Huang
📄 中文摘要:
随着人工智能在文本生成方面的能力超越人类,验证AI生成内容的来源变得至关重要。无偏水印技术通过在语言模型生成的文本中嵌入统计信号,提供了一种有效的解决方案,且不会影响文本质量。本文提出了一种基于多通道的无偏水印技术家族——MCmark。MCmark通过将模型的词汇表划分为多个段,并根据水印密钥提升选定段内词汇的概率来实现水印嵌入。研究表明,MCmark不仅保留了语言模型的原始分布,还在可检测性和鲁棒性方面显著优于现有的无偏水印技术。通过对广泛使用的语言模型进行实验,MCmark在可检测性上比当前最先进的无偏水印技术提高了超过10%。这一进步凸显了MCmark在AI生成文本水印实际应用中的潜力。MCmark的创新设计使其能够在不影响文本自然性的前提下,有效标识AI生成内容,为解决AI内容溯源问题提供了重要工具。此外,本文还探讨了MCmark在不同场景下的适用性及其对未来水印技术发展的启示,强调了其在保障内容真实性和防止滥用AI技术方面的重要作用。总之,MCmark为大型语言模型的内容认证提供了一种高效且实用的解决方案,有望在AI治理和内容安全领域产生深远影响。
无偏水印大型语言模型文本生成内容认证AI治理
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: MCmark在无偏水印领域有重要创新,可能显著提升AI内容溯源能力。

人类管理者性别偏见延伸至AI管理者的感知研究

ArXiv ID: 2502.17730
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Hao Cui, Taha Yasseri
📄 中文摘要:
随着人工智能(AI)在工作场所的日益普及,其角色已从提高效率的工具转变为组织决策中的主动力量。由于拟人化或有意设计,人们常常赋予AI系统类人特质,包括性别。然而,AI管理者与人类管理者在感知上的差异,以及性别如何影响这些感知,仍未明朗。为探究这一问题,本研究通过随机对照试验(RCT)进行调查,试验中三名参与者组成团队,在随机分配的管理者领导下合作。管理者可能是人类或AI,并被呈现为男性、女性或性别未指定。管理者的任务是选择表现最佳的团队成员给予额外奖励。研究发现,参与者最初对管理者类型或性别没有明显偏好,但在经历奖励分配过程后,他们的感知发生了显著变化。获得奖励的参与者普遍认为管理者更值得信赖、更有能力、更公平,并更愿意未来与类似管理者合作;而未获奖励的参与者则对管理者的评价较低。然而,男性管理者(无论是人类还是AI)在获奖参与者中获得的正面评价更高,而女性管理者,尤其是女性AI管理者,在未给予奖励时面临更大的怀疑和负面评价。这些结果表明,领导力中的性别偏见不仅存在于人类管理者中,也延伸到了AI驱动的决策者。随着AI承担更多管理职责,理解并解决这些偏见对于设计公平有效的AI管理系统至关重要。本研究为AI在组织管理中的应用提供了重要启示,同时也强调了在技术设计中考虑社会偏见的必要性。
性别偏见AI管理者组织决策领导力感知公平性
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 研究揭示了AI管理中的性别偏见问题,具有重要创新性和潜在影响力。

内外有别:大型语言模型中的隐藏事实知识

ArXiv ID: 2503.15299
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Zorik Gekhman, Eyal Ben David, Hadas Orgad, Eran Ofek, Yonatan Belinkov, Idan Szpektor, Jonathan Her
📄 中文摘要:
本文提出了一种评估框架,用于探究大型语言模型(LLMs)在其参数中编码的事实知识是否超过其输出中表达的知识。尽管已有少量研究暗示了这种可能性,但尚未有研究明确定义或证实这一现象。作者首先提出了知识的正式定义,通过将正确答案在正确-错误答案对中的排名高于错误答案的比例来量化知识。这一定义衍生出外部知识和内部知识,分别基于模型可观察的词级概率或中间计算信息来评分单个答案候选。隐藏知识是指内部知识超过外部知识的情况。随后,作者通过一个案例研究,将该框架应用于三种流行的开源权重LLMs,在闭卷问答(closed-book QA)设置下进行测试。研究结果表明:(1)LLMs内部编码的事实知识始终多于外部表达的知识,平均相对差距达40%。(2)令人惊讶的是,某些知识被深深隐藏,以至于模型内部可能完全知道正确答案,但在即使进行1000次大规模重复采样的情况下也无法生成该答案。这揭示了LLMs生成能力的根本局限性。(3)这种局限性对闭卷问答中通过重复答案采样扩展测试时计算能力构成了实际约束:由于某些答案几乎从未被采样,显著的性能提升无法实现,尽管如果这些答案被采样,我们可以保证它们排名第一。本研究为理解LLMs的知识编码与表达之间的差距提供了重要见解,并指出了当前模型生成能力的局限性及其对实际应用的潜在影响。
大型语言模型隐藏知识事实知识闭卷问答生成能力
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新框架,揭示LLMs隐藏知识现象,对NLP领域有重要影响。

评分标准即所需:使用特定问题评分标准增强基于大语言模型的代码评估

ArXiv ID: 2503.23989
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Aditya Pathak, Rachit Gandhi, Vaibhav Uttam, Arnav Ramamoorthy, Pratyush Ghosh, Aaryan Raj Jindal, S
📄 中文摘要:
随着GPT-3和ChatGPT等大型语言模型(LLMs)的普及,LLMs在编程相关任务中展现出了显著的潜力。尽管代码生成已成为热门研究领域,但基于LLMs的代码评估研究仍相对较少。本文聚焦于基于LLMs的代码评估,试图填补现有研究空白。作者提出了一种多智能体的新方法,使用针对问题陈述定制的‘特定问题评分标准’,并论证这种方法在逻辑评估方面优于使用‘问题无关评分标准’的现有方法。为解决合适评估数据集不足的问题,作者引入了两个数据集:一个包含150个学生提交的数据结构与算法数据集,来源于一个流行的数据结构与算法练习网站;另一个是包含80个本科计算机科学课程学生提交的面向对象编程数据集。除了使用标准评估指标(如斯皮尔曼相关系数、科恩卡帕系数)外,作者还提出了一种新指标‘宽松度(Leniency)’,用于量化相对于专家评估的评估严格程度。全面分析表明,‘特定问题评分标准’在教育场景中显著提升了代码的逻辑评估能力,提供了更符合教学目标的反馈,而不仅仅局限于语法正确性。这种方法能够更好地支持教育过程中的代码评估,为学生提供更有针对性的指导,并可能对编程教育产生积极影响。
大语言模型代码评估特定问题评分标准编程教育评估指标
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新方法,对编程教育评估有重要影响,可能推动领域发展。

威权递归:小说、历史与人工智能如何在教育、战争和话语中强化控制

ArXiv ID: 2504.09030
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Hasan Oguz
📄 中文摘要:
本文提出了一种名为‘威权递归’的概念,用以理论化人工智能系统如何在教育、战争和数字话语等领域中巩固制度控制。作者识别出一种共享的递归架构,在这种架构中,算法介入了判断过程,模糊了责任归属,并限制了道德和认知主体性。研究背景聚焦于人工智能技术在现代社会中的广泛应用及其对权力结构的深远影响,尤其是在教育领域中算法如何塑造学习内容和评估标准,在战争中如何影响决策和无人化作战,以及在数字话语中如何通过信息过滤和推荐系统操控公众舆论。主要方法包括跨学科分析,结合历史案例、小说叙事和当代AI技术部署的实例,探讨这些递归机制如何在不同情境下运作。关键发现表明,AI系统的递归性质不仅强化了现有权力结构,还通过技术中介削弱了个体的自主性和批判性思维能力,形成了对控制的隐性依赖。此外,研究指出,这种递归架构在缺乏透明度和问责机制的情况下,可能导致道德和伦理困境的加剧。结论强调,需要重新审视AI系统的设计与应用,确保其不会成为威权控制的工具,而应促进更具包容性和民主性的社会实践。本文呼吁对算法透明度和伦理规范进行更严格的监管,以减轻威权递归对社会的影响。
威权递归人工智能制度控制数字话语伦理困境
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新概念,探讨AI对社会控制的影响,具有重要理论和实践意义。

医学影像AI中的虚假承诺?评估性能优越性声明的有效性

ArXiv ID: 2505.04720
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Evangelia Christodoulou, Annika Reinke, Pascaline Andr\`e, Patrick Godau, Piotr Kalinowski, Rola Hou
📄 中文摘要:
在医学影像人工智能(AI)研究中,性能比较是评估新方法是否优于现有技术的基础,通常通过常见性能指标的相对改进来声称优越性。然而,此类声明往往仅依赖于经验平均性能数据。本研究通过分析一组具有代表性的医学影像论文,探讨新提出的方法是否真正优于现有技术水平。我们采用贝叶斯方法,结合报告结果和经验估计的模型一致性,量化虚假声明的概率,以评估方法相对排名的结果是否可能由偶然因素导致。研究结果显示,超过80%的论文在提出新方法时声称其性能优于现有方法。进一步分析表明,86%的分类任务论文和53%的分割任务论文存在较高的虚假优越性声明概率(>5%)。这些发现揭示了当前基准测试实践中的一个关键缺陷:医学影像AI中的性能优越性声明常常缺乏充分依据,这可能误导未来的研究方向,影响领域的发展。本文强调了改进评估方法和报告标准的必要性,以确保性能声明的可靠性和科学性,减少资源浪费和研究偏差。
医学影像AI性能比较虚假声明贝叶斯方法基准测试
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文揭示了医学影像AI领域性能声明的普遍问题,具有重要影响力。

SWE-Bench 幻象:当最先进的语言模型记住而非推理时

ArXiv ID: 2506.12286
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Shanchao Liang, Spandan Garg, Roshanak Zilouchian Moghaddam
📄 中文摘要:
随着大型语言模型(LLMs)的能力不断提升和广泛应用,基准测试在评估其实用性方面扮演着核心角色。SWE-Bench Verified 已成为评估 LLMs 软件工程能力的重要基准,特别是在解决真实 GitHub 问题方面的能力。近期 LLMs 在 SWE-Bench 上的表现令人印象深刻,引发了对其处理复杂编码任务能力的乐观情绪。然而,当前的评估协议可能高估了这些模型的真实能力。区分 LLMs 的通用问题解决能力与其他学习到的非本质性特征显得尤为重要。本研究引入了两个诊断任务:仅根据问题描述识别文件路径,以及仅基于当前文件上下文和问题描述重现 ground truth 函数,以探究模型的底层知识。研究提供了实证证据,表明 SWE-Bench-Verified 上的性能提升可能部分由记忆而非真正的问题解决驱动。研究发现,最先进的模型在仅使用问题描述而无存储库结构的情况下,识别错误文件路径的准确率高达 76%。然而,在未包含于 SWE-Bench 的存储库任务中,准确率仅为 53%,这指向可能的数据污染或记忆现象。类似模式也在函数重现任务中观察到,SWE-Bench Verified 上的逐字相似度远高于其他类似编码基准(在 SWE-Bench Verified 和 Full 上,连续 5-gram 准确率高达 35%,而在其他基准任务中仅为 18%)。这些发现引发了对现有结果有效性的担忧,并强调了需要更稳健、抗污染的基准来可靠地评估 LLMs 的编码能力。研究呼吁开发新的评估方法,以确保对模型能力的准确测量,并避免因数据记忆而导致的虚假性能提升。
大型语言模型SWE-Bench软件工程数据污染编码能力
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文揭示了 LLMs 评估中的记忆问题,具有重要创新性和潜在影响力。

论大型语言模型中幻觉控制的根本不可能性

ArXiv ID: 2506.06382
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Micha{\l} P. Karpowicz
📄 中文摘要:
本文提出了一项关于大型语言模型(LLM)的根本不可能性定理:任何能够执行非平凡知识聚合的LLM都无法同时实现真实的(内部一致的)知识表示、语义信息保持、相关知识的完全揭示以及知识约束的最优性。这一不可能性并非工程限制,而是源于信息聚合本身的数学结构。作者通过将推理过程描述为一种‘思想拍卖’机制,展示了分布式组件如何利用其部分知识竞争性地塑造响应。证明过程涵盖了三个独立的数学领域:机制设计理论(Green-Laffont)、适当评分规则理论(Savage)以及Transformer架构的直接分析(Log-Sum-Exp凸性)。特别地,研究表明,在严格凹性环境中,多元化信念聚合的得分严格超过个体得分的总和。这一差距可能量化了不可归因的确定性或过度自信的产生,即幻觉和创造力(或想象力)的数学起源。研究揭示了幻觉现象不仅是技术缺陷,更是语言模型在处理复杂信息聚合时不可避免的结构性问题。这一发现对理解大型语言模型的局限性具有重要意义,同时也为未来在模型设计中平衡准确性与创造性提供了理论基础。作者进一步讨论了这一不可能性定理对模型开发和应用的影响,指出在追求知识准确性和响应创造性之间存在不可调和的矛盾,可能需要重新思考模型的目标和评估标准。
大型语言模型幻觉控制知识聚合信息理论机制设计
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出重要理论,揭示LLM局限性,对未来研究有深远影响。

通过视觉过程表示捕获和共享专业知识:以人为中心的教师工作流程方法

ArXiv ID: 2508.04357
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Gloria Fern\&#x27;andez-Nieto, Vanessa Echeverria, Yuheng Li, Yi-Shan Tsai, Lele Sha, Guanliang Chen
📄 中文摘要:
在大学环境中,知识管理对于捕获和传递专业知识至关重要,特别是在教职员工流动率高的情况下,专业知识的流失会对教学造成干扰。传统上,记录教师的工作流程耗时较长,且会分散专家的核心职责。本研究提出了一种名为视觉过程表示(Visual Process Representations, VPR)的设计方法,结合序列模式挖掘(Sequential Pattern Mining, SPM)、知识管理流程和叙事技巧,将专家日志数据转化为直观的视觉表示形式,以支持新手教育工作者。本文详细描述了VPR的设计阶段,并通过一项涉及160名高等教育教师的在线研究(通过Prolific平台进行),评估了不同视觉呈现方式(文本列表与图画风格)对教师的感知影响以及四种VPR版本的效果。研究结果表明,特别是在视觉内容丰富的版本中,任务表现、可用性和参与度均有所提升;然而,在流程记忆力和任务完成时间的改进方面效果有限。研究发现强调了VPR在可视化工作流程和支持新手教育工作者方面的潜力,为教育领域的知识管理和工作流程优化提供了新的视角和工具。尽管如此,未来的研究仍需进一步探索如何提升流程记忆效果和任务效率,以更全面地满足教育实践的需求。
知识管理视觉过程表示教师工作流程序列模式挖掘教育技术
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 该研究在教育技术领域具有重要创新性,可能对教师培训产生较大影响。

人类在交互时听到什么?评估口语对话系统ASR的选择性听力实验

ArXiv ID: 2508.04402
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Kiyotada Mori, Seiya Kawano, Chaoran Liu, Carlos Toshinori Ishi, Angel Fernando Garcia Contreras, Ko
📄 中文摘要:
本文研究了口语对话系统(Spoken Dialogue Systems, SDSs)中自动语音识别(ASR)的前端作用,重点探讨了人类选择性听力的特性及其对ASR能力评估的启示。选择性听力指的是人类在对话中能够专注于并聆听重要部分的能力,这对于识别SDSs所需的ASR能力并进行评估具有重要意义。研究通过实验对比了人类在生成对话响应时的转录内容与参考转录内容,验证了人类在生成对话响应时确实存在选择性听力现象。实验结果显示,人类倾向于关注与响应生成直接相关的信息,而忽略次要或无关的内容。基于此,作者提出了一种新的ASR评估方法,即利用人类选择性听力的特点来识别ASR系统与人类转录能力之间的差距。这种方法旨在更贴近实际对话场景中人类对语音信息的处理方式,从而更准确地评估ASR系统在SDSs中的表现。研究还讨论了选择性听力对ASR系统设计的潜在影响,指出未来的ASR系统可能需要模拟人类的选择性听力机制,以提高对话系统的自然性和有效性。总之,本文通过实验揭示了人类选择性听力的重要性,并为ASR评估提供了新的视角和方法论,对提升口语对话系统的性能具有指导意义。
口语对话系统自动语音识别选择性听力评估方法人机交互
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 本文提出基于人类选择性听力的ASR评估方法,具有创新性,可能对对话系统领域产生较大影响。

计算机科学学生如何使用资源和AI工具进行编码任务?

ArXiv ID: 2508.04667
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Natalia Echeverry, Arun Lekshmi Narayanan
📄 中文摘要:
本研究通过对26名计算机科学(CS)学生的调查,探讨了他们在编码任务中使用资源和人工智能(AI)工具的情况。研究背景在于,随着AI技术的快速发展,AI编码助手和聊天机器人等工具在编程教育和实践中扮演着越来越重要的角色。研究的主要方法是通过问卷调查收集数据,分析学生在编写代码和调试过程中对不同资源的使用偏好。关键发现包括:AI编码助手是学生编写代码的第二大常用资源,仅次于在线搜索;而AI聊天机器人则是调试时的首选资源。此外,研究还发现,不同编码经验的学生普遍更倾向于使用在线帮助资源,而非直接向同伴或导师寻求面对面的帮助。这一现象可能反映了学生对独立解决问题能力的重视,或是对在线资源和AI工具便捷性和效率的依赖。研究结论指出,AI工具在编程学习中的广泛应用为教育者提供了新的机遇,同时也提出了挑战,例如如何平衡技术依赖与自主学习能力的发展,以及如何确保学生在使用AI工具时仍能培养批判性思维和问题解决能力。未来的研究可以进一步探讨AI工具对学生学习成果的具体影响,以及如何优化这些工具以更好地支持编程教育。
AI编码助手编程教育在线资源调试工具计算机科学
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 研究揭示了AI工具在编程教育中的重要作用,具有一定创新性和影响力。

临床图像和数据收集框架的技术规范

ArXiv ID: 2508.03723
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Alistair Mackenzie (Royal Surrey NHS Foundation Trust, Guildford, UK), Mark Halling-Brown (Royal Sur
📄 中文摘要:
本论文详细描述了一个用于收集临床图像和数据的框架,旨在支持人工智能(AI)工具的训练和验证。研究背景聚焦于AI在医疗领域的应用日益增加,而高质量的临床数据是开发和验证AI模型的关键。然而,数据的收集涉及复杂的伦理和信息治理问题,必须确保数据的安全性和合规性。论文主要方法包括:首先,阐述了临床图像和相关数据的收集流程,涵盖数据来源、采集标准和技术实现;其次,详细讨论了伦理和信息治理流程,包括患者隐私保护、数据匿名化以及获取知情同意的必要性;最后,提出了数据共享的基础设施和协议设计,确保数据能够在不同研究团队或机构之间安全共享,同时遵守相关法规。关键发现表明,构建一个标准化的数据收集框架不仅能够提升AI工具的开发效率,还能通过严格的伦理和治理机制增强数据的可信度和安全性。此外,论文强调了跨机构合作的重要性,指出数据共享协议的制定是实现资源整合和研究进步的关键。结论指出,该框架为AI在医疗领域的应用提供了重要的技术支持和伦理保障,未来可进一步扩展到其他医疗数据类型和应用场景,为推动精准医疗和智能化诊断奠定基础。
临床图像数据收集人工智能伦理治理数据共享
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 该研究在AI医疗应用领域具有重要创新性,可能对数据标准化产生较大影响。

人工智能面前的人类偏见:研究人类对标注为AI生成文本的判断

ArXiv ID: 2410.03723
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Tiffany Zhu, Iain Weissburg, Kexun Zhang, William Yang Wang
📄 中文摘要:
随着人工智能在文本生成领域的快速发展,人类对AI生成内容的信任仍然受到偏见的限制,这种偏见不仅仅局限于对准确性的担忧。本研究探讨了偏见如何塑造人类对AI生成内容与人类生成内容的感知。通过三项实验,分别涉及文本改写、新闻文章摘要和说服性写作,我们调查了人类评分者对标注和未标注内容的反应。在盲测中,评分者无法区分两种类型的文本;然而,当文本被标注为“人类生成”时,评分者对其的偏好得分比标注为“AI生成”的文本高出30%以上。即使故意交换标注,这种偏见模式依然存在。研究发现,人类对AI的偏见具有广泛的社会和认知影响,表现为对AI性能的低估。这不仅揭示了人类判断在与AI交互中的局限性,也为改善人机协作提供了基础,尤其是在创意领域。本研究强调了人类偏见对AI技术接受度的潜在阻碍,并提出未来需要进一步探索如何通过教育和设计减少这种偏见,以促进更有效的AI应用和信任建立。研究结果对AI技术在社会中的整合具有重要意义,特别是在需要高度主观判断的领域,如内容创作和信息传播。
人工智能人类偏见文本生成人机交互信任
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 研究揭示了人类对AI的偏见问题,具有重要的社会影响和应用价值。

项目编写缺陷对项目反应理论中难度和区分度的影响

ArXiv ID: 2503.10533
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: Robin Schmucker, Steven Moore
📄 中文摘要:
高质量的测试项目对于教育评估至关重要,特别是在项目反应理论(IRT)框架下。传统的验证方法依赖于资源密集型的试点测试来估计项目的难度和区分度。近年来,项目编写缺陷(IWF)评分标准作为一种领域通用的方法出现,通过文本特征评估测试项目。这种方法提供了一种可扩展的、部署前的评估方式,无需学生数据,但其对经验性IRT参数的预测效度尚未充分探索。为解决这一问题,本研究对涵盖多个STEM学科(物理科学、数学和生命/地球科学)的7,126道多项选择题进行了分析。研究采用自动化方法,根据19项IWF标准对每道题目进行标注,并研究其与数据驱动的IRT参数之间的关系。分析结果显示,IWF数量与IRT难度和区分度参数之间存在统计学上的显著关联,特别是在生命/地球科学和物理科学领域。此外,研究还观察到特定IWF标准(如负面措辞与不合理干扰项)对项目质量的影响程度不同,可能使题目变得更具挑战性或更简单。总体而言,研究结果表明,自动化IWF分析是传统验证方法的有益补充,为初步项目筛选提供了一种高效方法,尤其是在标记低难度多项选择题方面。本研究还指出,需要进一步研究领域通用的评估标准和能够理解领域特定内容的算法,以实现更稳健的项目验证。
项目反应理论项目编写缺陷教育评估难度参数区分度参数
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 研究具有重要创新性,为教育评估提供新工具,可能影响项目设计领域。

机器人大脑2.0技术报告

ArXiv ID: 2507.02029
发布日期: 2025-08-07
聚类ID: 聚类 0
📝 作者: BAAI RoboBrain Team, Mingyu Cao, Huajie Tan, Yuheng Ji, Minglan Lin, Zhiyu Li, Zhou Cao, Pengwei Wan
📄 中文摘要:
[基于标题推测] 本论文可能详细介绍了RoboBrain 2.0的最新技术进展,这是一个旨在为机器人提供知识共享和学习能力的大型知识库系统。研究背景可能聚焦于如何通过云计算和大数据技术整合多源知识,以提升机器人在复杂环境中的决策能力和适应性。主要方法可能包括知识图谱构建、机器学习算法优化以及跨领域知识迁移技术的应用。论文可能探讨了RoboBrain 2.0在实际机器人任务中的表现,例如物体识别、路径规划或人机交互等场景。关键发现可能包括系统在知识整合和实时推理方面的改进,以及与前一代系统相比的性能提升。结论可能强调该技术对未来智能机器人发展的潜力,并提出进一步优化的方向,如解决知识冲突或提升系统可扩展性等问题。
机器人大脑知识共享人工智能机器人学
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 标题显示出技术创新性,可能对机器人领域有重要影响