关闭

AI文章

Chat2SVG – 文本描述实现高质量矢量图形的生成框架

Chat2SVG 是创新的文本到矢量图形(SVG)生成框架,通过结合大型语言模型(LLMs)和图像扩散模型,实现高质量 SVG 图形的自动化创作。通过多阶段流程,首先基于 LLMs 从文本描述生成语义上有意义的 SVG 模板,然后通过图像扩散模型增强细节,在最后阶段优化路径和点坐标,提升图形的规整性和复杂性。

QwQ-32B – 阿里通义千问开源的最新推理模型

QwQ-32B 是阿里巴巴开源的新型推理模型,参数量为 320 亿。基于大规模强化学习(RL)训练,在数学推理、编程等任务上表现出色,性能比肩 6710 亿参数的 DeepSeek-R1 满血版。模型集成智能体能力,根据环境反馈调整推理过程,展现出强大的适应性和推理能力。

什么是决策树(Decision Tree)

决策树通过递归选择最能区分数据的属性来构建树状模型,每个节点代表一个属性测试,每个分支代表测试结果,叶节点代表决策输出。它利用信息增益、增益率或基尼指数等标准进行最优属性选择,并通过剪枝处理避免过拟合,最终形成可解释的分类或回归规则。

Light-R1 – 360智脑开源的长思维链推理模型

Light-R1是360智脑开源的AI模型,专注于数学领域的长思维链推理,具体为 Light-R1-32B。模型基于Qwen2.5-32B-Instruct,用7万条数学数据和两阶段课程学习(SFT+DPO)训练,实现从零超越DeepSeek-R1-Distill-Qwen-32B的性能。

什么是半监督学习(Semi-Supervised Learning)

半监督学习(Semi-Supervised Learning)是一种机器学习范式,它结合了少量标记数据和大量未标记数据来训练模型。这种方法特别适用于标记数据获取成本高昂或困难的场景,通过利用未标记数据来提升模型的泛化能力和预测准确性,减少对大量标记数据的依赖。半监督学习通常基于几个关键假设,如数据的平滑性、聚类性和流形结构,从而实现有效的学习。

SpatialVLA – 上海 AI Lab 联合上科大等推出的空间具身通用操作模型

SpatialVLA 是上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,为机器人赋予通用的3D空间理解能力。SpatialVLA基于Ego3D位置编码将3D空间信息与语义特征融合,用自适应动作网格将连续动作离散化,实现跨机器人平台的泛化控制。

什么是计算机视觉(Computer Vision)

计算机视觉(Computer Vision)是人工智能的一个关键分支,专注于使机器能够像人类一样解释和理解视觉信息。它涉及图像和视频的获取、处理、分析以及从这些数据中提取有用信息的技术。通过使用先进的算法,包括深度学习和神经网络,计算机视觉使机器能够执行面部识别、物体检测、图像分类和场景理解等任务。

TheoremExplainAgent – AI教学双智能体,数理化定理自动转动画

TheoremExplainAgent(TEA)是滑铁卢大学、Votee AI等机构开源的多模态代理系统,基于生成长篇动画视频帮助人们更好地理解数学和科学定理。TheoremExplainAgent支持生成超过5分钟的教育视频,覆盖多个STEM领域(如数学、物理、化学和计算机科学)。

什么是随机森林(Random Forest)

随机森林(Random Forest)是一种集成学习算法,由多个决策树构成,通过投票机制或平均预测结果来提高模型的准确性和鲁棒性。它采用随机抽样的方式选择数据和特征,降低模型的方差,有效防止过拟合。随机森林适用于分类、回归和异常检测等多种机器学习任务。

Aya Vision – Cohere 推出多模态、多语言的视觉模型

Aya Vision 是 Cohere 推出的多模态、多语言的视觉模型,提升全球范围内的多语言和多模态通信能力。支持 23 种语言,能执行图像描述生成、视觉问答、文本翻译和多语言摘要生成等任务。