AI教程

Muse – 微软研究院推出的生成式AI模型

Muse是微软推出的首个用在游戏创意生成的生成式AI模型,基于“World and Human Action Model”(WHAM)。Muse能生成游戏视觉效果和控制器操作,基于学习人类玩家的游戏数据(如图像和操作指令)模拟真实的游戏玩法序列。

HealthGPT – 浙大联合阿里等机构推出的医学视觉语言模型

HealthGPT 是浙江大学、电子科技大学、阿里巴巴等多家机构联合开发的先进的医学视觉语言模型(Med-LVLM),通过异构知识适应技术实现医学视觉理解和生成任务的统一框架。采用创新的异构低秩适应(H-LoRA)技术,将视觉理解与生成任务的知识存储在独立的“插件”中,避免任务间的冲突。

PaliGemma 2 mix – 谷歌DeepMind推出的升级版视觉语言模型

PaliGemma 2 Mix是谷歌DeepMind发布的最新多任务视觉语言模型(VLM)。集成了多种视觉和语言处理能力,支持图像描述、目标检测、图像分割、OCR以及文档理解等任务,能在单一模型中灵活切换不同功能。

FlexTok – Apple 联合 EPFL 推出的图像处理技术

FlexTok 是瑞士洛桑联邦理工学院(EPFL)和苹果公司联合开发的图像处理技术。通过将二维图像重新采样为一维离散标记序列(token sequences),以灵活的长度描述图像,实现高效的图像压缩和生成。

Helix – Figure 推出的端到端通用控制模型

Helix 是 Figure 推出的通用视觉-语言-动作(VLA)模型,用于人形机器人的控制。Helix首创性地实现对机器人整个上身(包括手腕、躯干、头部和手指)的高速率(200Hz)连续控制,支持多机器人协作,多个机器人共用同一组神经网络权重完成任务。

BioEmu – 微软推出的生成式深度学习系统

BioEmu是微软研究院推出的生成式深度学习系统,高效模拟蛋白质的动态结构和平衡态构象。能在单个GPU上每小时生成数千种蛋白质结构样本,效率远超传统的分子动力学(MD)模拟。

什么是自监督学习(Self-Supervised Learning)

自监督学习(Self-Supervised Learning)是一种机器学习技术,它使模型能从未标记的数据中学习,通过构建辅助任务生成标签来训练模型。自监督学习在自然语言处理和计算机视觉等领域尤其有用,减少了对大量标记数据集的依赖,降低了数据标注的成本和时间。自监督学习通过从数据本身提取模式和结构,学习有效的数据表示,数据表示可以迁移到各种下游任务中。

OSUM – 西北工业大学开源的语音理解模型

OSUM(Open Speech Understanding Model)是西北工业大学计算机学院音频、语音与语言处理研究组推出的开源语音理解模型。OSUM结合Whisper编码器和Qwen2 LLM,支持语音识别(ASR)、语音情感识别(SER)、说话者性别分类(SGC)等多种语音任务。

什么是命名实体识别(Named Entity Recognition, NER)

自然语言处理中的命名实体识别(Named Entity Recognition, NER)是一项关键技术,在从文本中识别并分类具有特定意义的实体,如人名、地点、组织、时间表达式等。NER使机器能理解文本中的实体信息,对信息提取、问答系统、机器翻译等应用至关重要。通过机器学习和深度学习方法,NER模型学习从大量标注数据中识别实体,广泛应用于提升智能系统对自然语言的理解和处理能力。

Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统

Crawl4LLM 是清华大学和卡内基梅隆大学联合开源的智能爬虫系统,提升大语言模型(LLM)预训练效率。Crawl4LLM基于智能评估网页对 LLM 预训练的价值,优先抓取高价值网页,相比传统爬虫效率提升近 5 倍。