
AI文章
NotaGen – 中央音乐学院联合北航、清华等推出的音乐生成模型
NotaGen 是中央音乐学院、北京航空航天大学、清华大学等机构推出的音乐生成模型,基于模仿大型语言模型(LLM)的训练范式生成高质量的古典乐谱。NotaGen 基于预训练、微调和强化学习相结合的方法,预训练阶段用超过160万首乐曲,微调阶段基于约9000首高质量古典作品,基于“时期-作曲家-乐器”提示进行条件生成。
什么是智能体(Agents)
智能体是人工智能中的一个核心概念,英文名Agents或AI Agents,它不仅仅是一个被动的观察者,而是一个能够主动与环境交互并产生影响的实体。智能体可以被定义为一个能够感知环境、做出决策并采取行动以实现特定目标的自主实体。
谛韵DiffRhythm – 西北工业联合港中文推出的端到端音乐生成工具
DiffRhythm(中文名称:谛韵) 是西北工业大学与香港中文大学(深圳)联合开发的端到端音乐生成工具,基于潜扩散模型(Latent Diffusion)技术,能快速生成包含人声和伴奏的完整歌曲。用户只需提供歌词和风格提示,DiffRhythm 能在10秒内生成长达4分45秒的高质量音乐作品。
什么是嵌入表示(Embedding Representations)
嵌入表示(Embedding Representations)是将实体(如单词、图像或用户)映射到连续的向量空间的过程,这些向量捕捉实体的内在属性和相互关系。在自然语言处理中,词嵌入通过将单词转换为向量来表达其语义信息,使语义相近的词在向量空间中距离较近。嵌入向量通常通过机器学习模型学习得到,能用于各种下游任务,如文本分类、情感分析等。
OmniAlign-V – 上海交大联合上海 AI Lab 等推出的高质量数据集
OmniAlign-V 是上海交通大学、上海AI Lab、南京大学、复旦大学和浙江大学联合推出的专为提升多模态大语言模型(MLLMs)与人类偏好的对齐能力设计的高质量数据集。OmniAlign-V包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式、知识丰富的问答对。
什么是长短期记忆网络(LSTM)
LSTM,全称为Long Short-Term Memory,中文为“长短期记忆网络”,由Sepp Hochreiter和Jürgen Schmidhuber在1997年提出,是一种能够记住长期信息并用于未来计算的深度学习算法。
TrendPublish – AI内容发布工具,支持智能总结和自动发布
TrendPublish 是基于 AI 的趋势发现和内容发布系统。基于多源数据采集,从 Twitter X、网站等渠道获取信息,用 DeepseekAI、千问等 AI 服务进行智能总结、关键信息提取和标题生成。系统支持自动发布内容到微信公众号,具备自定义模板和定时发布功能。
什么是聊天机器人(Chatbot)
聊天机器人(Chatbot)是模拟人类对话的计算机程序,通过自然语言处理(NLP)技术理解用户输入并提供自动回复。广泛应用于客户服务、在线互动和信息服务,能24小时提供快速响应,降低企业成本并增强用户体验。现代聊天机器人常集成机器学习,提高对话的准确性和自然性。
Proxy Lite – 开源视觉语言模型,支持自动化网页任务
Proxy Lite 是开源的轻量级视觉语言模型(VLM),参数量为3B,支持自动化网页任务。Proxy Lite 能像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。Proxy Lite用“观察-思考-工具调用”的三步决策机制,具备强大的泛化能力和低资源占用,支持在消费级GPU上高效运行。
什么是机器人学(Robotics)
机器人学(Robotics)是一门跨学科领域,结合了工程学、计算机科学和设计,旨在开发、制造和应用机器人。这些智能机器可以执行各种任务,包括但不限于自动化生产线操作、探索危险环境、进行复杂手术以及提供家庭服务。机器人学不断进步,推动了技术革新,改善了人类生活和工作方式。