哈佛大学开源AI训练数据集“InstitutionalBooks1.0”，涵盖馆藏98.3万本图书

哈佛大学开源AI训练数据集“InstitutionalBooks1.0”，涵盖馆藏98.3万本图书

文章来源：智汇AI 发布时间：2025-06-21

哈佛大学法学院图书馆开源首个AI训练数据集“Institutional Books 1.0”，涵盖98.3万本图书、2420亿Token，支持245种语言。40%为英语，60%为其他语言，书籍主要来自19-20世纪。未来还将加入数百万份历史报纸数字化内容。

暂无访问

智汇AI6月16日消息，在微软与OpenAI的支持下，哈佛大学法学院图书馆于上周正式开源其首个AI训练用开放数据集“InstitutionalBooks1.0”。该数据集据称收录了哈佛大学馆藏中98.3万本图书，涵盖245种语言，共包含2420亿个Token，智汇AI附项目地址（https://huggingface.co/datasets/institutional/institutional-books-1.0）。

据介绍，相应数据集收录的书籍有40%为英语，书籍主要出版年代集中于19与20世纪，共计被划分为20项主题，除此之外，相应数据集还提供了每本书的完整元数据，涉及“作者、出版年份、语言、原始来源”等信息。

哈佛大学法学院图书馆表示，未来研究人员还将持续扩充数据内容，目前相应项目组成员已与波士顿公共图书馆展开合作，将把“数百万份”历史报纸以数字化形式添加至上述数据集中。

后续，哈佛大学法学院图书馆还计划开发一系列AI工具，以提升馆藏资料整理和开放的效率，推动“负责任的数据使用规范”。

相关推荐

最新收录

Promptport提示词老版本大全下载

Prompt

淘宝星辰大模型安卓福利版

淘宝星辰大模

SkyReels-V1官网入口

SkyRee

ThinkAny去广告版永不升级

ThinkA

Caesium.app正版下载

Caesiu

LanguageTool苹果版安装

Langua

SkyCode天工智码PC版

SkyCod

WordAIapp官网登录入口

WordAI

SunoAIhd版下载平板安装

SunoAI

哩布哩布AIapp安装旧版本

哩布哩布AI

PodcastEditor官网下载pc版

Podcas

DetectGPT2025老版本下载

Detect

CrowdGPTAPP

CrowdG

Darwin模型极速版2025最新版下载

Darwin

Step-Audio安卓福利版

Step-A

Everypixel网页版下载

Everyp

SeedEdit老旧版本大全

SeedEd

灵羽助手pad版

灵羽助手pa

最新文章

哈佛大学开源AI训练数据集“InstitutionalBooks1.0”，涵盖馆藏98.3万本图书

哈佛大学开源

DINO-XSeek-IDEA 研究院推出的多模态目标检测模型

DINO-X

玉米电影破解版真的存在吗？资深用户教你正确薅羊毛姿势

玉米电影破解

AppAgentX-西湖大学推出的自我进化式 GUI 代理框架

AppAge

为AppleIntelligence入华铺路？阿里巴巴发布适配苹果MLX架构的Qwen3升级版

为Apple

Gemini Embedding-谷歌推出的文本嵌入模型

Gemini

污啦啦app破解版风险警示：免费漫画背后的隐患与正版替代方案

污啦啦app

谷歌被曝用ChatGPT训练Gemini，ScaleAI否认

谷歌被曝用C

JVID视频破解版真相评测：免费观影真的靠谱吗？

JVID视频

LanDiff-浙大联合月之暗面推出的文本到视频生成混合框架

LanDif

国内首个人形机器人全产业链专业展6月20日在杭州召开，特斯拉、宇树参展

国内首个人形

奶茶视频有容乃大app下载免费版：无广告追剧神器，高清画质真香了！

奶茶视频有容

MetaAI应用新增隐私警告：避免分享个人或敏感信息

MetaAI

久久久久久久久久久久久久：藏在时间褶皱里的生活答案

久久久久久久

kk577cc真人直播软件测评：这三点优势让主播直呼真香

kk577c

腾讯开源混元3D2.1大模型：首个全链路开源工业级3D生成大模型，PC也能“跑”

腾讯开源混元

LanPaint-零训练 AI 图像修复工具

LanPai

挑战英伟达主导地位，AMD联手多家AI初创公司改进芯片及软件设计

挑战英伟达主