关于设计人工智能领域做的一些研究和反思与探讨
关于设计人工智能领域做的一些研究和反思与探讨。
01. 三个核心信仰
1. 把科技带入设计,而不是用科技取代创意:我有一个艺术的心和科技的脑。我一直想做的事情就是把科技带到创意的领域里边,所以我并不希望把每一个创作者都变成工程师,而是希望把工程的力量能够带到艺术的领域里去。其实艺术、设计、创意是人性化科技的手段,让科技和我们的生活连接起来,否则科技只能冷冰冰的解决问题。
2. 不是机器取代人,而是人与机器共创更美好的未来:创业前我在美国教“人机交互”。人机交互和人工智能一个最大的区别,就是人工智能是以机器取代人为目的的,希望把人的工作自动化。人机交互则是希望人和机器一起,做人和机器单独都做不到的事情。我自己的信仰不是要让人工智能去取代人的工作,而是要让人工智能和人一起创造更美好的生活和未来。
3. 预测未来最好的方式是动手创建未来:不论是作为创业者,还是研究者,有一样不变的东西就是要动手创建。我们的价值观是“创建未来 / to build and create”,to build就是写代码,to create就是去创作。
02. 为什么是设计人工智能
在设计人工智能的研究中,行动和知识很重要,我们当然要和历史、文化和学科发生关系;另一方面又要和社会、商业、真相发生关系。就像我们在学校做研究的时候,是年轻人给我们带来了新的知识、新的工具、新的场景、新的思考方式。在商业语境做研发的时候,是客户、合作企业给我们带来了很多问题、答案、和研究问题。
03. 数据是设计人工智能的突破口
当我们讨论设计人工智能的时候,尤其是最近的AIGC——不管是文生图、文生视频还是文生文的内容——其实人工智能都在扮演一个很有天赋的形式创造者,它们能做很漂亮的东西,不管是很漂亮的句式、很漂亮的图片,还是很漂亮的视频,现在甚至可以做很漂亮的三维模型。但是,天赋只代表形式创造的平均水平变高了,并不代表这是一种设计创造的能力,因为它们还没有帮我们解决问题。
一说到AIGC,我们就会期待“一键生成”——输入提示词后生成结果。要么是把一段很复杂的东西总结一下,要么是把简单的一句话变成复杂的设计。但一键生成只是一个开始,离我们需要的结果还要走一段调整、再创作的路。让我们先简单了解一下这些生成式模型的基本原理,这里有几个要素:
第一个要素是“数据集”,没有数据集计算机就没有可以学习的教材。
第二个要素是需要把数据embed成为一个向量矩阵里,这个过程是“深度学习”,或者更抽象的讲叫算法。现在我们用的是深度学习框架是Transformer。
第三个要素是“算力”,通过调用GPU来完成。
以生成图为例,我们用扩散diffusion模型,从而让每一张图生成出来都是不一样的。前半部分叫模型训练,后半部分叫模型应用(更专业的词叫“推理”),连接模型和推理的叫“提示词”。我听说中国GPU的使用,大概95%以上是在模型训练,也就是说我们还在建模型的阶段,就像要致富先修路,我们还在修路的阶段。另外5%左右的GPU使用在推理上,所以使用的场景、规模、数量都远远还很早期。
人工智能有三个重要支柱,分别是:算力,算力的垄断者就是英伟达;算法,算法的垄断者是OpenAI;数据,我们还没有看到单一的垄断者,尤其是在垂直领域的数据。也许消费者数据我们有很多的平台,但是生产者供给侧创意方设计的数据却分散着,没有很好的被处理。所以我们做设计人工智能的思路是充分利用已有的算力和算法,在设计和创意的数据上做文章。
数据不能只是大,而且要能被很好的处理好。在互联网上大概有95%的数据是非结构化数据,和设计创意有关的很多数据,几乎都是非结构化的数据。什么叫结构化的数据?就是在excel表格可以处理的数据。而图、文、视频、音乐,地理信息、三维模型……都是非结构化的数据。处理不好非结构化的数据,计算机就无法理解设计和创意。
处理非结构化的方式,就像多模态模型或大语言模型,其实是把内容变成向量。如果是人来处理图片,我们会知道图片背后的文化暗示,也可能会揣测图片制作过程的信息……。但在大模型里,现在还只被用一种很简单的方式处理,就是用图片像素对应文字产生向量。所以大模型的图片处理还很粗糙,但是规模庞大。所以我为什么会说生成式人工智能现阶段还只是一个有天赋的形式主义者,就是因为它只是理解像素和文字的向量的对应(学习形式与风格),但并没有深入的专业、文化影响。他不知道这些像素为什么存在,他只知道他们存在的概率。