他们第一次看到沈家菜馆的老照片和菜谱时,Mike问了一个问题:“这个人,为什么记这么多东西?”
嘉嘉想了很久,最后说:“因为他怕被忘记。不是怕自己被忘记,是怕他记得的那些人被忘记。”
数据库的建设花了四个月。
嘉嘉和念清把嘉禾留下的所有文字分成了五个层级。
第一层是菜谱。这是最结构化、最容易处理的部分。每道菜的食材、用量、步骤、火候,嘉禾都写得清清楚楚。有些菜谱还附有批注,是他晚年回看时加上去的。比如打卤面的菜谱旁边写着:“黄花菜宜多不宜少,少了则不香。然亦不可过多,过多则夺肉味。凡事有度,过犹不及。”这不是在说菜,但也是在说菜。
第二层是《味道纪事》。这是嘉禾从六十岁开始写的回忆录性质的笔记,写到七十三岁去世前一个月,前后持续了十三年。内容很杂,有开店经历的记录,有对某位客人的描述,有对时局的感慨,有对儿女的叮咛。语气时而庄重,时而家常,时而像一个老人在自言自语。
第三层是书信。嘉禾写给家人的信,保留下来的有四十多封。收信人包括在天津管分店的弟弟嘉木,在北京读书的儿子文渊,回廊坊探亲的妻子沈陈氏,以及在抗战期间去了重庆的老友刘掌柜。信里有家事,有店事,有国事。民国二十六年七月那封给刘掌柜的信里,嘉禾写道:“时局如此,我等升斗小民,唯有一口热饭,聊慰人心。”
第四层是账本里的记事。这是最零散、也最有温度的部分。嘉禾记账有个习惯,遇到特殊的事情就顺手写在当日的账目旁边。有些只有几个字:“今日有客,食毕泣下。”“雪,无一客。”“赊者众,然皆诚信。”有些则是大段的叙述,比如记录那位东北流亡学生的那段,写了将近两百字。这些碎片散布在几十本账册里,像散落的珠子。念清用了整整一个暑假,把能找到的所有账本记事全部转录出来,一共找到了一千多条。
第五层是口述。嘉禾去世前几年,文渊曾用一台老式录音机录过几次父亲的口述。磁带保存得不好,大部分已经消磁了,只有一段勉强能听。那是嘉禾在讲他刚到天津码头时的情形,声音沙哑,带着浓重的廊坊口音,偶尔咳嗽几声。录音里能听到茶杯放到桌上的声音,窗外传来的鸟叫声,以及文渊偶尔的应答。一共只有七分多钟,反复听了很多遍,每个人听到最后都不说话了。
陈理负责把所有这些文字录入、校对、标注。他不会说“太爷爷”,一直叫“沈先生”,但标注到账本记事时,他忽然跟嘉嘉说:“我想叫他爷爷,可以吗?”
嘉嘉说可以。
从那以后,项目组所有人都叫他“爷爷”。
AI模型的训练是一个不断试错的过程。
最早几版的对话测试,效果很差。嘉嘉问模型:“您做打卤面的时候,最注意什么?”模型回答:“五花肉切丁三分肥七分瘦,黄花菜温水发透去蒂,木耳秋后头茬。”一字不差,是菜谱上的原文。但念清听了直摇头。
“不对。太爷爷不会这么说话。”
和平也听了。他说:“你太爷爷说话,不背菜谱。他讲故事。”
嘉嘉意识到问题出在哪里了。她们喂给模型的数据,菜谱占了太大的比重。菜谱里的嘉禾是最“职业”的状态,简洁、准确、不带感情。但那不是完整的嘉禾。完整的嘉禾在《味道纪事》的闲笔里,在书信的问候语里,在账本记事的只言片语里。
她们调整了数据权重。菜谱的比重降到百分之二十,《味道纪事》和书信的比重提高到百分之五十,账本记事占百分之二十,口述录音占百分之十。
第七版模型训练完成后,念清问了同一个问题:“太爷爷,您做打卤面的时候,最注意什么?”
模型停顿了几秒钟。然后回答:“卤要厚。那时候的人肚子里没油水,卤薄了,吃不饱。可是厚也不能糊嗓子,得厚得明白。什么叫厚得明白?就是你吃完了,嘴里的味道要一层一层地退。先是酱香,再是肉香,最后是黄花菜的清香。一样一样退,退到最后一层,你还能想起来第一口是什么味儿。这就叫明白。”
念清的手停在键盘上。
和平站在她身后,沉默了很久,然后说:“是他。”
Mike和David听不懂中文,但他们看到念清和嘉嘉的表情,什么都懂了。Mike后来对嘉嘉说:“我做AI八年了,从来没觉得自己做的东西活过。但那一刻,我觉得他活了。”
全息投影的部分比AI更难。
念清原本以为,有了AI模型,只要找一个外形相似的演员做动作捕捉就可以了。但第一次测试后,所有人都沉默了。
投影里的“嘉禾”站在菜馆前厅的中央,穿着中山装,面容是依据老照片重建的,足够相似。他抬手,做翻炒的动作,动作是和平亲自演示、由专业团队捕捉的,足够标准。他开始说话,声音是嘉嘉她们用那段七分钟的录音训练出来的语音合成,足够接近。
小主,这个章节后面还有哦,请点击下一页继续阅读,后面更精彩!