样资源占用会翻倍。”
“那就加班。”陈砚舟看着所有人,“我知道大家累了。但这一步必须走扎实。我们现在不是拼速度,是拼谁更能解决问题。”
没人反对。
中午十二点二十三分,会议室坐满了人。
标注组带来了三十份争议样本。一张张放出来,都是边缘模糊、对比度低的片子。
“这张算不算有效?”标注员指着其中一张,“病灶轮廓几乎看不清。”
“医生能判吗?”陈砚舟反问。
“有经验的可以,但新手容易漏。”
“那就是有效。”陈砚舟说,“我们的目标不是让ai超过专家,而是帮普通医生少犯错。只要有人能在这种图上看出来,我们就不能放弃。”
会议室里响起一片笔尖划纸的声音。
下午三点,第一批跨设备泛化测试启动。
傍晚六点,第二轮清洗完成,新增a级样本三百余例。
晚上八点,三个分模型同步进入第二阶段训练。
陈砚舟坐在主控台前,盯着实时监控面板。各项任务状态灯依次由黄转绿。
老李端了碗泡面过来,“吃点东西。”
“待会儿吧。”陈砚舟接过,没动筷子。
“你知道刚才最让我放心的是什么吗?”老李靠着桌子,“不是准确率涨了四个点,是你从头到尾没喊一句‘加油’‘坚持’这种话。你就把事一件件摆出来,大家自然就跟上了。”
“情绪解决不了问题。”陈砚舟说,“方向对了,节奏跟上,结果迟早会来。”
“可你怎么就知道该从数据下手?”
“我不是知道。”陈砚舟低头吹了口泡面,“我是听到了一句话,然后想起了那些医生皱眉的样子。”
老李没再问。
深夜十一点,最新一批测试结果弹窗跳出。
t7-3模型在外部样本中的平均识别准确率达到918,连续三次测试误差低于05。
陈砚舟点开详细报告,逐项核对指标。
呼吸声很轻,只有服务器风扇持续运转。
他打开笔记本,蓝笔写下三项后续动作:
1 扩大分层训练范围,覆盖全部五类主流设备;
2 启动跨设备泛化测试,验证模型迁移能力;
3 准备向李教授提交阶段性报告。
红笔圈住最后一项,在下面补了一句:收集用户体验反馈。
合上本子时,手机又震了一下。
还是那个号码。
他看了一眼,屏幕亮起的光映在他脸上。
手指悬在上方,没有解锁。