Tao Lin bio photo

A passionate lover of life.

Email

My CV

Twitter

Github

Google Scholar

ResearchGate

真正的发现之旅不在于寻找新景观,而在于拥有新眼光。
——《追忆似水年华》,普鲁斯特


学会管理

虽然很早的时候我就发现了自己的科研习惯有点差,但是一直都没做出改变,直到最近真正影响到进展了。


拿阅读文献为例,在处理从 arXiv 下载的学术文献时,由于 arXiv 使用上传的时间(例如2502xxxx)来命名文件。有些时候会习惯性的不修改名字直接保存。但这种命名方式使得即使将多篇文献放入同一文件夹中,也难以清晰识别每篇论文的具体内容,从而导致在需要回顾某个想法验证时,无法通过文件名直接判断文献的主题或作者信息。这种低效的信息检索方式本质上是对知识价值的折损。真正的文献管理不应止步于简单的文件存储,而应建立可追溯的知识库。为了解决这个问题,我参考了一些网友的建议,下载了 ima。工具不是重点,只希望借助这个手段完成知识库建立的目的。


在训练模型的时候也是,个人对于 checkpoint 的管理也是灾难级的。有些时候图省事,我会随意命名这些 checkpoint,如 checkpoint_0.pth, checkpoint_1.pth 等。虽然后期可以通过看 checkpoint 最后的时间推测当时在做了什么改进以及拆开权重看结构,但最终会以成倍的时间成本反噬我自己。计算机领域的严谨程度可能不及生物化学、环境工程等需要特定环境才能实现的学科,但是成熟的实验管理仍然需要记录关键信息和数据,以形成可追溯的研究轨迹。


坚持系统性的输出

加上了“系统性的”,是我觉得单纯靠零碎的输出可能还达不到效果。按照数据结构的角度出发,系统性输出的本质是在构建一个可延伸的知识拓扑结构。


这周在翻看之前的一些零零碎碎的笔记,发现一点都回想不起来了。像邱锡鹏老师的那本《神经网络与深度学习》,尤其是标注过已读的部分,现在看又是一头雾水。


这可能是一种学习知识时候的陷阱。当我们反复阅读教材时会产生”流畅性幻觉”,那些熟悉的知识排版和反复出现的公式,会制造出已经掌握的假象。但实际上,这个阶段应该只停留在认可对方的理解的层面。尤其在这个信息过载的时代,如果不经过系统性输出,最终只会成为电子笔记里沉默的字符。


至于怎么进行系统性的,我觉得还是得有一套标准化的流程,并且尽量减少“多开”的情况。一段时间内集中学习一块知识的同时,多给自己一些正反馈。


不要抽象要具体

早上 mentor 打来电话跟我分享了一些可以值得学习的地方,我觉得很有道理。


重点就是不要泛泛的做一件事,得落到具体细节上。


创新不产生于空泛的构思,而诞生于具体结构的重组中。真正推动技术进步的突破,往往始于对某个具体细节的追问。虽然抽象性在创新和概念设计方面有其优势,但在实际执行和管理中,具体性通常是必不可少的。具体内容能够清晰地定义每一步骤所需的行动,拥有明确的方向和框架,目标就更易于实现。


我觉得这一点在各种面试中表现得尤为明显。面试官通过深入细节的提问,不仅能够判断你是否真的掌握了相关技能或知识,还能体现你在复杂情境中抓住本质的能力。每一个细节上的准备和展示,都可能成为决定成败的关键。比如,当被问及某个项目的具体实现时,你能否详细描述每个步骤和解决的难题,往往是区分泛泛而谈与深入理解的关键。


下周计划

  • 推动 WeShare 竞赛分享平台上线
  • 针对文章调研的时候,落实到具体的技术细节
  • 完善部分 YOLO 文档撰写(至少一个方案)
  • 个人的科研项目(关于指标的丰富以及可视化)