科技论文的下载、数据清洗与信息提取,试着碰撞一下好玩的思路💥
contact: i[at]jackon[dot]me
pip install -r requirements.txt
- (输入) 给定一个论文网站的 paper 的 link
- 根据 reference 把引用的引用也抓下来
- 给每个 paper 生成一个 markdown 文件,内含 titie/author/abstract 等信息。
- 生成的 markdown 文件包含 reference 的 markdown link。在 obsidian 中打开,可以直接看到引用关系的可视化图。
初始的 paper link 配置: src/processors/crawlers/semanticscholar_crawler/url.list
生成的 markdown example: 基于腾讯的 DFN 推荐模型抓的 paper list
根据 ResNet paper 画的图
make setup
make compile
# download related papers
make download
# gen struct metadata yaml from downloaded paper info
make gen-ref-meta
# gen markdown file from yamls
make gen-ref-notes
说明:
- 下载论文的网站,仅支持 https://www.semanticscholar.org/, 其他网站的支持比较难,主要是 reference 信息不方便解析。
- paper 的 PDF 文件需要手动下载。当前只支持 metadata 自动下载。
根据 PDF 文件,尝试解析部分 metadata & 生成 markdown 文件,方便记笔记。
功能 1 和 2 生成的 markdown 文件可以手动 merge 起来。
make gen-pdf-meta
make gen-pdf-notes
训练一个推荐模型,根据 markdown 文件的 last modified 标记为最近感兴趣的 paper,然后去搜相关 paper,并自动下载,出个 list。