- Updated on
无意识日记 20220401
各位,愚人节快乐。
最近在改之前写的知网爬虫的代码,最近改的这个版本新增了一个新的功能——爬取一个作者所有的论文。既有的一个功能是爬取某篇论文所引用的其他论文、然后再爬取这些被引用的论文所引用的论文。 再爬取论文之后,我可以轻松的使用neo4j bloom实现可视化。
这两个功能,对于我来说,是十分有用的。我经常喜欢研究一些稀奇古怪的方向,比如平台经济的反垄断规制、被遗忘权等等。这些反向都比较前沿,所以没有太多的论著可供参考,因此阅读论文是了解学界目前都在研究什么、研究的进度最方便的方式。
但找论文是一件非常痛苦的事情。你要找到某个主题的最新的某篇论文是比较容易的,但需要找到该主题下的全部论文是比较困难的。我的选择是,利用已有的论文去发现过去的论文,以实现学者们思想的溯源。通常来说,一篇论文里之所以引用其他论文,要么是为了支持该论文自身的论点、要么是为了反驳、要么是作为背景知识等,因此被引用的论文往往是最有用的。通过一层层的溯源,我能够找到一个最早研究某个主题的论文是哪篇、在这个主题下引用次数最多的文章是哪篇,通过这也能找到哪位学者在这个方向上的产出最多。
英文论文方面,已经有很好的工具能够实现以上的这些功能,如research rabbit,但中文论文方面我还未找到合适的工具。