arXiv Paper Downloader
這個Python程式可以自動從arXiv下載關於特定主題的論文,使用者可以指定搜尋多個關鍵詞、論文上傳年月範圍和下載的論文數量。請注意目前該程式只支持Chrome瀏覽器。
功能特點
- 關鍵詞搜索: 根據用戶提供的關鍵詞進行論文搜索,支援多個關鍵字輸入。
- 日期範圍設定: 用戶可以指定搜尋的論文上傳年月區間。
- 自動下載: 程式會自動下載搜索結果中的論文至本機特定資料夾。
- 避免重複下載: 將已下載的論文資訊維護在excel裡,供後續查看以及避免重複下載。
安裝需求
請確保您的系統已經安裝了以下Python套件:
- pandas
- requests
- beautifulsoup4
- selenium
您可以使用以下命令安裝這些套件:
pip install pandas requests beautifulsoup4 selenium
使用方法
以下說明為Windows用戶舉例:
-
Clone或下載本程式到您的電腦
-
開啟命令提示字元(cmd)或 PowerShell:
- 按下
Win
鍵,然後在搜索框中輸入 “cmd” 或 “PowerShell”,選擇相應的程式來開啟。
- 按下
-
導航到您的Python程式所在的目錄:
- 使用
cd
命令改變當前目錄到程式所在的位置。例如,如果您的main.py
文件在C:\Users\Username\Documents\Project
目錄下,您可以輸入:cd C:\Users\Username\Documents\Project
- 使用
-
執行程式:
- 在命令行中輸入以下命令,確保替換中括號內的參數為您的需求設置:
python main.py --queries [關鍵詞] --start_year_month [起始年月] --end_year_month [結束年月] --num_papers [下載數量]
- 例如,要下載關於 “fairness”, “machine learning” 和 “synthetic data generation” 的論文,並設定搜索時間範圍從 2023 年 1 月到 2023 年 12 月,可以使用以下命令:
python main.py --queries "fairness" "machine learning" "synthetic data generation" --start_year_month 202301 --end_year_month 202312 --num_papers 5
- 在命令行中輸入以下命令,確保替換中括號內的參數為您的需求設置:
請確保您的系統已經安裝Python和必要的套件,如安裝需求部分所述。
設定參數預設值
本程式支持設置預設參數值,讓使用者在不指定命令行參數時,可以自動使用預設的搜索設定,對於常用相同參數的使用者來說較為方便。
預設值設定
以下是 Config
類別的實現,它在程式中被用來儲存所有預設的參數:
class Config:
DEFAULT_QUERIES = ["fairness", "machine learning", "synthetic data generation"]
DEFAULT_START_YEAR_MONTH = "202301"
DEFAULT_END_YEAR_MONTH = "202312"
DEFAULT_NUM_PAPERS = 5
使用預設值
當您在命令行中不指定對應的參數時,程式將會自動使用 Config
類別中定義的預設值。並且如果您僅指定部分參數,其他未指定的參數也會使用這些預設值。
修改預設值
要修改這些預設值,您可以直接在 Config
類別中進行更改。這樣做可以讓程式更靈活地符合您的特定需求,無需在每次執行時手動輸入所有參數,以簡化常規操作。