從煉金術(shù)到工程學(xué):數(shù)據(jù)科學(xué)項(xiàng)目持續(xù)成功10條規(guī)則(最佳實(shí)踐)
出自16世紀(jì)荷蘭畫家彼得·勃魯蓋爾(Pieter Bruegel the Elder)的《煉金術(shù)士的實(shí)驗(yàn)室/Alchemist's Laboratory》
在數(shù)據(jù)科學(xué)項(xiàng)目中,我們經(jīng)常遇到各種腳本、notebook、Python代碼、Java代碼、SQL等大雜燴式組合在一起的工程項(xiàng)目。這些項(xiàng)目從各種來源提取數(shù)據(jù),代碼被復(fù)制并在各個(gè)地方經(jīng)過微小調(diào)整后重新使用。有些項(xiàng)目有版本控制和自動(dòng)化的打包腳本,而有些項(xiàng)目根本沒有測(cè)試、持續(xù)集成和部署(CI/CD)。所有這些問題導(dǎo)致無法確保項(xiàng)目質(zhì)量和可重復(fù)性,為項(xiàng)目失敗埋下隱患。大部分?jǐn)?shù)據(jù)科學(xué)項(xiàng)目都是無序堆積的大雜燴,在工程化管理方面存在明顯不足。
隨著數(shù)據(jù)科學(xué)(包括人工智能應(yīng)用)的復(fù)雜性和重要性在當(dāng)今企業(yè)中不斷增加,許多數(shù)據(jù)科學(xué)項(xiàng)目在實(shí)際應(yīng)用中遇到各種問題,導(dǎo)致項(xiàng)目失敗或結(jié)果不可靠。為了保障數(shù)據(jù)項(xiàng)目的成功,DrivenData Lab團(tuán)隊(duì)在其電子書《The 10 Rules of Reliable Data Science》中總結(jié)了數(shù)據(jù)科學(xué)項(xiàng)目持續(xù)成功的十條規(guī)則(最佳實(shí)踐)。這些規(guī)則為確保數(shù)據(jù)項(xiàng)目的成功提供了寶貴的指導(dǎo),能夠幫助數(shù)據(jù)科學(xué)家和團(tuán)隊(duì)提高工作效率,確保項(xiàng)目質(zhì)量和可重復(fù)性。
規(guī)則1:有序開始,有序進(jìn)行(Start Organized, Stay Organized)
“在數(shù)據(jù)準(zhǔn)備過程中,經(jīng)常出現(xiàn)‘管道叢林’的現(xiàn)象。這些管道可能隨著新信號(hào)的識(shí)別和新信息源的添加而自然發(fā)展。如果不加以注意,最終為機(jī)器學(xué)習(xí)準(zhǔn)備數(shù)據(jù)的系統(tǒng)可能會(huì)變成由抓取、連接和采樣步驟組成的叢林,常常伴隨著中間文件的輸出。管理這些管道、檢測(cè)錯(cuò)誤和從失敗中恢復(fù)都是困難且昂貴的……所有這些都會(huì)增加系統(tǒng)的技術(shù)債務(wù),使得進(jìn)一步的創(chuàng)新變得更加昂貴?!?—— Sculley 等人, “Machine Learning: The High Interest Credit Card of Technical Debt” (2014)
以干凈和邏輯清晰的結(jié)構(gòu)開始數(shù)據(jù)科學(xué)項(xiàng)目,并保持這種有序性,有助于數(shù)據(jù)科學(xué)家理解、擴(kuò)展和重現(xiàn)分析。
- 為什么要遵循這條規(guī)則?
- 防止混亂:如果沒有明確的結(jié)構(gòu),項(xiàng)目中的代碼和數(shù)據(jù)很快就會(huì)變得混亂,導(dǎo)致結(jié)果難以重現(xiàn)。
- 促進(jìn)協(xié)作:一個(gè)組織良好的項(xiàng)目使他人更容易理解和貢獻(xiàn),促進(jìn)更好的協(xié)作。
- 自我文檔化:有序的代碼本身就是一種文檔,減少了大量文檔的需求,使得以后返回項(xiàng)目時(shí)更容易上手。
- 如何實(shí)現(xiàn)這條規(guī)則:
- 使用模板:從像Cookiecutter Data Science這樣的項(xiàng)目模板開始,它提供了合理且自我文檔化的結(jié)構(gòu)。
以下是Cookiecutter的項(xiàng)目結(jié)構(gòu):
├── LICENSE <- Open-source license if one is chosen├── Makefile <- Makefile with convenience commands like `make data` or `make train`├── README.md <- The top-level README for developers using this project.├── data│ ├── external <- Data from third party sources.│ ├── interim <- Intermediate data that has been transformed.│ ├── processed <- The final, canonical data sets for modeling.│ └── raw <- The original, immutable data dump.│├── docs <- A default mkdocs project; see www.mkdocs.org for details│├── models <- Trained and serialized models, model predictions, or model summaries│├── notebooks <- Jupyter notebooks. Naming convention is a number (for ordering),│ the creator's initials, and a short `-` delimited description, e.g.│ `1.0-jqp-initial-data-exploration`.│├── pyproject.toml <- Project configuration file with package metadata for │ {{ cookiecutter.module_name }} and configuration for tools like black│├── references <- Data dictionaries, manuals, and all other explanatory materials.│├── reports <- Generated analysis as HTML, PDF, LaTeX, etc.│ └── figures <- Generated graphics and figures to be used in reporting│├── requirements.txt <- The requirements file for reproducing the analysis environment, e.g.│ generated with `pip freeze > requirements.txt`│├── setup.cfg <- Configuration file for flake8│└── {{ cookiecutter.module_name }} <- Source code for use in this project. │ ├── __init__.py <- Makes {{ cookiecutter.module_name }} a Python module │ ├── config.py <- Store useful variables and configuration │ ├── dataset.py <- Scripts to download or generate data │ ├── features.py <- Code to create features for modeling │ ├── modeling │ ├── __init__.py │ ├── predict.py <- Code to run model inference with trained models │ └── train.py <- Code to train models │ └── plots.py <- Code to create visualizationste
這種標(biāo)準(zhǔn)化的項(xiàng)目結(jié)構(gòu)有助于保持項(xiàng)目的有序性和可維護(hù)性,確保數(shù)據(jù)科學(xué)項(xiàng)目的成功。
規(guī)則2:所有數(shù)據(jù)都有來源,原始數(shù)據(jù)不可變(Everything Comes from Somewhere, and the Raw Data is Immutable)
“每一條知識(shí)都必須在系統(tǒng)內(nèi)有一個(gè)唯一的、明確的、權(quán)威的表示。” —— Andy Hunt 和 Dave Thomas, 《The Pragmatic Programmer》
這條規(guī)則強(qiáng)調(diào)確保項(xiàng)目中的所有數(shù)據(jù)都可以追溯到其來源的重要性。原始數(shù)據(jù)應(yīng)保持不變,任何轉(zhuǎn)換或分析都應(yīng)能從這一原始數(shù)據(jù)集中再現(xiàn)。
- 為什么要遵循這條規(guī)則?
- 可重現(xiàn)性:確保每一個(gè)結(jié)論或結(jié)果都可以通過一個(gè)清晰、不間斷的轉(zhuǎn)換鏈條追溯到最初的原始數(shù)據(jù)。
- 問責(zé)性:有助于驗(yàn)證數(shù)據(jù)的有效性及其衍生結(jié)果的可靠性。
- 清晰性:通過澄清每個(gè)數(shù)據(jù)的來源,減少模糊性。
- 如何實(shí)現(xiàn)這條規(guī)則?
- 追蹤數(shù)據(jù)血緣:使用有向無環(huán)圖(DAG)來追蹤數(shù)據(jù)的依賴關(guān)系和所應(yīng)用的轉(zhuǎn)換。
- 保持原始數(shù)據(jù)不可變:將原始數(shù)據(jù)存儲(chǔ)為只讀格式,絕不修改它。任何清洗或轉(zhuǎn)換應(yīng)生成一個(gè)新的數(shù)據(jù)集。
- 記錄數(shù)據(jù)獲取過程:在README或其他可訪問文件中記錄數(shù)據(jù)的獲取方式,包括任何預(yù)處理步驟。
- 使用依賴管理工具:使用像Apache Airflow或Prefect這樣的工具來管理和可視化數(shù)據(jù)管道,確??勺匪菪浴?/span>
- 工具和軟件包:
- Apache Airflow:用于創(chuàng)建和管理數(shù)據(jù)管道。
- Prefect:另一個(gè)數(shù)據(jù)管道管理工具,注重簡潔和靈活性。
- DAGsHub:用于數(shù)據(jù)和機(jī)器學(xué)習(xí)模型的版本控制,以及代碼管理。
通過確保所有數(shù)據(jù)都可以追溯到其來源并保持原始數(shù)據(jù)的不可變性,數(shù)據(jù)科學(xué)家可以提高分析的可重現(xiàn)性和可靠性,使他們的工作更值得信賴且更易于審計(jì)。
規(guī)則3:版本控制是基本的專業(yè)素養(yǎng)(Version Control is Basic Professionalism)
“如果你沒有源代碼控制,你會(huì)在讓程序員協(xié)同工作時(shí)感到壓力重重。程序員無法知道其他人做了什么。錯(cuò)誤也無法輕易回滾?!?—— Joel Spolsky, “The Joel Test: 12 Steps to Better Code”
這條規(guī)則強(qiáng)調(diào)使用像Git這樣的版本控制系統(tǒng)(VCS)來管理代碼和數(shù)據(jù)的變更。它確保所有修改都被追蹤、可逆且可審查。
- 為什么要遵循這條規(guī)則?
- 協(xié)作:通過允許多個(gè)人在同一個(gè)項(xiàng)目上工作而不產(chǎn)生沖突,促進(jìn)團(tuán)隊(duì)合作。
- 問責(zé):追蹤變更并識(shí)別是誰做了哪些修改,增強(qiáng)透明度。
- 可逆性:當(dāng)出現(xiàn)問題時(shí),可以輕松回滾到以前的版本。
- 審查和質(zhì)量控制:使代碼審查和審計(jì)成為可能,幫助維持高質(zhì)量標(biāo)準(zhǔn)。
- 如何實(shí)現(xiàn)這條規(guī)則?
- 使用Git進(jìn)行代碼管理:定期將代碼更改提交到Git倉庫。使用分支來管理不同的功能或開發(fā)階段。
- 避免在VCS中存儲(chǔ)大數(shù)據(jù):僅存儲(chǔ)小型、很少更改的數(shù)據(jù)集。對(duì)于較大的數(shù)據(jù)集,使用DVC(數(shù)據(jù)版本控制)或Git LFS(大文件存儲(chǔ))等工具。
- 自動(dòng)化版本控制:使用腳本或工具自動(dòng)對(duì)數(shù)據(jù)集和模型進(jìn)行版本控制,確保每次更改都被追蹤。
- 代碼審查實(shí)踐:實(shí)施一個(gè)通過拉取請(qǐng)求進(jìn)行代碼審查的流程,確保所有更改都由至少一個(gè)團(tuán)隊(duì)成員審查。
- 記錄變更:維護(hù)一個(gè)變更日志,記錄項(xiàng)目中的重大變化和更新。
- 工具和軟件包:
- Git:最廣泛使用的版本控制系統(tǒng),用于追蹤代碼更改。
- Git LFS:用于在Git中管理大文件。
- DVC:用于對(duì)數(shù)據(jù)、模型和管道進(jìn)行版本控制,與代碼一起管理。
- GitHub/GitLab/Bitbucket:提供倉庫、代碼審查工具和CI/CD集成的平臺(tái)。
使用版本控制是任何專業(yè)數(shù)據(jù)科學(xué)項(xiàng)目的基本要求。它增強(qiáng)了協(xié)作、問責(zé)和質(zhì)量控制,使代碼和數(shù)據(jù)的管理和維護(hù)隨著時(shí)間的推移變得更加容易。
規(guī)則4:Notebooks用于探索,源文件用于重復(fù)(Notebooks are for Exploration, Source Files are for Repetition)
“大多數(shù)我聽到的關(guān)于Notebooks的抱怨,我認(rèn)為是對(duì)它們用途的誤解……Notebooks絕對(duì)不是讓你像在編輯器里那樣輸入所有代碼并弄得一團(tuán)糟?!?—— Mali Akmanalp
這條規(guī)則強(qiáng)調(diào)了Notebooks和源文件在數(shù)據(jù)科學(xué)項(xiàng)目中不同的用途。Notebooks適合進(jìn)行探索性分析和可視化,而源文件則更適合可重現(xiàn)和自動(dòng)化的任務(wù)。
- 為什么要遵循這條規(guī)則?
- 探索:Notebooks提供了一個(gè)交互環(huán)境,非常適合實(shí)驗(yàn)和可視化。
- 可重現(xiàn)性:當(dāng)源文件經(jīng)過良好組織和管理時(shí),確保過程可以可靠地重復(fù)。
- 協(xié)作和審查:源文件更容易在版本控制系統(tǒng)中管理,促進(jìn)代碼審查和協(xié)作。
- 如何實(shí)現(xiàn)這條規(guī)則?
- 在Notebooks中進(jìn)行探索性分析:使用Jupyter或R Notebooks進(jìn)行初步數(shù)據(jù)探索、可視化和迭代分析。
- 提取常用函數(shù):在開發(fā)可重用的函數(shù)和流程時(shí),將它們從Notebooks中提取到源文件(如Python腳本)。
- 組織源代碼:將這些腳本放在一個(gè)組織良好的目錄結(jié)構(gòu)中,如/src或/scripts。
- 版本控制:將這些源文件提交到版本控制系統(tǒng),啟用協(xié)作開發(fā)和代碼審查。
- 測(cè)試:為源文件中的函數(shù)編寫測(cè)試,確保它們?cè)贜otebooks環(huán)境外也能正常工作。
- 工具和軟件包:
- Jupyter Notebooks:用于交互式數(shù)據(jù)分析和可視化。
- VS Code或PyCharm:用于開發(fā)和管理源文件。
- nbconvert:將JupyterNotebooks轉(zhuǎn)換為腳本。
- pytest:用于測(cè)試從Notebooks中提取的Python代碼。
- Git:用于管理Notebooks和源文件的版本控制。
Notebooks非常適合探索性和迭代分析,但關(guān)鍵函數(shù)應(yīng)提取到源文件中以確??芍噩F(xiàn)性和可維護(hù)性。這種方法利用了兩種環(huán)境的優(yōu)勢(shì),促進(jìn)了更清晰和更有條理的工作流程。
規(guī)則5:測(cè)試和健全性檢查預(yù)防災(zāi)難(Tests and Sanity Checks Prevent Catastrophes)
“沒有測(cè)試的代碼是糟糕的代碼。它無論寫得多么好,無論多么漂亮、面向?qū)ο蠡蛘叻庋b良好。有了測(cè)試,我們可以快速而可靠地改變代碼的行為。沒有測(cè)試,我們真的不知道我們的代碼是變得更好還是更糟?!?—— Michael Feathers, 《Working Effectively with Legacy Code》
這條規(guī)則強(qiáng)調(diào)在數(shù)據(jù)科學(xué)代碼中編寫測(cè)試和進(jìn)行健全性檢查的重要性,以確保正確性和可靠性。測(cè)試有助于及早發(fā)現(xiàn)錯(cuò)誤,并確保代碼按預(yù)期工作。
- 為什么要遵循這條規(guī)則?
- 錯(cuò)誤預(yù)防:測(cè)試有助于在問題變得更嚴(yán)重之前捕捉錯(cuò)誤。
- 信心:確保代碼在各種條件下都能正確執(zhí)行。
- 維護(hù):通過測(cè)試能夠捕捉到回歸,使得修改和擴(kuò)展代碼庫更加容易。
- 可重現(xiàn)性:確保結(jié)果能夠長期可靠地重現(xiàn)。
- 如何實(shí)現(xiàn)這條規(guī)則?
- 編寫單元測(cè)試:專注于為單個(gè)函數(shù)和組件編寫測(cè)試,驗(yàn)證它們?cè)诟綦x環(huán)境中的行為。
- 使用健全性檢查:實(shí)施健全性檢查和冒煙測(cè)試,驗(yàn)證數(shù)據(jù)和基本功能的有效性。
- 使用樣本數(shù)據(jù)進(jìn)行測(cè)試:使用小型、具有代表性的數(shù)據(jù)集創(chuàng)建測(cè)試,驗(yàn)證代碼處理典型情景和邊緣情況的能力。
- 自動(dòng)化測(cè)試:使用持續(xù)集成工具將測(cè)試集成到開發(fā)工作流中,實(shí)現(xiàn)自動(dòng)化運(yùn)行測(cè)試。
- 文檔化測(cè)試:清晰地記錄每個(gè)測(cè)試驗(yàn)證的內(nèi)容,便于他人理解和維護(hù)。
- 工具和軟件包:
- pytest:用于在Python中編寫和運(yùn)行測(cè)試的框架。
- unittest:Python內(nèi)置的測(cè)試模塊。
- Hypothesis:用于Python中的基于屬性的測(cè)試。
- tox:用于跨多個(gè)環(huán)境自動(dòng)化測(cè)試。
- 持續(xù)集成(CI)工具:如GitHub Actions、Travis CI或Jenkins,用于自動(dòng)化運(yùn)行測(cè)試。
測(cè)試和健全性檢查對(duì)于確保數(shù)據(jù)科學(xué)代碼的正確性和可靠性至關(guān)重要。它們有助于及早發(fā)現(xiàn)錯(cuò)誤,提升對(duì)代碼行為的信心,并使代碼庫更易于維護(hù)和擴(kuò)展。
規(guī)則6:大聲失敗,快速失敗(Fail Loudly, Fail Quickly)
“這個(gè)問題在機(jī)器學(xué)習(xí)系統(tǒng)中比其他類型的系統(tǒng)更常見。假設(shè)正在進(jìn)行聯(lián)接的特定表不再更新。機(jī)器學(xué)習(xí)系統(tǒng)將進(jìn)行調(diào)整,其行為將繼續(xù)保持相當(dāng)良好,逐漸衰減。有時(shí)會(huì)發(fā)現(xiàn)表格已經(jīng)過時(shí)數(shù)月,簡單的刷新比季度內(nèi)的任何其他發(fā)布都提高了性能!” — Martin Zinkevich, 《Rules of Machine Learning/機(jī)器學(xué)習(xí)規(guī)則》
這條規(guī)則強(qiáng)調(diào)設(shè)計(jì)系統(tǒng)以在遇到意外情況時(shí)能夠及時(shí)且顯眼地失敗的重要性。它倡導(dǎo)防御性編程實(shí)踐,使錯(cuò)誤變得顯而易見且可以迅速采取措施。
- 為什么要遵循這條規(guī)則?
- 錯(cuò)誤檢測(cè):幫助及時(shí)捕捉錯(cuò)誤,防止錯(cuò)誤擴(kuò)散并導(dǎo)致更大的問題。
- 調(diào)試:便于識(shí)別和修復(fù)問題的根本原因。
- 可靠性:確保系統(tǒng)表現(xiàn)可預(yù)測(cè),并以受控方式失敗。
- 責(zé)任:提供清晰的錯(cuò)誤消息,幫助開發(fā)人員理解問題的原因及如何修復(fù)。
- 如何實(shí)現(xiàn)這條規(guī)則?
- 驗(yàn)證假設(shè):實(shí)施檢查確保輸入和中間結(jié)果符合預(yù)期條件。
- 使用斷言:添加斷言來強(qiáng)制執(zhí)行關(guān)于數(shù)據(jù)和代碼行為的假設(shè)。
- 記錄錯(cuò)誤:實(shí)施全面的日志記錄,捕獲關(guān)于錯(cuò)誤及其上下文的詳細(xì)信息。
- 引發(fā)異常:使用異常處理未預(yù)期的情況,并確保適當(dāng)處理。
- 快速失?。涸O(shè)計(jì)系統(tǒng)立即檢測(cè)和響應(yīng)錯(cuò)誤,必要時(shí)停止進(jìn)一步執(zhí)行。
- 工具和軟件包:
- 日志記錄庫:如Python的內(nèi)置日志記錄模塊,用于捕獲詳細(xì)的錯(cuò)誤信息。
- assert:Python中的assert語句,用于強(qiáng)制執(zhí)行條件。
- 錯(cuò)誤處理庫:如Python中的bulwark,用于執(zhí)行數(shù)據(jù)驗(yàn)證和假設(shè)。
- 測(cè)試庫:像pytest這樣的工具,編寫測(cè)試確保系統(tǒng)在無效條件下正確失敗。
設(shè)計(jì)系統(tǒng)以大聲失敗和快速失敗有助于及時(shí)捕捉和解決錯(cuò)誤,提高可靠性和可維護(hù)性。通過強(qiáng)制執(zhí)行假設(shè)并提供清晰的錯(cuò)誤消息,開發(fā)人員可以確保問題能夠有效檢測(cè)和解決。
規(guī)則7:從原始數(shù)據(jù)到最終輸出,項(xiàng)目運(yùn)行完全自動(dòng)化(Project Runs are Fully Automated from Raw Data to Final Outputs)
“即使人們記得這些步驟,他們也可能會(huì)自我安慰而跳過某些步驟。在復(fù)雜的過程中,畢竟,并不是所有的步驟總是很重要?!@以前從未成為問題,’人們會(huì)說。直到有一天它變成了問題?!?— Atul Gawande, 《The Checklist Manifesto/清單宣言》
這條規(guī)則強(qiáng)調(diào)了自動(dòng)化整個(gè)數(shù)據(jù)流水線的重要性,從原始數(shù)據(jù)到最終輸出,確保流程可重復(fù)、可靠,并能夠以最小的努力被任何人執(zhí)行。
- 為什么要遵循這條規(guī)則?
- 可重復(fù)性:確保整個(gè)過程可以重復(fù)執(zhí)行并得到相同的結(jié)果。
- 效率:通過自動(dòng)化重復(fù)性任務(wù)節(jié)省時(shí)間。
- 減少錯(cuò)誤:通過減少手動(dòng)步驟降低人為錯(cuò)誤的發(fā)生概率。
- 一致性:確保每次執(zhí)行都遵循相同的步驟,產(chǎn)生一致的結(jié)果。
- 如何實(shí)現(xiàn)這條規(guī)則?
- 使用構(gòu)建工具:實(shí)施類似GNU Make或Apache Airflow的工具來管理和自動(dòng)化數(shù)據(jù)流水線。
- 為每個(gè)步驟編寫腳本:創(chuàng)建用于數(shù)據(jù)提取、清洗、轉(zhuǎn)換、建模和報(bào)告的腳本。
- 自動(dòng)化環(huán)境設(shè)置:使用Docker或虛擬環(huán)境等工具確保可以重現(xiàn)分析環(huán)境。
- 文檔化過程:在README或類似文件中清晰記錄運(yùn)行流水線所需的步驟和命令。
- 持續(xù)集成:集成CI/CD工具,以便在代碼庫進(jìn)行更改時(shí)自動(dòng)運(yùn)行流水線。
- 工具和軟件包:
- Apache Airflow:用于編排復(fù)雜的數(shù)據(jù)流水線。
- GNU Make:管理構(gòu)建過程的簡單而強(qiáng)大的工具。
- Docker:用于容器化環(huán)境,確保在不同設(shè)置中的一致性。
- Vagrant:創(chuàng)建和配置輕量級(jí)、可重現(xiàn)和便攜式工作環(huán)境。
- Jenkins/CircleCI/GitHub Actions:CI/CD工具,用于自動(dòng)化運(yùn)行流水線。
自動(dòng)化從原始數(shù)據(jù)到最終輸出的整個(gè)數(shù)據(jù)流水線,確保了可重復(fù)性、效率和一致性。它減少了人為錯(cuò)誤的可能性,并使任何人都能輕松執(zhí)行流程,從而產(chǎn)生更可靠和可信的結(jié)果。
規(guī)則8:重要參數(shù)提取和集中管理(Important Parameters are Extracted and Centralized)
“明確優(yōu)于隱晦?!?— Tim Peters, 《The Zen of Python/Python之禪》
這條規(guī)則側(cè)重于在項(xiàng)目中集中和清晰定義重要參數(shù),而不是將它們分散到代碼中各處。這種做法提升了項(xiàng)目的清晰度、可重復(fù)性和修改的便捷性。
- 為什么要遵循這條規(guī)則?
- 清晰度:集中參數(shù)使得更容易理解項(xiàng)目的配置方式。
- 易于修改:在一個(gè)地方修改參數(shù)減少了不一致性和錯(cuò)誤的風(fēng)險(xiǎn)。
- 文檔化:集中的配置作為項(xiàng)目設(shè)置和參數(shù)的文檔。
- 可重復(fù)性:確保所有參數(shù)都被明確設(shè)置和跟蹤,使得結(jié)果更易重現(xiàn)。
- 如何實(shí)現(xiàn)這條規(guī)則?
- 使用配置文件:將參數(shù)存儲(chǔ)在一個(gè)中心化的配置文件中(例如 config.yml、settings.json)。
- 環(huán)境變量:對(duì)于敏感信息或在不同環(huán)境中可能變化的參數(shù),使用環(huán)境變量。
- 參數(shù)管理工具:使用能夠管理參數(shù)并強(qiáng)制保持一致性的工具。
- 文檔化參數(shù):在配置文件或單獨(dú)的文檔文件中清晰地記錄每個(gè)參數(shù)的作用和可能的取值。
- 集中訪問:確保所有需要訪問參數(shù)的代碼部分從集中化的配置中讀取參數(shù)。
- 工具和軟件包:
- YAML/JSON/TOML:配置文件的格式。
- ConfigParser:Python模塊,用于處理配置文件。
- dotenv:用于在 .env 文件中管理環(huán)境變量。
- Hydra:Python項(xiàng)目中管理配置文件的框架。
- Cerberus:Python中一個(gè)輕量級(jí)且可擴(kuò)展的數(shù)據(jù)驗(yàn)證庫。
集中和明確定義重要參數(shù),提升了數(shù)據(jù)科學(xué)項(xiàng)目的清晰度、可維護(hù)性和可重復(fù)性。將所有配置集中在一處使得修改更易管理,項(xiàng)目也更加易于理解和可靠。
規(guī)則9:項(xiàng)目運(yùn)行默認(rèn)詳細(xì),并生成實(shí)質(zhì)性產(chǎn)物(Project Runs are Verbose by Default and Result in Tangible Artifacts)
“在數(shù)據(jù)流水線運(yùn)行期間捕獲有用的輸出,使得很容易找出結(jié)果的來源,便于回顧和繼續(xù)上次的工作?!?— DrivenData
這條規(guī)則強(qiáng)調(diào)了使數(shù)據(jù)流水線運(yùn)行詳細(xì)化,并確保其產(chǎn)生實(shí)質(zhì)性的產(chǎn)物,記錄了整個(gè)過程和結(jié)果。
- 為什么要遵循這條規(guī)則?
- 透明度:詳細(xì)的日志和產(chǎn)物清晰地展示了結(jié)果如何獲得。
- 調(diào)試:詳細(xì)的輸出幫助識(shí)別問題出現(xiàn)的位置。
- 文檔化:自動(dòng)生成的產(chǎn)物作為記錄,有助于未來的重現(xiàn)和理解。
- 責(zé)任追溯:確保流水線的每一步都有記錄,便于審查和審計(jì)。
- 如何實(shí)現(xiàn)這條規(guī)則?
- 啟用詳細(xì)日志記錄:使用日志庫捕獲數(shù)據(jù)流水線每個(gè)步驟的詳細(xì)信息。
- 生成產(chǎn)物:確保每次運(yùn)行都生成產(chǎn)物,如日志、配置文件、中間數(shù)據(jù)集和最終結(jié)果。
- 時(shí)間戳和版本信息:在日志和產(chǎn)物中包含時(shí)間戳和版本信息,跟蹤隨時(shí)間的變化。
- 存儲(chǔ)產(chǎn)物:將產(chǎn)物保存在結(jié)構(gòu)化且易訪問的位置,如版本控制的目錄或云存儲(chǔ)桶中。
- 文檔化運(yùn)行:為每次運(yùn)行創(chuàng)建摘要報(bào)告,詳細(xì)描述采取的步驟、使用的配置和獲得的結(jié)果。
- 工具和軟件包:
- logging:Python的內(nèi)置日志模塊,用于捕獲詳細(xì)日志。
- MLflow:用于管理機(jī)器學(xué)習(xí)生命周期的工具,包括實(shí)驗(yàn)跟蹤、模型注冊(cè)和產(chǎn)物存儲(chǔ)。
- WandB:Weights & Biases,用于跟蹤實(shí)驗(yàn)和可視化結(jié)果。
- TensorBoard:用于可視化TensorFlow日志。
- 結(jié)構(gòu)化存儲(chǔ):如S3、Google Cloud Storage或Azure Blob Storage,用于存儲(chǔ)產(chǎn)物。
通過使項(xiàng)目運(yùn)行詳細(xì)化并確保產(chǎn)生實(shí)質(zhì)性的產(chǎn)物,可以提升透明度,便于調(diào)試,并提供全面的文檔記錄。這種做法使得理解、重現(xiàn)和建立在以前工作基礎(chǔ)上更加容易,從而提升數(shù)據(jù)科學(xué)項(xiàng)目的整體可靠性和效率。
規(guī)則10:從最簡單的端到端流水線開始(Start with the Simplest Possible End-to-End Pipeline)
“一個(gè)復(fù)雜系統(tǒng)的工作通常是從一個(gè)簡單工作的系統(tǒng)演變而來的。從頭設(shè)計(jì)的復(fù)雜系統(tǒng)從來都不會(huì)工作,并且不能通過補(bǔ)丁來使其工作。你必須從一個(gè)能工作的簡單系統(tǒng)開始?!?— Brian Kernighan 和 John Gall, Systemantics
這條規(guī)則強(qiáng)調(diào)了在逐步增加復(fù)雜性之前,從一個(gè)簡單且功能完整的端到端流水線開始的重要性。首先建立一個(gè)最小可行產(chǎn)品(MVP),能夠從原始數(shù)據(jù)處理到最終輸出,然后逐步增強(qiáng)和優(yōu)化。
- 為什么要遵循這條規(guī)則?
- 基礎(chǔ)建設(shè):建立一個(gè)工作的基準(zhǔn)線,確保流程的各個(gè)部分都能連接和正常工作。
- 迭代改進(jìn):允許逐步完善和優(yōu)化,減少引入錯(cuò)誤的風(fēng)險(xiǎn)。
- 專注:在深陷細(xì)節(jié)和優(yōu)化之前,幫助保持對(duì)主要目標(biāo)的關(guān)注。
- 靈活性:提供一個(gè)靈活的框架,可以根據(jù)需要進(jìn)行調(diào)整和擴(kuò)展。
- 如何實(shí)現(xiàn)這條規(guī)則?
- 定義最小流水線:確定從原始數(shù)據(jù)處理到最終輸出所需的基本步驟,并實(shí)施它們。
- 迭代開發(fā):從最簡單的實(shí)現(xiàn)開始,逐步添加功能、優(yōu)化和復(fù)雜性。
- 早期驗(yàn)證:確保每個(gè)流水線階段在進(jìn)入下一階段之前都能正常工作。
- 先用簡單工具:最初使用簡單且易理解的工具和方法,只有在必要時(shí)才引入更高級(jí)的技術(shù)。
- 文檔化過程:隨著每次迭代更新文檔,確保不斷演變的流水線仍然易于理解。
- 工具和軟件包:
- Make:用于簡單的構(gòu)建自動(dòng)化。
- Pandas:用于數(shù)據(jù)操作和初始數(shù)據(jù)處理。
- Scikit-learn:用于基本建模和機(jī)器學(xué)習(xí)任務(wù)。
- Jupyter Notebooks:用于原型設(shè)計(jì)和探索初始實(shí)現(xiàn)。
- Docker:用于創(chuàng)建可復(fù)現(xiàn)的環(huán)境。
從最簡單的端到端流水線開始,確保了一個(gè)堅(jiān)實(shí)的基礎(chǔ)進(jìn)行構(gòu)建。這種方法允許逐步開發(fā)和完善,確保每個(gè)新增功能都建立在一個(gè)經(jīng)過驗(yàn)證和功能完整的基礎(chǔ)上,從而降低復(fù)雜性并提高可維護(hù)性。
數(shù)據(jù)科學(xué)項(xiàng)目的成功不僅依賴于技術(shù)和算法,更依賴于良好的工作實(shí)踐和組織管理。通過遵循上述 10 個(gè)規(guī)則(最佳實(shí)踐),數(shù)據(jù)科學(xué)家和團(tuán)隊(duì)可以提高工作效率,確保項(xiàng)目結(jié)果的可靠性和可重復(fù)性,為企業(yè)創(chuàng)造更大的價(jià)值。這些規(guī)則不僅適用于數(shù)據(jù)科學(xué)項(xiàng)目,也適用于任何需要高質(zhì)量數(shù)據(jù)分析和處理的領(lǐng)域。希望這些最佳實(shí)踐能對(duì)您的工作有所幫助,并期待與您共同探討和改進(jìn)數(shù)據(jù)科學(xué)工作流程。
《The 10 Rules of Reliable Data Science》 下載地址:https://drivendata.co/insights