pandas 3.0のpipe()とメソッドチェーンで作る再利用可能なデータクリーニングパイプライン
pandas 3.0のpipe()メソッドとメソッドチェーンで、再利用可能なデータクリーニングパイプラインを構築する方法を実践コード付きで解説。欠損値・外れ値処理からscikit-learnのColumnTransformerとの連携まで網羅します。
Daniel is a staff data engineer with 13 years across fintech and logistics. He spent four years at Plaid building the transaction-enrichment pipeline (Python + Kafka + Snowflake), three years before that at Flexport on the freight-visibility data platform, and started his career at IBM doing DB2 performance work he still grudgingly draws on. He writes about the gluework of modern Python data stacks: Prefect 2 flow design, dbt run orchestration from Python, Pydantic-based contract validation between Bronze and Silver layers, and the operational realities of running polars in containers with strict memory limits. He has contributed patches to dbt-core and to the prefect-snowflake integration. Daniel is based in Lagos and Lisbon depending on the quarter, holds AWS Solutions Architect Professional, and writes a small newsletter about data-platform postmortems.
pandas 3.0のpipe()メソッドとメソッドチェーンで、再利用可能なデータクリーニングパイプラインを構築する方法を実践コード付きで解説。欠損値・外れ値処理からscikit-learnのColumnTransformerとの連携まで網羅します。
matplotlib 3.10の新機能(petroff10カラーサイクル、Colorizer)、seabornの統計グラフ、pandasとの連携、ML評価可視化、Plotlyインタラクティブグラフまで、Pythonデータ可視化の実践テクニックをコード例付きで解説します。