生データ
全体の検討事項
- マッピングのマスタ化
- 日付のUTC化
calving_data_normarize.py
入力フォルダ
raw-data/XXXXXX/breeding_leader_web
対象ファイル
calving_listを先頭に持つ複数ファイル
入力Excel(SJIS) -> 出力CSV(UTF8)
- pandasでExcelファイルを読み込む
- 行頭ヘッダの日本語を英語に変換(マッピングデータあり)
- 空行をスキップ
- 個体識別番号が3カラムに分割されているため結合
- 分娩日はデータのYYYY-MM-DD 00:00:00として保存(JST)
- calving.csvとして保存
dhi_data_normarize.py
入力フォルダ
raw-data/XXXXXXX/breeding_leader_web
対象ファイル
dhi_checkを先頭に持つ複数ファイル
入力Excel(SJIS) -> 出力CSV(UTF8)
- pandasでExcelファイルを読み込む
- 空行をスキップ
- 行頭ヘッダの日本語を英語に変換(マッピングデータあり)
- 分娩日と最終受精日はデータのYYYY-MM-DD 00:00:00として保存(JST)
- ファイル名より年月を抽出
-
herd_testフォルダに年月日.csvとして保存
-
産子性別がマルチバイト(死産、♂、♀)
breeding_data_normarize.py
入力フォルダ
raw-data/XXXXXXX/breeding_leader_web
対象ファイル
edit_chardataを先頭に持つ一つのファイル
- pandasでExcelファイルを読み込む
- 行頭ヘッダの日本語を英語に変換(マッピングデータあり)
- 個体識別番号が3カラムに分割されているため結合
- 分娩日はデータのYYYY-MM-DDとして保存(JST)
-
all_historical_individual.csvとして保存
-
性別がマルチバイト(死産、♂、♀)
Info
ソースの注意事項 1ファイルのみが置いてある仕様になっている。複数ファイルの検討が必要か考える。
quicklist_data_normarize.py
入力フォルダ
raw-data/XXXXXXX/breeding_leader_web
対象ファイル
quicklistを先頭に持ち途中にikusei若しくはkeisanという文字列があるファイル
どちらもファイルは一つ
- pandasでExcelファイルを読み込む
- 行頭ヘッダの日本語を英語に変換(マッピングデータあり)
- 個体識別番号が3カラムに分割されているため結合
- ファイル名の途中の文字列に合わせてファイルを保存
- ikuseiの場合は、quicklist_ikusei.csv
- keisanの場合は、quiicklist_keisan.csv