コンテンツにスキップ

Farmnote gene

生データ

生データ

全体の検討事項

マッピングのマスタ化
日付のUTC化

calving_data_normarize.py

入力フォルダ

raw-data/XXXXXX/breeding_leader_web

対象ファイル

calving_listを先頭に持つ複数ファイル

入力Excel(SJIS) -> 出力CSV(UTF8)

pandasでExcelファイルを読み込む
行頭ヘッダの日本語を英語に変換(マッピングデータあり）
空行をスキップ
個体識別番号が3カラムに分割されているため結合
分娩日はデータのYYYY-MM-DD 00:00:00として保存(JST)
calving.csvとして保存

dhi_data_normarize.py

入力フォルダ

raw-data/XXXXXXX/breeding_leader_web

対象ファイル

dhi_checkを先頭に持つ複数ファイル

入力Excel(SJIS) -> 出力CSV(UTF8)

pandasでExcelファイルを読み込む
空行をスキップ
行頭ヘッダの日本語を英語に変換(マッピングデータあり）
分娩日と最終受精日はデータのYYYY-MM-DD 00:00:00として保存(JST)
ファイル名より年月を抽出
herd_testフォルダに年月日.csvとして保存
産子性別がマルチバイト（死産、♂、♀)

breeding_data_normarize.py

入力フォルダ

raw-data/XXXXXXX/breeding_leader_web

対象ファイル

edit_chardataを先頭に持つ一つのファイル

pandasでExcelファイルを読み込む
行頭ヘッダの日本語を英語に変換(マッピングデータあり）
個体識別番号が3カラムに分割されているため結合
分娩日はデータのYYYY-MM-DDとして保存(JST)
all_historical_individual.csvとして保存
性別がマルチバイト（死産、♂、♀)

Info

ソースの注意事項 1ファイルのみが置いてある仕様になっている。複数ファイルの検討が必要か考える。

quicklist_data_normarize.py

入力フォルダ

raw-data/XXXXXXX/breeding_leader_web

対象ファイル

quicklistを先頭に持ち途中にikusei若しくはkeisanという文字列があるファイル
どちらもファイルは一つ

pandasでExcelファイルを読み込む
行頭ヘッダの日本語を英語に変換(マッピングデータあり）
個体識別番号が3カラムに分割されているため結合
ファイル名の途中の文字列に合わせてファイルを保存
- ikuseiの場合は、quicklist_ikusei.csv
- keisanの場合は、quiicklist_keisan.csv