下流タスク用のデータの準備には多くの時間がかかります。データ クリーニング、欠損値の処理、特徴量エンジニアリング、データの前処理または後処理が含まれるかどうかに関係なく、このフェーズには多くの時間がかかります。 そこで、私は、他の 2 つの列のデータに基づいて既存の列から値を抽出して、Pandas DataFrame に新しい列を作成する必要がある後処理タスクに取り組んでいました。 LLM に直接コードを書いてもらうこともできましたが (いつもそうしています)、今回は自分で書きたいと思いました。朝だったので頭もすっきりしていたので、複雑なデータ操作を処理する気分でした。 これが私がしなければならなかった事です。データフレームがありました predicted_categories、 pred_category_idそして text_predicted_probs カラム。 の値 predicted_categories 列には、「category_id」から「category_description」の形式で 5 つのカテゴリがリストされます。…
Read More



