本記事では、PythonのPandasデータフレームの列の結合について取り扱います。
データフレーム内の同じ行の異なる列を結合して新たな列を生成する手順を紹介します。
該当コード
import pandas as pd
df = pd.read_csv('data.csv')
シンプルな結合の場合
df["new_column"] = df["column1"] + df["column2"]
特定の文字列などを挟みたい場合
df["new_column"] = df["column1"] + "-" + df["column2"]
数値を文字列として結合したい場合
df["new_column"] = df["column1"].astype(str) + df["column2"].astype(str)
数値を文字列として結合したいけど、「1.0」とかが紛れ込んできてめんどくさい時
df["new_column"] = df["column1"].astype(int).astype(str) + df["column2"].astype(int).astype(str)
解説
Pythonのデータフレームは列同士の結合ができます。新しい列を指定すれば、列を新たに生成することもできます。
上記のようにdf[“列名”]+df[“列名”]で簡単に結合することができます。その際に列のデータ型に注意してください。
結合する列と列の間に、任意の文字列などを挟むことも可能です。ハイフンでつなげたり、アンダースコアでつなげたりすることもありますよね。そういった際に活用できます。
最後はデータ型を指定して結合する方法です。思いもよらないところで、意図しないことが発生したりはつきものですよね。暗黙的に処理させるのは、相性が悪いです。データ型も指定すれば確実に意図した処理をしてくれるはずです!
間違っていたり、もっとこうした方が良いなどありましたら、コメント等いただけますと励みになります。ぜひよろしくお願いいたします!
一人でも多くの方の参考になれば幸いです!
データサイエンティストの書評ブログ
趣味が読書くらいしかない駆け出しデータサイエンティストの書評ブログです。日々の勉強のアウトプットや趣味の読書のおすすめをしていきます。
コメント