[Introduction to Pandas] Tabular data and data analysis

Pythonプログラミング VTuber サプー

มุมมอง 106 466

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 30 ก.ย. 2024

ความคิดเห็น • 84

@dshiny9753 3 ปีที่แล้ว ⁺⁶
初コメ失礼します。今までたくさんのPandasに関する動画やブログの記事を観てきましたがサプーさんのこの動画が一番分かりやすかったですし、ためになりました。
やっぱり女の子と黒板の説明が取っ付きやすいのかな？とも感じました。
2日かけて動画を観たのでお腹いっぱいなのですが、まだ後編があるということなので頑張ります！
@pythonvtuber9917 3 ปีที่แล้ว ⁺¹
コメントありがとうございます！！分かりやすさを重視して動画を作っているので、そう言ってもらえて嬉しいです😊
後編もちょっとボリュームが多い動画になってますが、ぜひ見てみてください！
@arisalin1874 8 หลายเดือนก่อน ⁺³
私もパイソン入門してすぐ挫折しかけましたが、こちらの動画で救われました。ありがとうございます。
@ばななマン-z2d ปีที่แล้ว ⁺¹¹
とても分かりやすかったです。
pandasでくじけそうになっていたところをこの動画で救われました。
ありがとうございます。
@pythonvtuber9917 ปีที่แล้ว ⁺¹
Pandasは慣れるまでは難しいですよね。。。お役に立てていたら嬉しいです！！
@hiroyukiyonekura6724 2 ปีที่แล้ว ⁺¹
Pythonの勉強を始めて4週間の超超初心者です。
サプーさんの動画を頼りにPandasでエクセルデータの抽出にトライしています.
Pandasで読み込んだデータフレーム：df のカラム：ABC　から、ある文字列：XXX　を含む行を抜き出したいのですが、　この文字列XXXの内容をリスト変数；list から1要素づつ読み込んでfor文で繰り返し表示させるにはどのようにコーディングすればよろしいでしょうか？　
df.query(’ABC’.str.contains( “XXX” )’))
下記のようなコードを書いてみたのですが、エラーになって動かず、、色々と試してみたのですが解決方法
がわからず、、　よろしくお願いいたします。
list＝[ ’xー1’ , ’xー2’ , ’xー3’ ]
for i in list:
print(df.query(’ABC’.str.contains( i )’))
@pythonvtuber9917 2 ปีที่แล้ว
ご質問ありがとうございます。
エラー文はどのようなものでしょうか？
エラー解消については別に動画をあげているので、合わせてご確認ください。
th-cam.com/video/n-CEndcgAFY/w-d-xo.html
@hiroyukiyonekura6724 2 ปีที่แล้ว ⁺¹
ご返信ありがとうございます。　エラーは name 'i' is not defined だったのですが、色々と調べていたら、@マークをつけて　contains(@i) とすることで変数を引き込んで評価することができました。
@kunime-ji5066 9 หลายเดือนก่อน
いつも分かりやすいチュートリアルをありがとうございます。excelの肩を持つ訳では無いですが、excelのパワークエリは同じ形式のデータ結合ができるのでデータを定期的に吐き出すようにしているプラントのデータ結合には重宝しています。学術系のような膨大なデータを使う条件でない場合はexcelも強力なツールです。
@ipg4140 2 ปีที่แล้ว ⁺¹
初コメ失礼します。
プログラミングスクール受講者です。本当に分かりやすい動画を本当にありがとうございます。
pandasで演算・加工に困っており、動画視聴で解決できました。ありがとうございました。
@pythonvtuber9917 2 ปีที่แล้ว ⁺¹
ご視聴いただきありがとうございます！
Pandasの動画がお役に立てていたら嬉しいです😊
@横尾龍起 2 ปีที่แล้ว ⁺¹
分かりやすい動画ありがとうございます。
NumPyについての解説動画も、よければぜひお願い致します。
@pythonvtuber9917 2 ปีที่แล้ว
コメントありがとうございます😊
Numpyの動画ですね！検討してみます😉
@成出鈴木 ปีที่แล้ว
初めまして user_data.xlsxのファイルはどこにありますか?
@淀川謙次 ปีที่แล้ว
丁寧な説明をありがとうございます。　
データの行でデフォルトでつくkey-IDが、’001’,'002','003'と説明されていますが、今は、0, 1, 2と振られているようです。
@mm839 ปีที่แล้ว ⁺¹
Pythonを使ったExcel操作について調べていたところ当動画に出会いました！
説明が非常にわかりやすいです！ありがとうございます！
@pythonvtuber9917 ปีที่แล้ว
ご視聴いただきありがとうございます！Pandasの理解のお役に立てていたら嬉しいです！
@syst2019 ปีที่แล้ว
他の動画よりも断然丁寧でわかりやすかったです！ありがとうございました。あえて質問させていただきますと、numeric_onlyのところが突然出てきたので、わかりませんでした。数値だけ拾うという意味だと思いますが。
@jpnfriend 2 ปีที่แล้ว
私はVSCodeで下記Codeを実行するとエラーが出た。
import pandas as pd
df= pd.read_excel("test.xlsx")
print(df)
ミス内容は：
ImportError: Missing optional dependency 'openpyxl'. Use pip or conda to install openpyxl.
私は上記のCodeでJupyterLabにて実行するのはOKです。
私は pip install openpyxlを実施してもう一度VSCodeで上記のCodeを実施してみてまだ出来ない。
原因は何かわかりません。解ったら教えてください。
@pythonvtuber9917 2 ปีที่แล้ว ⁺¹
VS Codeで設定しているインタープリタは何になっていますでしょうか？
pip でインストールしている環境とVS Codeで指定しているインタープリタの環境が異なるのではないかな？と思いました！あとはcondaとpipが共存して、間違った方をみているとか....🤔
@jpnfriend 2 ปีที่แล้ว
@@pythonvtuber9917 解決方法は:
Copy folder from C:\Users\user\anaconda3\Lib\site-packages:
folder : et_xmlfile
folder: et_xmlfile-1.1.0-py3.9.egg-info
folder: openpyxl
To folder: C:\Users\user\AppData\Local\Programs\Python\Python310\Lib
@伊計寛 2 ปีที่แล้ว
Pythonプログラミング VTuber サプーさん、
こんにちは。初めまして。
いつもPythonの学習をしているものですが、
PandasのExcelファイルの読み込みが”ImportError”となり、
読み込みができません。
原因は何でしょうか？
すべてのパッケージインストールやPythonで扱うものすべてしましたが、
できません、
TH-cam動画でも構いませんので、
ご返答の程、よろしくお願いします。
@pythonvtuber9917 2 ปีที่แล้ว
ご質問ありがとうございます😊
ImportErrorとのことですが、その後にどのようなエラー文が表示されましたか？
ちなみに、エラー解消については動画を出しているので、良ければ見てみてください😉 ▶︎ th-cam.com/video/n-CEndcgAFY/w-d-xo.html
@appe4577 ปีที่แล้ว
一番最初のo型の人数はどのようなコードになりますか？？
@hidekose 3 ปีที่แล้ว ⁺¹
DataFrameとSeriesの関係が良く分かりました。ちなみに、Series (1次元)のデータを処理する事はあるのでしょうか。
@pythonvtuber9917 3 ปีที่แล้ว ⁺¹
ご視聴いただき、ありがとうございます！
Seriesだけでデータを扱うことはあまりないですね！DataFrameを加工するときに、一時的にSeriesにしたり、Seriesを結合させてDataFrame作る、といったケースでSeriesを使うことが多いです😉
@hidekose 3 ปีที่แล้ว
@@pythonvtuber9917
ありがとうございます。
@user-ek7qy2pt6g 2 ปีที่แล้ว
vscodeでpythonを使っています。pandas をインストールしようとして動画内のコードを打ち込んでみたのですが、SyntaxError: invalid syntaxと表示されてしまいインストールできないのですが何か原因があるのでしょうか？
@pythonvtuber9917 2 ปีที่แล้ว ⁺³
ご質問ありがとうございます😊
「pip install pandas」のコマンドはコマンドラインツール上で行っていますでしょうか？
以下の動画の 5:22 あたりで、外部ライブラリを使うための pip install の説明をしているので、よければ見てみてください！
モジュール・パッケージ ▶︎ th-cam.com/video/aXnB3Cm__-o/w-d-xo.html
@ゲーム日記-s2u 2 ปีที่แล้ว ⁺¹
今回もとても参考になりました。
いつもわかりやすい動画をありがとうございます。
@pythonvtuber9917 2 ปีที่แล้ว
ご視聴いただきありがとうございます😊
Pandasは長くて見るのが大変だったかと思いますが、お役に立てていたら嬉しいです！
@ぴよぴよ-x3s ปีที่แล้ว
python動画の中で一番わかりやすいので質問させていただきます。
read_excel()で読み込む表の位置が変動する場合についてご存知でしたら教えて下さい。
例えば，読み込むExcelのsheet1に3つの表が縦に並んでいて
それぞれの表(表1, 表2, 表3)の行数が変動する場合についてです。
それぞれの表の行数が固定ならば
read_excel()の引数に「header」「skiprows」等を使えばうまくいくことはできました。
しかし，行数が変動する場合の対応方法がわからず困っています。
もしご存知でしたら教えて下さい。
※VBAならば「.End(xlup)」等で変動する表でも対応できるのですが...
よろしくお願いします。
@pythonvtuber9917 ปีที่แล้ว
デフォルトだとデータがある行まで読み込むと思うのですが、それだと困るということでしょうか？
シートに100行までデータがあれば100行まで読み込むし、200行までデータがあれば200行まで読み込んでくれる認識です。
@ぴよぴよ-x3s ปีที่แล้ว
@@pythonvtuber9917
コメントありがとうございます。
以下例で表1〜3の行数が変動する場合，表3を読み込むことは可能でしょうか？
表1と表2の行数が固定ならばできましたが変動する場合できず悩んでいます。
例：Excelのsheet1に表が3つ縦に並んでいる。
表1：1〜10行目
表2：12~20行目
表3：22〜30行目
@すん-v9u 2 ปีที่แล้ว
はじめまして。いつも勉強させていただいています、大変有益な配信をありがとうございます。
実際に実務にPandasを使用しようとしていて、1つご教授いただけないでしょうか。
csvを読み込み、必要なdataframeを抽出するところまではできたのですが、csv内の数値データが指数表記になっており、pandasから出力した段階で文字列になってしまいます。
csvを読み込んだ後のdataframe内の指数データを数値データに置き換える方法を教えていただけないでしょうか。
@すん-v9u 2 ปีที่แล้ว ⁺¹
.astype('float')でできました。すみませんでした。
@pythonvtuber9917 2 ปีที่แล้ว
ご質問ありがとうございます😊
解決できたようで何よりです！！
@TaroHiro 3 ปีที่แล้ว
いつも大変勉強させていただいており、ありがとうございます。。
よろしければ教えていただけませんでしょうか。
【条件でデータを抽出／ブールインデックス】のご説明の中で、
抽出結果のインデックスの数を取り出したいのですが
、その方法を教えていたけませんでしょうか？
例えば、動画中（２０分５３秒付近）では、血液型がＯ型の人は２人ですが
df[df["血液型"] == "O"]
これを実行後に 2 を取得するにはどうしたら、よろしいでしょうか？
@pythonvtuber9917 3 ปีที่แล้ว ⁺²
ご質問いただきありがとうございます！
疑問点は、抽出結果のデータフレームが何件あるか知りたい、と言うことでよろしいでしょうか？
この動画で説明できてなかったのですが、len()関数を使うとデータフレームの件数がわかります。
なので、len(df[df["血液型"] == "O"])で血液型がO型の人の人数がわかります😉
@TaroHiro 3 ปีที่แล้ว ⁺¹
ご返信ありがとうございます。Pandasでいろんな事ができそうな気がしてきました。
@イーロンマスクメロン-y5y 2 ปีที่แล้ว
ブールインデックスの条件式にorやandじゃなくてわざわざ&や|を使うのはなぜですか？
@pythonvtuber9917 2 ปีที่แล้ว
私からはPandasの仕様がそうなっているからとしか言えないのですが、Pandasの中身を解析したら何か分かるかもですね！
@TaroHiro 2 ปีที่แล้ว
いつもいろいろ質問してすみません。
【17:44 条件でデータを抽出】の中でお教えていただけませんでしょうか。
動画中で『２０才以上の人』を抽出していますが、抽出結果の名前だけをpython上の変数に格納するにはどうしたらよろしいでしょうか？
ｄｆの形（行）ではなく、佐藤、斎藤、田中を取得したいです。
@pythonvtuber9917 2 ปีที่แล้ว ⁺²
ご質問、ありがとうございます😊
質問の意図と合っているか分からないのですが、20歳以上の人の名前を1つずつ変数に代入するには、カラム名とilocで指定してあげたら良いと思います！
user1 = df[df['年齢'] >= 20]['名前'].iloc[0]
user2 = df[df['年齢'] >= 20]['名前'].iloc[1]
user3 = df[df['年齢'] >= 20]['名前'].iloc[2]
このように書くと、user1は佐藤さんの文字列が取得できるし(dfの1番上のデータの名前)、user2は斎藤さん、user3は田中さんが取得できます！
ちなみに、以下のようにto_list()を使うと名前をリストとして取得できます😉
user_list = df[df['年齢'] >= 20]['名前'].to_list()
@TaroHiro 2 ปีที่แล้ว
いつも素人質問に的確にご返信いただき感謝しています。
今回はご回答の.to_list()で解決できました。
ありがとうございました。
@ガンダムF91-l6b 2 ปีที่แล้ว
ある一定期間の合計を求めたい場合はブールで期間を指定することも出来ますか？
@pythonvtuber9917 2 ปีที่แล้ว
ブールインデックスで期間を指定して、一部だけ抽出することは出来ます！
@俵耕一-x8c 2 ปีที่แล้ว
Pandasを使って差文法プログラムを作成が可能ですか？
@pythonvtuber9917 2 ปีที่แล้ว
差文法プログラムというものを初めて聞きました😵 質問にお答えできず、申し訳ないです...
@boost-xl2fj 2 ปีที่แล้ว ⁺¹
👍わかりやすい
@pythonvtuber9917 2 ปีที่แล้ว ⁺¹
ありがとうございます😊
@TaroHiro 3 ปีที่แล้ว
【条件でデータを抽出／ブールインデックス】のご説明の中で、住所が〇〇県の人を抽出する事は可能でしょうか。
または、columnsを指定して特定文字列（ここでは【県】）が含まれない(!=)rowを抽出できますでしょうか？
@pythonvtuber9917 3 ปีที่แล้ว ⁺²
はい！両方できますよ😊
① 住所に「県」を含む人の抽出方法 → df[df['住所'].str.contains('県')]
② 住所に「県」を含まない人の抽出方法 → df[~df['住所'].str.contains('県')]
です！②はチルダが含まれています。チルダで否定を表します😉
@TaroHiro 3 ปีที่แล้ว
早速のご回答ありがとうございます。助かりました。
@TheDevilmakun 2 ปีที่แล้ว
すみません。初学者なのですがpythonとanacondaをインストールしてviscoseを使う動画を見て自分なりにやったのですがコマンド pip install pandas でinstallに invalid syntax errorが出てしまいます。対処法がわかりません。宜しくお願い致します。
@pythonvtuber9917 2 ปีที่แล้ว
ご質問ありがとうございます😊
この件ですが、pandasのインストール中にinvalid syntax errorが出るのでしょうか？それともPython上でPandasのコードを書いて動かしたときに出力されるのでしょうか？エラー文ですが詳細な情報も出力されていると思うので、その情報もいただけると解決に向けて、もう少し明確な回答ができるのではないかと思います！
@TheDevilmakun 2 ปีที่แล้ว
@@pythonvtuber9917
返信ありがとうございます。
vscode に　pip install pandasを実行しても何も進んでいない状態です。
installに波線が引いてあってsyntax error: invalid syntaxとターミナル上で出てきます。
ターミナルの反対側にある問題という部分をクリックするとstatements must be separated by new lines or semicolonsが2文
とpip,install,pandasそれぞれに is not defined と書かれてあります。
こんな感じの報告で良いでしょうか？
宜しくお願い致します。
@pythonvtuber9917 2 ปีที่แล้ว
詳細な状況を教えていただき、ありがとうございます！
「pip install pandas」のコマンドは VS Codeの上部のメニューの[ターミナル] - [新しいターミナル]を押してターミナルを起動し、そこでコマンドを入力してエンターを押してinstallする必要があります。ひょっとしたら間違えてコードを記載するエディタの部分にpip installのコマンドを記載しているんじゃないかな？と思ったのですが、いかがでしょうか？
@TheDevilmakun 2 ปีที่แล้ว
@@pythonvtuber9917
ターミナルに直接入力したら出来ました！
ご指摘の通り自分のテキストファイルにコマンド入力していたみたいです。助かりました。ありがとうございます。
@taroyamaguchi7791 2 ปีที่แล้ว
プログラミング初心者です。サプーさんの動画で勉強しています。
質問です。pandasをpythonで使おうとするとpandasの下に波線が現れエラーになります。
jupyter labでは普通に使うことができます。なにか解決方法があるのでしょうか。
使用しているOSはubuntuです。
@pythonvtuber9917 2 ปีที่แล้ว
ご質問ありがとうございます😊
pandasですが、お使いの環境にインストールされてますでしょうか？またエラーになるとのことですが、どのようなエラーが出力されますか？
@taroyamaguchi7791 2 ปีที่แล้ว
@@pythonvtuber9917 早速のご返事ありがとうございます。画面中ご支持の通りterminalにpip~を打ち込むと　Requirement already satisfied:pandas~が表示されます。また、error表示はpandasの下線部に波線で表示されます。ちなみにvscodeでpythonを使っています。
@pythonvtuber9917 2 ปีที่แล้ว
エラーは実行時には出ない感じですかね🤔？エディター上で波線が出ているだけなら、エディター側がPythonの環境を認識してないだけな気がします！
VS Codeは詳しくないのですが、PythonのExtention(拡張機能)を入れて、インタープリターを認識させてあげれば良い気がするのですが、こちらは対応済みでしょうか？
@taroyamaguchi7791 2 ปีที่แล้ว
@@pythonvtuber9917 返事が遅くなり、申し訳ありません。インタープリターを探すのに手間がかかってしまいました。パイソンの表示→コマンドパレットからインタープリターを選択すると波線が出なくなり、pandasを認識するようになりました。いろいろありがとうございました。youtube楽しみにしています。
@そらまめ-r8y 2 ปีที่แล้ว
初歩的な質問で恐縮ですが教えて下さい。コマンドプロンプトで「.py」のファイルを実行してもデータフレームが作成されずエラーになるのですが、
「pandas」のinstallした場所や、「python」や「.py」や「.xlsx」のファイルとの場所の関係を教えていただいて良いでしょうか？
なお、「python」や「.py」や「.xlsx」は同じ場所にあり、「pandas」はさらに深い階層にあります。また、エラーは次のとおりです。[Errno 2] No such file or directory
@pythonvtuber9917 2 ปีที่แล้ว ⁺²
ご質問いただきありがとうございます！
Pythonのスクリプトファイルから見て、開きたいExcelファイルのパスが正しくないようですね😵
PythonのインタプリタやPandasのインストールフォルダのディレクトリはこのエラーとは無関係だと思います。
もしも実行しているPythonスクリプトと、Excelファイルを同じフォルダ内に入れている場合、念の為 read_excel() の引数を以下のように指定してもらえますか？また、Excelファイルの拡張子までファイル名が完全に一致しているかも念の為、ご確認ください😉 (古いエクセルの為に.xlsとかになっていないか？など)
1 Macの場合 pd.read_excel('./ファイル名') → ドット+スラッシュをつける
2 Windowsの場合 pd.read_excel('.\ファイル名') → ドット+バックスラッシュをつける
@そらまめ-r8y 2 ปีที่แล้ว
@@pythonvtuber9917
素早い助言ありがとうございます。実行しましたが次のエラーがでました。
raise ImportError(msg) from None
ImportError: Missing optional dependency 'openpyxl'. Use pip or conda to install openpyxl.
なお、python.スクリプトは次のとおりです。また、excelファイルを「Book1.xlsx'」名でスクリプト、pythonと同じ場所に保存しています。
手順としては、コマンドプロンプトでスクリプトファイルがある場所にcdしてから、下のファイル名「code.py」をpython code.pyで実行しています。
import pandas as pd
df=pd.read_excel('.\Book1.xlsx')
print(df)
@pythonvtuber9917 2 ปีที่แล้ว ⁺³
あー！pandasでExcelを扱うときはopenpyxlのインストールが必要なんでしたね...動画内で説明が抜けてたかもしれません...すみません😵
お使いの環境にopenpyxlをインストールしてください！いつもpipでインストールしていたら、「pip install openpyxl」でインストールできます😉
@そらまめ-r8y 2 ปีที่แล้ว ⁺¹
「pip install openpyxl」インストールしたら表示されました。ご親切にありがとうございました。
なお、以前anacondaをインストールしていた？ので、エラーメッセージではopenpyxlのインストールを促されましたが、必要ないのかと思ってました(;'∀')
これからも、たびたび質問することがあると思いますが、温かい目でみていただけると幸いです。
@PeterPeter-cn9gu ปีที่แล้ว
速習の入門動画を毎日学習して終えられたので、次はこの動画を毎日学習します！
対戦よろしくお願いします。
@pythonvtuber9917 ปีที่แล้ว
ご視聴いただきありがとうございます！！
少しでも学習のお役に立てていたら嬉しいです😊
@TaroHiro 2 ปีที่แล้ว
いつもすみません。よろしければ教えていただけませんでしょうか？
Index0の200とIndex1の195を引き算した結果の5を
Index0のNaNに代入（書き換え）をしたいです。←※印のところ。
Price Discout % Remarks
0 2000 200 10.0 NaN 　←※
1 1850 195 10.5 NaN
常に(Index0の列Discout) - (Index1の列Discout)の結果をIndex0の列Remarksに代入したいです。
ilocを使って、200や195を取得するところまでできるのですが
その引き算と指定場所のNaNの書換えの実現方法がわかりません。
よろしくお願いします。
@pythonvtuber9917 2 ปีที่แล้ว
ご質問ありがとうございます😊
データ取得と同じように、locやilocを使用してイコールで代入したら良いかと思います！もしも、意図として複数ある行に対して「一つ下の行のデータとの差分を入れたい」のであればpandasのdiffメソッドやshiftメソッドを使うのもおすすめです😉
========ご参考========
df.loc[0, 'Remarks'] = df.loc[0, 'Discout'] - df.loc[1, 'Discout']
@TaroHiro 2 ปีที่แล้ว
ありがとうございます。なんとなくやり方が分かってきました。
ちなみに、下記のように iat や at を使ったとしてvalue_deltaをｄｆ形式でない変数で取得できるように見えますが、取得後にNaNを書き換えるのはどのようにしたらよろしいでしょうか。
value0 = df.iat[0,3]　 or df.at[0,"Discout"]
value1 = df.iat[1,3]　 or df.at[1,"Discout"]
value_delta = value0 - value1
何度もすみません。よろしくお願いします。
@pythonvtuber9917 2 ปีที่แล้ว
Nanに置き換えるのは、先ほどと同じようにlocなどで指定してイコールでnumpyの np.nanを代入したら良いかと思いあます😉 例 ) df.loc[1, 'Discout'] = np.nan
@TaroHiro 2 ปีที่แล้ว
徐々に理解できるようになってきました。ありがとうございました。
@TaroHiro 2 ปีที่แล้ว
hensuu = 300　から
インデックス番号 0 ～ 200 で、値は全て 300 のデータフレーム(１列だけ)を作りたいです。
どのように記述したらよいでしょうか？
お正月早々すみません。🐯よろしければお教えていただけると有り難いです。
@pythonvtuber9917 2 ปีที่แล้ว
ご質問ありがとうございます😊
以下のような感じでしょうか?? xxxはお好きなカラム名をつけたらOKかと思います😉
==================
hensuu = 300
df = pd.DataFrame({'xxx': hensuu}, index=range(201))
@TaroHiro 2 ปีที่แล้ว
ありがとうございます。🤩
@はげやまとおる 2 ปีที่แล้ว ⁺¹
colaboratoryはコラブかクラバートリィって読むと読みやすいです。
@pythonvtuber9917 2 ปีที่แล้ว ⁺¹
👍

ต่อไป

เล่นอัตโนมัติ

【Pythonプログラミング】Pandasの基本 (後編) 〜表形式データ・データ分析〜初心者向けのDataFrameの操作入門！