もぐら王国巣ごもりDXステップ講座情報ナビを眺める(´･ω･｀)

ちょっと前に巣ごもりDXステップ講座情報ナビを２つだけ観てみた(´･ω･｀)
　
　
　
　
　
　
　
　
　
　
　
　
　
　
　
　
　
機械学習に興味があるわけでもないのにな(・∀・)

とりあえず、初歩の初歩、ごっぐるのはじめてのAIを観た。これは元々短いのでそんなに時間がかからず。内容自体も入門向けで特に問題なく。AIとか機械学習ってこーゆーのかぁ的内容。

これは一日一時間前後の内容の動画が8日分あった…(ヽ'ω`)
元々セミナーをやった時の内容を流用したのかな？

前述の通り、それほど機械学習に興味があるわけでもなかったのと、途中で日雇い的なお仕事に行っていたのもあり、二週間以上かけてやっと終わらせた…＿|￣|○

結論から言えば、まあそれなりにはというか機械学習の触りの部分は体験出来たとは思う。

具体的にはKaggleのTitanic号のデータを使って、以下の機械学習のイロハを説明する内容であった。

Pythonの基礎
ライブラリ利用法 Numpy/Pandas
データの可視化 Matplotlib/Seaborn
データの前処理と保存
機械学習 scikit-learn

俺氏はちょっと前にPythonをいじろうとしてAnacondaを入れておいたので、Jupyter Notebookをそのまま使えたけど、完全な初心者だったら少し厳しいかもしれんな、これｗ
初見だとJupyter Notebookって使い方がわかりにくいし。

うちの環境のせいか、なんか上手く行かないところがあったなぁ…
dropna()しなきゃいけないところがあったかな？

あと途中で

ImportError: No module named 'pandas.core.internals.managers';
'pandas.core.internals' is not a package

とか言うエラーが発生した。

ぐぐったらpipでアップグレードしろって情報があった。
参考: 【エラー解決】pandas使用時に ImportError: No module named 'pandas.core.internals.managers' となる

そもそもpandasのバージョンがわからなかったので、やり方をぐぐる。
参考: pandasのバージョンを確認（pd.show_versions）

Anaconda promptでPythonを起動し、

import pandas as pd
print(pd.<strong>version</strong>)

で確認。

その後、

conda update pandas

をしたり、Anaconda自体をアップデートした。
参考: Anaconda経由でAnacondaやPandas、numpyなどのパッケージをアップデートする方法

一回、Jupyter Notebookを閉じて開き直さないと駄目なことに気づかずに若干時間を無駄にしたのは内緒(ﾉ∀`)

取り敢えず、アップデートしたら動いたが、本当にpandasのバージョンの問題だったのかどうかは不明ｗ

そう言えばあと正規表現のところで説明がちょっと違うというか不親切なような気がした。まあ正規表現の説明は機械学習の話で必須というわけではないからしょうがないのかもしれないが。

Match.group([group1, ...])
このマッチの 1 つ以上のサブグループを返します。引数が 1 つなら結果は 1 つの文字列です。複数の引数があれば、結果は引数ごとに 1 項目のタプルです。引数がなければ、 group1 はデフォルトで 0 (マッチ全体が返される) です。 groupN 引数が 0 なら、対応する返り値はマッチした文字列全体です。1 以上 99 以下なら、丸括弧による対応するグループにマッチする文字列です。グループ番号が負であるかパターン中で定義されたグループの数より大きければ、 IndexError 例外が送出されます。あるグループがパターンのマッチしなかった部分に含まれているなら、対応する結果は None です。あるグループがパターンの複数回マッチした部分に含まれているなら、最後のマッチが返されます。
re --- 正規表現操作

ということなので、

import re
def get_title(name):
    title_search = re.search(' ([A-Za-z]+).', name)
    if title_search:
        return title_search.group(1)
    return ""

というコードなら
title_search.group(0)なら、マッチした文字列全体である"Mr."などが返ってきて、
title_search.group(1)なら、マッチした文字列の内の一番目の括弧内の[A-Za-z]+に対応する"Mr"などが返ってくるという話もして欲しかったかな。
"."は括弧外だから返ってこないことや"\"でエスケープされてるのって話もちょろっとだけでもしてあげた方が初心者には親切かなぁ？

正直、俺氏もサンプルの


<blockquote>
  &gt;&gt; m = re.match(r&quot;(\w+) (\w+)&quot;, &quot;Isaac Newton, physicist&quot;)
  &gt;&gt; m.group(0)       # The entire match
  'Isaac Newton'
  &gt;&gt; m.group(1)       # The first parenthesized subgroup.
  'Isaac'
  &gt;&gt; m.group(2)       # The second parenthesized subgroup.
  'Newton'
  &gt;&gt; m.group(1, 2)    # Multiple arguments give us a tuple.
  ('Isaac', 'Newton')

を見てようやく理解できたということは内緒(ﾉ∀`)

勉強にはなったけど、若干、映像が古いのかpdfの内容と完全一致ではないところとかが気になった。あと、水分補給とかもせずに喋ってるせいか、痰切りみたいな音がしばしばあるのが気になった。新規に撮り下ろすか、その部分の音声を消去出来ないものだろうか(´･ω･｀)

続けて他のも観ようと思いつつ、そう言えば『マンガでわかる統計学入門』をセールで買って読んでいないことを思い出して読み始めるも、イマイチわかりにくかったので、結局、小中学生向けのなるほど統計学園の初級を見始める(ﾉ∀`)

e-statからデータを落として来て試そうと思うも、色々初心者レベルの部分でつまづくｗ

オプションの保護ビューのところを触らんと駄目なのか…
Excelの保護ビューを解除する方法

プロットエリアの大きさを変えればいいのか(ﾉ∀`)
エクセルで作ったグラフの右側の空白を狭めたい

乗算貼り付けなんて知らんかったわΣ(ﾟ∀ﾟ；)
文字列扱いになっている数字を数値へ一括で変換する方法

いつもテーブルの解除方法とか忘れて右往左往する(´･ω･｀)
テーブルを解除する

折れ線グラフも系列の上限が255と知らずに四苦八苦したりと全然俺氏Excel使いこなせないじゃんと落ち込む…(ヽ'ω`)

しかしなんで「なるほど統計学園」はデータのソース元へのリンクを貼っておかないんだろう？
せめてe-statの該当カテゴリまでのリンクでも貼っておけば、ユーザー側も試しやすいのに。何の為にExcelでの操作を記載してるのだろうか？

どうでもいいことだが、円グラフのページで"並び替え"が"並び変え"になってるな…(´･ω･｀)

もうちょっと色々触りつつ機械学習の勉強をしたいところではあるが、神経衰弱のアップデートもしたいし、仕事も探さないといけないしで時間とお金が足りないわ(´･ω･｀)

関連