まゆこのましんラーニング♡#04

2015年9月7日

まゆこ

こんにちは、ITソリューション事業部のまゆこです。

先週は夏休みを利用して、友達と沖縄に行ってきました！

やっぱり沖縄の海はきれいでした！！
ホントいやされます(´-ω-`)
（まわりはカップルばっかでしたけど・・・）

ＧＯ☆「まゆちゃんおかえりんこ！　沖縄でもブログチェックしてた？」
まゆこ「もちろん！　ほらＧＯ☆さん、この写真見てくださいよ(^^)/」

ＧＯ☆「フーテンの？」
まゆこ「寅さんじゃないです」（似てますけど(｀3´)）
まゆこ「ブログはちゃんと沖縄でチェックしてましたよ！それにググって新しい例題見つけたんです！」

↓ここにいろんな例題が書いてあります。
https://cloud.google.com/prediction/docs/developer-guide

前回、ＧＯ☆さんは体重から身長を予想をしてましたが、
このページの「Structuring the Training Data」という例題も身長予測をしています。

ただ、分析するデータの種類（列）が複数ありますね。
そういえば、言語当ても、身長当ても、分析するデータの種類（列）は一つだけでした。
言語当ては「文章」のみ、身長当ては「体重」のみです。

ところがこの身長当ては、
「性別」「父親の身長」「母親の身長」「国籍」といった４種類のデータ（属性とします）を分析させてます。

なるほど、
身長は男女によって異なるし、遺伝もするし、国籍によっても異なります。
つまり相関関係があるってことですね。これは予測しやすいです！

投入するファイルフォーマットは以下のとおりです。
[身長(答え)],[性別],[父親の身長],[母親の身長],[国籍]

Excelを使って２万件作成しました。
国籍別、性別による身長のレンジを定義し、ランダム関数を使って多少ばらつきが出るようにつくりました。
つまり、[身長（答え）]と、[性別][父親の身長][母親の身長][国籍]の４属性に相関関係を持たせています。

それでは、予測してみます。
今回もRegression models（回帰モデル）なので、分析結果までは前回とだいたい同じです。
さて、早速予測してみましょう。

前回までは１属性しか入れませんでしたが、４属性を入れる場合ってどうするんでしょう？
↓このページの下の方にサンプルがあります。「Run a prediction against your model.」で検索するとそこにとびます。
https://cloud.google.com/prediction/docs/reference/v1.4/reference

{

"input":{

"csvInstance":["M", 1.59, 1.51,"France"]

}

なるほど、カンマで区切って並べればいいみたいですね。
「prediction.trainedmodels.predict」を実行してみます。
私がつくったデータはcm表記でしたので、下記のように入力します。

{

"input":

{

"csvInstance":

[

"M,175,165,france"

]

}

1 2	"outputValue": "73.839505"

ん！？　73cm？？
答えがおかしいですね。
ＧＯ☆さんのアドバイスで今度は縦に入れてみました。

{

"input":

{

"csvInstance":

[

"M"

"175"

"165"

"france"

]

}

すると、

1 2	"outputValue": "175.622356"

175cm！
これなら、うまくいったっぽいですね。
まゆこ「結局、横に並べるのと、縦に並べるの、どっちが正解なんですかね・・・？」
ＧＯ☆「うーん、これから検証していきましょ！」
まゆこ「はーい！」

おしまい♡

※この記事は、『株式会社ISAO　ITソリューション事業部』監修のもとに製作しております。

Colorkrew Blog

シゴトをたのしくするカラクリを、もっと。Colorkrewオフィシャルブログ

まゆこのましんラーニング♡#04

まゆこ

おすすめ記事

About Us

まゆこのましんラーニング♡#04

まゆこ

おすすめ記事

まゆこのましんラーニング♡#03

まゆこのましんラーニング♡#01

まゆこのましんラーニング♡#01