統計解析を行う上で欠かせないのがデータセットと呼ばれるデータの集まりです。オープンデータと呼ばれてたりもします。
R言語にはサンプルのデータセットがインストールされます。
サンプルデータセットについての詳細は以下のサイトに紹介されています。
https://stat.ethz.ch/R-manual/R-patched/library/datasets/html/00Index.html
ただし、すべて英語なので翻訳した内容をこの記事で紹介します。
R言語のデータセット一覧
データセット名 | 内容 |
---|---|
ability.cov | 能力テストと知能テスト(112人が6つのテストを受けた結果) |
airmiles | 1937年から1960年までの米国民間航空会社の旅客マイル |
AirPassengers | 1949年から1960年までの月間航空旅客数 |
airquality | 1973年5月から9月までのニューヨークの毎日の大気質測定 |
anscombe | 伝統的な統計的特性(平均、分散、相関、回帰直線など)が同じだが、全く異なる4つのx-yデータセット |
attenu | カリフォルニア州で発生した23の地震について、各観測点で測定されたピーク加速度を示している |
attitude | 大手金融機関の事務職員を対象としたアンケート調査から、約35名の職員を対象に、無作為に抽出した30の部署ごとのアンケートを集計したもの |
austres | 1971年3月から1994年3月までの四半期ごとに測定されたオーストラリア居住者の数(単位:千人) |
beaver1 | 二匹のビーバーの体温シリーズ。ウィスコンシン州北部中央部のビーバーの長期的な体温動態の研究のごく一部を記述している |
beaver2 | 二匹のビーバーの体温シリーズ。ウィスコンシン州北部中央部のビーバーの長期的な体温動態の研究のごく一部を記述している |
beavers | 二匹のビーバーの体温シリーズ。ウィスコンシン州北部中央部のビーバーの長期的な体温動態の研究のごく一部を記述している |
BJsales | 売上データと先行指標。販売時系列BJsalesと先行指標BJsales.leadは,それぞれ150個のオブザベーションを含む |
BJsales.lead | S売上データと先行指標。販売時系列BJsalesと先行指標BJsales.leadは,それぞれ150個のオブザベーションを含む |
BOD | 生化学的酸素要求量。水質評価における生化学的酸素要求量と時間の関係を示している |
cars | 1920年代の車の速度と停止にかかった距離を示している |
ChickWeight | ヒナの早期成長に対する食事の影響に関する実験。ヒナの体重と年齢の比較 |
chickwts | 飼料タイプ別の鶏肉の重さ。ニワトリの成長速度に対する各種飼料の効果を測定・比較する実験データ |
CO2 | 草本植物における二酸化炭素の取り込み。イネ科植物の耐寒性に関する実験のデータ |
co2 | マウナロアの大気中CO2濃度。 |
crimtab | イングランドとウェールズの主任刑務所で服役中の20歳以上の男性犯罪者3000人のデータ |
discoveries | 1860年から1959年までの各年の「偉大な」発明や科学的発見の数 |
DNase | ラット血清中の組換えタンパク質DNaseのELISAアッセイの開発中に得られたデータ |
esoph | フランス、イルレ・エ・ヴィレーヌにおける食道癌の症例対照研究からのデータ |
euro | 各種ユーロ通貨の換算レート |
euro.cross | 各種ユーロ通貨の換算レート |
eurodist | ヨーロッパの都市とアメリカの都市の違い。ヨーロッパの21都市間の道路距離とアメリカの10都市間の「直線距離」 |
EuStockMarkets | 1991年から1998年までの欧州主要株価指数の毎日の終値 |
faithful | 米国ワイオミング州イエローストーン国立公園のオールド・フェイスフル間欠泉の噴火の待ち時間と噴火の持続時間 |
fdeaths | イギリスの気管支炎、肺気腫および喘息による月次死亡者数 |
Formaldehyde | クロマトロピック酸と濃硫酸を加えてホルムアルデヒドを定量するための標準曲線を作成し、その結果を分光光度計で紫に読み取る化学実験から得られたデータ |
freeny | フリーニーの四半期収益と説明変数のデータ |
freeny.x | フリーニーの四半期収益と説明変数のデータ |
freeny.y | フリーニーの四半期収益と説明変数のデータ |
HairEyeColor | 統計学を学ぶ学生592人の髪の毛や目の色と性別の分布 |
Harman23.cor | 7歳から17歳までの女の子305人の8つの身体測定の相関行列 |
Harman74.cor | シカゴ郊外の145人の小学7年生と8年生の子供たちに行った24の心理テストの相関行列 |
Indometh | インドメタシンの薬物動態に関するデータ |
infert | 自然流産・誘発流産後の不妊症に関するデータ |
InsectSprays | 異なる殺虫剤で処理された農業実験ユニットにおける昆虫の数 |
iris | 3種のアヤメからそれぞれ50個の花について、セパルの長さと幅、花びらの長さと幅という変数のセンチ単位での測定値のデータ |
iris3 | 3種のアヤメからそれぞれ50個の花について、セパルの長さと幅、花びらの長さと幅という変数のセンチ単位での測定値のデータ |
islands | 万平方マイルを超える大陸の数千平方マイル単位の面積 |
JohnsonJohnson | 1960年から1980年までのジョンソン・エンド・ジョンソン社の1株あたりの四半期収益 |
LakeHuron | 1875年から1972年までのヒューロン湖の水位の年次測定値(フィート) |
ldeaths | イギリスの気管支炎、肺気腫および喘息による月次死亡者数 |
lh | 人間の女性、48サンプルから10分間隔で血液サンプル中の黄体形成ホルモンを与える定期的な時系列 |
LifeCycleSavings | 1960年から1970年までの貯蓄率のデータ |
Loblolly | ロブロリー松の生育記録 |
longley | ロングリーの経済回帰データ |
lynx | カナダでの1821年から1934年までのオオヤマネコの年間捕獲数 |
mdeaths | イギリスの気管支炎、肺気腫および喘息による月次死亡者数 |
morley | マイケルソンの光の速度に関する測定データ |
mtcars | 自動車32台(1973~74年モデル)の燃費と自動車のデザイン・性能などのデータ |
nhtemp | 1912年から1971年までのコネチカット州ニューヘイブンの年間平均気温(華氏) |
Nile | 1871年から1970年までのナイル川の年間流量の測定値 |
nottem | 1920年から1939年までのノッティンガム城の平均気温(華氏) |
npk | エンドウ豆の成長に関する古典的なN・P・K因子実験 |
occupationalStatus | イギリス人男性の父親と息子の職業状況 |
Orange | オレンジの木の成長の記録 |
OrchardSprays | オーチャードスプレーの効力。ミツバチを撃退するために果樹園のスプレーの様々な成分の効力を評価データ |
PlantGrowth | 植物の成長に関する実験結果 |
precip | アメリカ(およびプエルトリコ)の70都市ごとの平均降水量(インチ) |
presidents | 1945年第1四半期から1974年第1四半期までの米国大統領の四半期ごとの支持率 |
pressure | 摂氏温度と水銀の蒸気圧の関係をミリ単位で示したデータ |
Puromycin | 未処理細胞またはプロマイシンで処理された細胞を含む酵素反応における反応速度対基質濃度のデータ |
quakes | フィジー沖地震の位置 |
randu | 合同生成器RANDUからの乱数 |
rivers | 北米の141の主要な河川の長さ(マイル) |
rock | 石油貯留層の48個の岩石サンプルの測定データ |
Seatbelts | 1969年1月から1984年12月までにイギリスで死亡または重傷を負った自動車運転手の月別集計データ |
sleep | 10人の患者に対して、2種類のソフォリファ剤の効果を示したデータ |
stack.loss | アンモニアを硝酸に酸化するプラントの運転データ |
stack.x | アンモニアを硝酸に酸化するプラントの運転データ |
stackloss | アンモニアを硝酸に酸化するプラントの運転データ |
state | アメリカ合衆国50州に関連するデータセット |
state.abb | アメリカ合衆国50州に関連するデータセット |
state.area | アメリカ合衆国50州に関連するデータセット |
state.center | アメリカ合衆国50州に関連するデータセット |
state.division | アメリカ合衆国50州に関連するデータセット |
state.name | アメリカ合衆国50州に関連するデータセット |
state.region | アメリカ合衆国50州に関連するデータセット |
state.x77 | アメリカ合衆国50州に関連するデータセット |
sunspot.month | 1749年から現在までの月別黒点データ |
sunspot.year | 1700年から1988年までの黒点の年間数 |
sunspots | 1749年から1983年までの月平均相対黒点数 |
swiss | スイスの出生率と社会経済指標(1888年)データ |
Theoph | テオフィリンの薬物動態に関する実験から得られたデータ |
Titanic | タイタニック号の乗客の生存率 |
ToothGrowth | モルモットの歯の成長に及ぼすビタミンCの影響 |
treering | 年間トレアリングデータ |
trees | 31本のブラックチェリーの木の直径、高さ、体積の測定値データ |
UCBAdmissions | カリフォルニア大学バークレー校の大学院進学希望者を、1973年の6大学部の入学者数と男女別に集計 |
UKDriverDeaths | 1969年1月から1984年12月までにイギリスで死亡または重傷を負った自動車運転手の月別集計データ |
UKgas | 1960年第1四半期から1986年第4四半期までの四半期ごとのイギリスのガス消費量 |
UKLungDeaths | イギリスの気管支炎、肺気腫および喘息による月次死亡者数 |
USAccDeaths | 1973年から1978年までの米国の事故死の月別合計 |
USArrests | 1973年の米国50州の各州における暴行、殺人、および強姦に対する住民10万人当たりの検挙者数の統計データ |
UScitiesD | ヨーロッパの都市とアメリカの都市の違い。ヨーロッパの21都市間の道路距離とアメリカの10都市間の「直線距離」 |
USJudgeRatings | 米国高等裁判所の州裁判官の弁護士評価 |
USPersonalExpenditure | 1940年、1945年、1950年、1955年、1960年の食品とタバコ、家庭運営、医療と健康、個人的なケア、民間教育などのカテゴリーにおける米国の個人的な支出データ(数十億ドル単位) |
uspop | 1790年から1970年までの10年ごとの国勢調査で記録された米国の人口(百万人) |
VADeaths | 1940年のバージニア州の1000人あたりの死亡率 |
volcano | オークランドのマウンガ・ワウ火山の地形情報 |
warpbreaks | 製織時の糸の切れ目の数 |
women | 30~39歳のアメリカ人女性の平均身長と体重 |
WorldPhones | 世界各地の電話機の数(数千台) |
WWWusage | 1分ごとのインターネットに接続しているユーザーの数 |
翻訳にはDeepLを使いました。
使い方
以下のようにするとデータセットを読み込むことができます。
data(WWWusage)