【原创】定制代写开发r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代码数据), 咨询QQ:3025393450
有问题到百度搜索“大数据部落”就可以了 欢迎登陆官网:http://y0.cn/datablog
R语言挖掘NASA元数据文本挖掘网络可视化研究分析
## Registered S3 methods overwritten by 'ggplot2': ## method from ## [.quosures rlang ## c.quosures rlang ## print.quosures rlang
NASA托管和/或维护了超过32,000个数据集; 这些数据集涵盖了从地球科学到航空航天工程到NASA本身管理的主题。我们可以使用这些数据集的元数据来理解它们之间的联系。
【原创】定制代写开发r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代码数据), 咨询QQ:3025393450
有问题到百度搜索“大数据部落”就可以了 欢迎登陆官网:http://y0.cn/datablog
什么是元数据?元数据是指提供有关其他数据的信息的数据; 在这种情况下,元数据通知用户这些众多NASA数据集中的内容,但不包括数据集本身的内容。
元数据包括诸如数据集的标题,描述字段,NASA中负责数据集的组织,由人类分配的数据集的关键字等信息。美国宇航局高度重视使其数据开放和可访问,甚至要求所有美国宇航局资助的研究都可以在线公开访问。所有数据集的元数据都以JSON格式在线公开。
在本章中,我们将NASA元数据视为文本数据集,并展示如何使用此真实文本实现几种整洁的文本方法。我们将使用单词共现和相关,tf-idf和主题建模来探索数据集之间的联系。我们能找到彼此相关的数据集吗?我们能找到类似数据集的集群吗?由于我们在NASA元数据中有几个文本字段,最重要的是标题,描述和关键字字段,我们可以探索字段之间的连接,以便更好地理解NASA中复杂的数据世界。这种方法可以扩展到任何处理文本的域,所以让我们看一下这个元数据并开始使用。
1 NASA如何组织数据
首先,让我们下载JSON文件,并查看元数据中存储的名称。
library(jsonlite)
metadata <- fromJSON(\) names(metadata$dataset)
## [1] \## [5] \## [9] \## [13] \## [17] \## [21] \## [25] \
我们在这里看到,我们可以从发布每个数据集的人那里获取信息,以获取他们发布的许可证。
【原创】定制代写开发r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代码数据), 咨询QQ:3025393450
有问题到百度搜索“大数据部落”就可以了 欢迎登陆官网:http://y0.cn/datablog
似乎每个数据集的标题,描述和关键字对于绘制数据集之间的连接可能是最有成效的。我们来看看吧。
class(metadata$dataset$title)
## [1] \
class(metadata$dataset$description)
## [1] \
class(metadata$dataset$keyword)
## [1] \
标题和描述字段存储为字符向量,但关键字存储为字符向量列表。
1.1纠缠和整理数据
让我们为标题,描述和关键字设置单独的整洁数据框,保留每个数据集的数据集ID,以便我们可以在以后的分析中将它们连接起来(如有必要)。
library(dplyr)
nasa_title <- tibble(id = metadata$dataset$`_id`$`$oid`, title = metadata$dataset$title) nasa_title
## # A tibble: 32,089 x 2
## id title ##
【原创】定制代写开发r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代码数据), 咨询QQ:3025393450
有问题到百度搜索“大数据部落”就可以了 欢迎登陆官网:http://y0.cn/datablog
## 6 55942a58c63a7fe59b495a7c 2000 Pilot Environmental Sustainability Index (ESI) ## 7 55942a58c63a7fe59b495a7d 2001 Environmental Sustainability Index (ESI) ## 8 55942a58c63a7fe59b495a7e 2001 Environmental Sustainability Index (ESI) ## 9 55942a58c63a7fe59b495a7f 2001 Environmental Sustainability Index (ESI) ## 10 55942a58c63a7fe59b495a80 2001 Environmental Sustainability Index (ESI) ## # … with 32,079 more rows
这些只是我们将要探索的数据集中的一些示例标题。请注意,我们在这里有NASA指定的ID,并且在不同的数据集上有重复的标题。
nasa_desc <- tibble(id = metadata$dataset$`_id`$`$oid`, desc = metadata$dataset$description)
nasa_desc %>% select(desc) %>% sample_n(5)
## # A tibble: 5 x 1
## desc ##
在这里,我们从元数据中看到几个选定描述字段的第一部分。
现在我们可以为关键字构建整洁的数据框。对于这个,我们需要使用unnest()tidyr,因为它们位于列表列中。
library(tidyr)
nasa_keyword <- tibble(id = metadata$dataset$`_id`$`$oid`, keyword = metadata$dataset$keyword) %>% unnest(keyword)

