【原创】R语言代写文本挖掘NASA数据网络分析,tf-idf和主题建模研究分析报告(附代码数据)

2026/4/29 2:29:19

【原创】定制代写开发r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务（附代码数据）, 咨询QQ：3025393450

有问题到百度搜索“大数据部落”就可以了欢迎登陆官网：http://y0.cn/datablog

R语言挖掘NASA元数据文本挖掘网络可视化研究分析

## Registered S3 methods overwritten by 'ggplot2': ## method from ## [.quosures rlang ## c.quosures rlang ## print.quosures rlang

NASA托管和/或维护了超过32,000个数据集; 这些数据集涵盖了从地球科学到航空航天工程到NASA本身管理的主题。我们可以使用这些数据集的元数据来理解它们之间的联系。

有问题到百度搜索“大数据部落”就可以了欢迎登陆官网：http://y0.cn/datablog

什么是元数据？元数据是指提供有关其他数据的信息的数据; 在这种情况下，元数据通知用户这些众多NASA数据集中的内容，但不包括数据集本身的内容。

元数据包括诸如数据集的标题，描述字段，NASA中负责数据集的组织，由人类分配的数据集的关键字等信息。美国宇航局高度重视使其数据开放和可访问，甚至要求所有美国宇航局资助的研究都可以在线公开访问。所有数据集的元数据都以JSON格式在线公开。

在本章中，我们将NASA元数据视为文本数据集，并展示如何使用此真实文本实现几种整洁的文本方法。我们将使用单词共现和相关，tf-idf和主题建模来探索数据集之间的联系。我们能找到彼此相关的数据集吗？我们能找到类似数据集的集群吗？由于我们在NASA元数据中有几个文本字段，最重要的是标题，描述和关键字字段，我们可以探索字段之间的连接，以便更好地理解NASA中复杂的数据世界。这种方法可以扩展到任何处理文本的域，所以让我们看一下这个元数据并开始使用。

1 NASA如何组织数据

首先，让我们下载JSON文件，并查看元数据中存储的名称。

library(jsonlite)

metadata <- fromJSON(\) names(metadata$dataset)

## [1] \## [5] \## [9] \## [13] \## [17] \## [21] \## [25] \

我们在这里看到，我们可以从发布每个数据集的人那里获取信息，以获取他们发布的许可证。

有问题到百度搜索“大数据部落”就可以了欢迎登陆官网：http://y0.cn/datablog

似乎每个数据集的标题，描述和关键字对于绘制数据集之间的连接可能是最有成效的。我们来看看吧。

class(metadata$dataset$title)

## [1] \

class(metadata$dataset$description)

## [1] \

class(metadata$dataset$keyword)

## [1] \

标题和描述字段存储为字符向量，但关键字存储为字符向量列表。

1.1纠缠和整理数据

让我们为标题，描述和关键字设置单独的整洁数据框，保留每个数据集的数据集ID，以便我们可以在以后的分析中将它们连接起来（如有必要）。

library(dplyr)

nasa_title <- tibble(id = metadata$dataset$`_id`$`$oid`, title = metadata$dataset$title) nasa_title

## # A tibble: 32,089 x 2

## id title ## ## 1 55942a57c63a7fe59b495a77 15 Minute Stream Flow Data: USGS (FIFE) ## 2 55942a57c63a7fe59b495a78 15 Minute Stream Flow Data: USGS (FIFE) ## 3 55942a58c63a7fe59b495a79 15 Minute Stream Flow Data: USGS (FIFE) ## 4 55942a58c63a7fe59b495a7a 2000 Pilot Environmental Sustainability Index (ESI) ## 5 55942a58c63a7fe59b495a7b 2000 Pilot Environmental Sustainability Index (ESI)

有问题到百度搜索“大数据部落”就可以了欢迎登陆官网：http://y0.cn/datablog

## 6 55942a58c63a7fe59b495a7c 2000 Pilot Environmental Sustainability Index (ESI) ## 7 55942a58c63a7fe59b495a7d 2001 Environmental Sustainability Index (ESI) ## 8 55942a58c63a7fe59b495a7e 2001 Environmental Sustainability Index (ESI) ## 9 55942a58c63a7fe59b495a7f 2001 Environmental Sustainability Index (ESI) ## 10 55942a58c63a7fe59b495a80 2001 Environmental Sustainability Index (ESI) ## # … with 32,079 more rows

这些只是我们将要探索的数据集中的一些示例标题。请注意，我们在这里有NASA指定的ID，并且在不同的数据集上有重复的标题。

nasa_desc <- tibble(id = metadata$dataset$`_id`$`$oid`, desc = metadata$dataset$description)

nasa_desc %>% select(desc) %>% sample_n(5)

## # A tibble: 5 x 1

## desc ## ## 1 FIFE observations of surface fluxes ## 2 Press kit for ISS mission Expedition 18 from 10/2008-04/2009. Press kits contain information abou… ## 3 \… ## 4 \… ## 5 The overall objective of the proposed project is to develop a generalized lattice Boltzmann (GLB)…

在这里，我们从元数据中看到几个选定描述字段的第一部分。

现在我们可以为关键字构建整洁的数据框。对于这个，我们需要使用unnest()tidyr，因为它们位于列表列中。

library(tidyr)

nasa_keyword <- tibble(id = metadata$dataset$`_id`$`$oid`, keyword = metadata$dataset$keyword) %>% unnest(keyword)

【原创】R语言代写文本挖掘NASA数据网络分析,tf-idf和主题建模研究分析报告(.doc 将本文的Word文档下载到电脑

下载这篇word文档