网络推广网站的方法,手机app一般用什么开发,做网站有什么,企业运营策划本文将介绍10个获取所需数据的网站#xff0c;助力数据科学项目。 当你的数据对你来说很枯燥或毫无意义时#xff0c;要激励自己学习数据科学#xff0c;或做数据科学项目真的很困难。
本文将介绍10个得心应手的网站#xff0c;在这些网站上你可以为数据科学项目获取一些非… 本文将介绍10个获取所需数据的网站助力数据科学项目。 当你的数据对你来说很枯燥或毫无意义时要激励自己学习数据科学或做数据科学项目真的很困难。
本文将介绍10个得心应手的网站在这些网站上你可以为数据科学项目获取一些非常棒的数据。本文的目的是为了展示各种可能吸引你的数据。最终这些网站应该能帮助你找到你关心的数据做一个很酷的数据科学项目并以此来获得一份工作。
如何审查数据源
如果你在本文中看到一个网站那是因为它包含的数据是 免费提供。你不需要为它付费。 面向社区。它不仅仅是一个文件会有一些评论和解释。 干净的。你可以练习数据科学的有趣部分——分析、可视化、共享等等。 与语言无关。你可以用Python、R、SQL或你喜欢的任何其他语言来深入研究这些内容。
10个网站为你的数据科学项目获取很棒的数据
让我们来挖掘一下最好的网站以找到你真正关心并想用数据科学来探索的数据。
网站特点Google Dataset Search超级广泛质量不一Kaggle更为有限但有很多背景和社区KDNuggets专门针对AI、ML、数据科学的网站Government websites种类繁多学习资源丰富Pudding.cool流行文化、散文538体育、政治、清洁数据Tidy Tuesdays混乱的数据伟大的社区GitHub大量的可搜索数据有评论质量不一Buzzfeed流行文化、散文、严谨的科学Awesome Public Datasets种类繁多只有数据集没有评论
技术交流材料获取
技术要学会分享、交流不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。
资料干货、资料分享、数据、技术交流提升均可加交流群获取群友已超过2000人添加时最好的备注方式为来源兴趣方向方便找到志同道合的朋友。 方式①、添加微信号dkl88194备注来自CSDN 资料 方式②、微信搜索公众号Python学习与数据挖掘后台回复 资料 1、数据分析实战宝典
2、100个超强算法模型
我们打造了《100个超强算法模型》特点从0到1轻松学习原理、代码、案例应有尽有所有的算法模型都是按照这样的节奏进行表述所以是一套完完整整的案例库。
很多初学者是有这么一个痛点就是案例案例的完整性直接影响同学的兴致。因此我整理了 100个最常见的算法模型在你的学习路上助推一把
1. Google’s Dataset Search
链接https://datasetsearch.research.google.com/
实际上这并不是一个真正的数据集的网站而是一个数据集的搜索引擎。但它太好了必须包括在内。
Google的数据集搜索就像Google一样但针对的是数据集。你输入你的查询Google就会返回它所拥有的关于该主题的尽可能多的数据集。
例如搜索“猫”会给我带来一百多个数据集其中一个数据集包含9000多张猫的图像。 来源Google Dataset Search
推荐这个网站的原因 它的用途超级广泛。你几乎肯定会找到你关心的东西。 它是即时适用的。这个网站包括其他使用过这个数据集的论文所以你可以看到其他人已经用这个数据做了什么有趣的事情。 你可以切换到只包括免费数据集。 它为你提取了背景所以你会得到一些关于这个数据集是什么以及为什么收集它的解释。
这是一个很好的开始。
2. Kaggle
链接https://www.kaggle.com/datasets
Kaggle的Datasets也是一个搜索引擎但它的局限性更大也更有针对性。
它更有局限性因为它只包含人们在Kaggle发布的数据集。但它更有针对性因为这些数据集并不是Google随意搜罗的数字集。Kaggle是一个数据科学竞赛的场所所以它收集的数据集与数据科学极为相关。
这使得你可以根据自己的特定兴趣进行筛选。例如如果我在启用“计算机视觉”过滤器的情况下搜索“猫”我可能会偶然发现同一个猫数据集。 来源Kaggle Datasets
推荐这个网站的原因 社区方面是如此强大。点击那只猫的数据集可以看到其他六个人在询问关于这个数据集的问题——并且得到了答案。 很多示例项目。你还可以看到其他人围绕这个数据建立或编码的内容。 你也可以反其道而行之——查看他们的比赛看看是否有你感兴趣的东西然后使用配套的数据集。
3. KDNuggets
链接kdnuggets.com/datasets/index.html
KDNuggets策划了一套庞大的数据集这些数据集专门用于数据科学、机器学习、AI和分析非常好用。
其中许多不是KDNuggets的独家产品但这是一个很好的列表可以在其中探究。值得注意的是当你注册成为KDNuggets的电子邮件订阅者时你也可以访问World Data AIhttps://worlddata.ai/partners/kdnuggets它本身包含35亿个数据集。 来源KDnuggets Datasets
推荐这个网站的原因 专门针对数据科学的数据。这些数据集中有许多是为其他目的而策划的但这些数据集都是专门为AI、机器学习和数据科学而设的。 对每个数据集的快速描述。仅仅是一点点的背景以帮助你决定它是否是适合你的数据集。
4. Government websites
可以很容易地将获取政务数据集的网站清单扩大到大约一百万个这里提供一个小清单 http://datasf.org/ http://data.gov.uk https://www.usa.gov/About/developer-resources/1usagov.shtml https://www.census.gov/data/datasets.html
各国政府不断收集数据进行研究其中许多政府在网上公布这些数据。 推荐这些网站的原因 这些数据是用于研究的所以它通常是相当干净和有组织的。 这些数据有一个真实的使用案例。有人为了一个真正的、与政府有关的真实原因而收集它。 这通常是非常最新的数据。 围绕着这些数据往往有一些很酷的故事。 许多政府已经投入资源向你展示如何访问或使用这些数据如人口普查局。
5. Pudding.cool
链接https://pudding.cool/2023/01/lit-canon/
如果你喜欢让数据紧随流行文化那么Pudding.cool就是最佳选择。这个网站关注的话题多种多样如重复的流行歌词、女性的口袋以及《生活大爆炸》多么受欢迎。
这更像是一本数字杂志撰写关于文化的长篇文章同时在旁边展示大量的数据。我把它放在这里是因为他们讲述了很棒的故事并分享了他们的数据。 来源The Pudding
推荐这个网站的原因 很棒且有趣的数据。 分享数据和脚本。 很多你可能关心的东西都是IRL。
6. 538
链接https://data.fivethirtyeight.com/
另一个以论文为导向的流行文化网站提供你可以使用的免费数据。他们更专注于体育和政务。 来源FiveThirtyEight Data
推荐这个网站的原因 有数据支持的智能故事你可以深入研究。 数据采用干净的CSV格式。 数据来源高度可靠。
7. Tidy Tuesdays
链接https://github.com/rfordatascience/tidytuesday
Tidy Tuesdays本身并不完全是一个包含数据集的网站但它是一个每周一次的活动和社区重点是使用数据科学来探索杂乱的数据。
每周都会推出一个新的数据集。鼓励参与者在GitHub和Twitter上互相分享他们的清理技术和可视化效果。 来源TidyTuesday GitHub
推荐这个网站的原因 这个社区是令人难以置信的。每周你都能学到新东西。 它是如此方便。不用去寻找数据集获取每周的投放。 具有挑战性的、不整齐的数据。你在IRL中得到的数据很少会像这个列表中的其他数据那样经过消毒处理。Tidy Tuesdays帮助你学习如何处理混乱的数据。
8. GitHub
链接https://github.com/
GitHub上有大量数据。你可以很轻松地搜索、过滤和下载数据以便自己使用。然而数据的质量参差不齐。因为任何人都可以上传数据所以数据的状况并不总是很好。
但是我觉得它的好处弥补了这一点。 来源GitHub Cat Data
推荐这个网站的原因 你可以按语言过滤如Python、Javascript或其他语言。 这里有大量的数据。 通常这些数据都带有某种评论或代码你可以查看。
9. Buzzfeed
链接https://github.com/BuzzFeedNews
Buzzfeed并不只是做一些通过让你做salad来评论人类状况的测验。Buzzfeed可能在这方面不那么出名但Buzzfeed做了很多高质量的数据新闻。
这也都是开源的。 来源BuzzFeed News GitHub
推荐这个网站的原因 有趣的数据经过预先清理并以文章的形式附上精心编写的评论。 较重的话题。这里强调的是更复杂的话题例如政治和健康但也有很多其他话题。
10. Awesome Public Datasets
链接https://github.com/awesomedata/awesome-public-datasets
Awesome Public Datasets位于GitHub上包含了大部分免费的数据集供人们探索。它们来自在线数据集、用户建议和研究论文。 来源Awesome Public Datasets GitHub
推荐这个网站的原因 主题种类繁多。农业、金融、博物馆。你一定能找到让你心动的东西。 精心策划的。数据集的质量很高。
这些网站提供很棒的数据科学数据集
深入挖掘你不仅可以利用数据而且还可以利用社区、灵感和代码来学习和成长为一名数据科学家。
有了如此大量的可用数据你可以始终寻找那些能激发你的灵感或能够让你兴奋地去调查的数据。希望这个清单能给你一些起点来做到这一点。