有史以来最伟大的25个Java项目(二)

unimof 2021年03月05日 373次浏览

大数据/机器学习

6. 维基百科搜索.

维基百科最开始的搜索引擎是 Lucene —— 一个 Java 语言编写的搜索引擎工具,2014年,维基百科用Elasticsearch取代Lucene引擎,Elasticsearch是一个分布式的、支持REST的搜索引擎,它也用Java编写。

7. Hadoop.

2003年,受谷歌一份描述大型商品计算机集群数据处理算法MapReduce算法的研究论文的启发,Cutting在2003年为Java中的MapReduce操作编写了一个开源框架,并以儿子的玩具大象命名为Hadoop。

Hadoop 1.0于2006年发布,催生了大数据趋势,激励许多公司收集“数据湖”,制定挖掘“数据排气”的策略,并将数据描述为“新石油”。

Hadoop 解决了大数据分布式挖掘和分析的基础问题,推动大数据时代的到来,到目前为止,Hadoop 是大数据分析领域的基石,无可替代。

8. PGX.

图分析是关于理解数据中的关系和连接的。根据基准数据,PGX是世界上最快的图形分析引擎之一。PGX是用Java编写的,2014年由Oracle Labs研究员SungpackHong领导的团队首次发布,它允许用户加载图形数据,并运行分析算法,如社区检测、聚类、路径查找、页面排名、影响者分析、异常检测、路径分析和模式匹配。

9. H2O.ai.

机器学习(ML)有一个陡峭的曲线,这可以阻止领域专家实现伟大的ML思想。自动ML(AutoML)通过推断ML过程中的一些步骤来帮助您,如特征工程、模型培训和调优以及解释。

Java Champer Click创建的基于Java的开源H2O.ai平台旨在使ai民主化,并为刚刚起步的人充当虚拟数据科学家,并帮助ML专家变得更高效。