Plyushchenko Andrey N.
Spark é uma das ferramentas mais populares para a manipulação eficaz de Big Data com linguagens de alto nível, como Python, Scala, etc. Embora o Spark inclua uma biblioteca de algoritmos de aprendizagem automática, as bibliotecas de máquinas locais mais populares, como o SKLearn, XGBoost, etc., são mais flexíveis e proporcionam os melhores resultados. Descrevemos algumas técnicas que permitem ajustar algoritmos padrão e prever valores para dados distribuídos. O Apache Spark é um sistema de registo de grupos de código aberto. Inicialmente criada na Universidade da Califórnia, no AMPLab de Berkeley, a base de código Spark foi posteriormente cedida à Apache Software Foundation, que a mantém desde então. O Flash fornece uma interface para programar grupos inteiros com um certo paralelismo de informação e adaptação a falhas não críticas. Apache Spark ML é a biblioteca de IA composta por cálculos e utilitários de aprendizagem normais, incluindo agrupamento, recaída, agrupamento, separação sinérgica, diminuição de dimensionalidade e nativos de melhoria oculta. A transição para a era do Big Data requer cálculos iterativos substanciais em enormes conjuntos de dados. O uso padrão de cálculos de IA exige que máquinas extremamente incríveis tenham a opção de funcionar. A contingência de máquinas topo de gama não é benéfica devido às suas despesas significativas e às despesas imprudentes de expansão. Utilizar motores de cálculo disseminados é dispersar os cálculos por inúmeras máquinas de baixo custo (equipamento de mercadorias), em vez de uma única máquina topo de gama. Isto acelera certamente a fase de aprendizagem e permite-nos criar melhores modelos. À medida que as associações criam itens e administrações de informação cada vez mais diferentes e centradas no cliente, há uma necessidade crescente de IA, que pode ser utilizada para criar personalizações, sugestões e conhecimentos prescientes. Normalmente, os investigadores de informação podem resolver estes problemas utilizando ferramentas reconhecíveis e convencionais, como o R e o Python. Em qualquer caso, à medida que as associações armazenam volumes e variedades de informação mais notáveis, os investigadores da informação estão a investir uma parte maior da sua energia no apoio à sua fundação, em vez de construir modelos para cuidar dos seus problemas de informação. Para ajudar a resolver este problema, o Spark oferece uma biblioteca geral de IA - MLlib - que se destina à facilidade, adaptabilidade e reconciliação simples com diferentes dispositivos. Com a adaptabilidade, a semelhança de linguagem e a velocidade do Spark, os investigadores de informação podem compreender e repetir os seus problemas de informação mais rapidamente. Como se pode verificar tanto na crescente variedade de casos de utilização como no enorme número de compromissos dos designers, a apropriação da MLlib está a desenvolver-se rapidamente. O Python e o R são dialetos convencionais para os investigadores de dados devido ao grande número de módulos ou pacotes que estão prontamente disponíveis para os ajudar a cuidar dos seus problemas de informação. No entanto,os empregos convencionais destes aparelhos são frequentemente restritivos, pois processam a informação numa máquina solitária onde o desenvolvimento da informação se torna tedioso, a investigação exige exame (que normalmente não se refere precisamente à informação) e passar da melhoria para a criação de condições requer ampla reconstrução. Para ajudar a resolver estes problemas, o Spark fornece aos arquitetos e investigadores de informação um motor incrível e reunido que é rápido (100x mais rápido que o Hadoop para a manipulação de informação de grande âmbito) e simples de utilizar. Isto permite aos profissionais da informação resolver os seus problemas de IA (como o cálculo de diagramas, o fluxo e o tratamento contínuo e intuitivo de consultas) de forma inteligente e a uma escala muito maior.