Articles of hadoop

Estilo de encoding SQL Hive: tablas intermedias?

¿Debería crear y dejar tablas intermedias en la hive? Puedo escribir algo como (mucho simplificado): drop table if exists tmp1; create table tmp1 as select a, b, c from input1 where a > 1 and b < 3; drop table if exists tmp2; create table tmp2 as select x, y, z from input2 where x […]

Hive describe particiones para mostrar la URL de partición

Sé que hay decribe formatted table_name; eso te muestra el formatting de la tabla. ¿Hay alguna forma de get más información sobre particiones aparte de show partitions table_name; Vi que el manual del lenguaje Hive tiene esto DESCRIBE [EXTENDED|FORMATTED] [db_name.]table_name PARTITION partition_spec Me gustaría ver todas las particiones junto con la url en hdfs o […]

Cómo comparar dos tablas y devolver filas con diferencia con HIVE

Entonces digamos que tengo una tabla con aproximadamente 180 columnas y 100 loggings. Esta tabla está respaldada en una tabla temporal y la original se elimina. Después de esta migration (cambio) se ejecuta en una tubería que produce la misma tabla. Quiero comparar la tabla respaldada con la nueva y las filas (loggings) con cualquier […]

Spark: consulta de grupo RDD Sql

Tengo 3 RDD que necesito unirme. val event1001RDD: schemaRDD = [eventtype, id, location, date1] [1001,4929102,LOC01,2015-01-20 10:44:39] [1001,4929103,LOC02,2015-01-20 10:44:39] [1001,4929104,LOC03,2015-01-20 10:44:39] val event2009RDD: schemaRDD = [eventtype, id, celltype, date1] (no agrupado por id ya que necesito 4 dates de esto dependiendo del tipo de celda) [2009,4929101,R01,2015-01-20 20:44:39] [2009,4929102,R02,2015-01-20 14:00:00] (RPM) [2009,4929102,P01,2015-01-20 12:00:00] (PPM) [2009,4929102,R03,2015-01-20 15:00:00] (RPM) […]

Error en Hive: error subyacente: org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException: se esperan uno o más arguments

Estoy tratando de traducir algunas secuencias de commands PL / SQL en la hive, y me enfrenté a un error con una secuencia de commands HiveQL. El error es este: FAILED: SemanticException Failed to breakup Windowing invocations into Groups. At least 1 group must only depend on input columns. Also check for circular dependencies. Underlying […]

¿Cómo get una matriz / bolsa de elementos del grupo Hive por operador?

Quiero agruparme por un campo dado y get la salida con campos agrupados. A continuación se muestra un ejemplo de lo que estoy tratando de lograr: Imagine una tabla llamada 'sample_table' con dos columnas como a continuación: F1 F2 001 111 001 222 001 123 002 222 002 333 003 555 Quiero escribir Hive Query […]

¿Cómo cargar datos SQL en Hortonworks?

He instalado Hortonworks SandBox en mi pc. también intenté con un file CSV y su introducción en una tabla estructurada es correcta (Hive + Hadoop), nw Quiero migrar mi SQL Databse actual a Sandbox (MS SQL 2008 r2). ¿Cómo haré esto? También quiero conectarme a mi proyecto (VS 2010 C #). ¿Es posible conectarse a […]

java.lang.OutOfMemoryError: espacio de montón Java con hive

Usé hadoop hive 0.9.0 y 1.1.2 y netbeans, pero obtuve este error y no puedo resolver este problema por favor ayúdenme a codificar: public class Hive_test { private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver"; @SuppressWarnings("CallToThreadDumpStack") public static void main(String[] args) throws SQLException { try { Class.forName(driverName); } catch (ClassNotFoundException e){ e.printStackTrace(); System.exit(1); } System.out.println("commencer la connexion"); […]

Hive Table devuelve un set de resultados vacío en todas las consultas

Creé una tabla Hive, que carga datos de un file de text. Pero su resultado vacío que se devuelve se establece en todas las consultas. Intenté el siguiente command: CREATE TABLE table2( id1 INT, id2 INT, id3 INT, id4 STRING, id5 INT, id6 STRING, id7 STRING, id8 STRING, id9 STRING, id10 STRING, id11 STRING, id12 […]

Expresión de SubQuery no admitida: la expresión de correlación no puede contener references de columnas no calificadas

En Hive la siguiente consulta falla: Select a,b,c from t1 where a in (0,100) AND b in (select b from t2 where d>2 GROUP BY 1 ) LIMIT 1; Esquema: t1(a,b,c) t2(b,d,e) Registro de errores : Expresión SubQuery no soportada 'b': la expresión de correlación no puede contener references de columnas no calificadas. ¿Qué es […]