Articles of hive

Cuenta la falta de coincidencia y falta

A continuación están los datos en TestingTable1 BUYER_ID | ITEM_ID | CREATED_TIME ———–+——————-+———————— 1345653 110909316904 2012-07-09 21:29:06 1345653 151851771618 2012-07-09 19:57:33 1345653 221065796761 2012-07-09 19:31:48 1345653 400307563710 2012-07-09 18:57:33 1345653 310411560125 2012-07-09 16:09:49 1345653 120945302103 2012-07-09 13:40:23 1345653 261060982989 2012-07-09 09:02:21 A continuación están los datos en TestingTable2 USER_ID | PRODUCT_ID | LAST_TIME ———–+——————-+——————- 1345653 […]

Vuelva a escribir la consulta SQL para aceptar la condición de diferencia de date en la cláusula where

A continuación están los datos en TestingTable1 BUYER_ID | ITEM_ID | CREATED_TIME ———–+——————-+———————— 1345653 110909316904 2012-07-09 21:29:06 1345653 151851771618 2012-07-09 19:57:33 1345653 221065796761 2012-07-09 19:31:48 1345653 400307563710 2012-07-09 18:57:33 1345653 310411560125 2012-07-09 16:09:49 1345653 120945302103 2012-07-09 13:40:23 1345653 261060982989 2012-07-09 09:02:21 A continuación están los datos en TestingTable2 USER_ID | PRODUCT_ID | LAST_TIME ———–+——————-+——————- 1345653 […]

ARRAY_CONTAINS valores múltiples en la hive

¿Hay una forma conveniente de usar la function ARRAY_CONTAINS en la sección para search múltiples inputs en una columna de matriz en lugar de solo una? Entonces, en vez de: WHERE ARRAY_CONTAINS(array, val1) OR ARRAY_CONTAINS(array, val2) Me gustaría escribir: WHERE ARRAY_CONTAINS(array, val1, val2) El problema completo es que necesito leer val1 y val2 dinámicamente desde […]

Estilo de encoding SQL Hive: tablas intermedias?

¿Debería crear y dejar tablas intermedias en la hive? Puedo escribir algo como (mucho simplificado): drop table if exists tmp1; create table tmp1 as select a, b, c from input1 where a > 1 and b < 3; drop table if exists tmp2; create table tmp2 as select x, y, z from input2 where x […]

Únete a tres tables en Colmena

Tengo que escribir Hive SQL. Quiero encontrar el precio más bajo para cada catálogo. Quiero get una fila para cada catálogo con la ID del catálogo, la ID del producto, el precio (precio más bajo), la url de la image, large_ctgr_id, small_ctgr_id, large_ctgr_name y small_ctgr_name. En el siguiente ejemplo, finalmente necesitamos dos filas. Además, hay […]

Error de la function de window de time de hive

Tengo una tabla llamada gmv_active_mem_monthly. Las filas completas se pueden ver aquí: month gmv_monthly active_member_monthly 201612 231657626042 2602064 201611 373576915733 3498039 201610 367824193757 3648708 201609 356167649082 3686007 201608 383362147243 3998595 201607 383828659139 3917252 201606 332929299345 3627298 201605 323084120955 3579938 201604 280834688208 3293682 201603 282180201106 3316420 201602 246386923468 3097107 201601 261355415707 3186347 201512 273860930491 3071105 201511 […]

Hive describe particiones para mostrar la URL de partición

Sé que hay decribe formatted table_name; eso te muestra el formatting de la tabla. ¿Hay alguna forma de get más información sobre particiones aparte de show partitions table_name; Vi que el manual del lenguaje Hive tiene esto DESCRIBE [EXTENDED|FORMATTED] [db_name.]table_name PARTITION partition_spec Me gustaría ver todas las particiones junto con la url en hdfs o […]

Cómo comparar dos tablas y devolver filas con diferencia con HIVE

Entonces digamos que tengo una tabla con aproximadamente 180 columnas y 100 loggings. Esta tabla está respaldada en una tabla temporal y la original se elimina. Después de esta migration (cambio) se ejecuta en una tubería que produce la misma tabla. Quiero comparar la tabla respaldada con la nueva y las filas (loggings) con cualquier […]

Reemplazar una consulta SQL con unix sort, uniq y awk

Actualmente tenemos algunos datos sobre un clúster HDFS en el que generamos informes utilizando Hive. La infraestructura está en process de clausura y nos queda la tarea de encontrar una alternativa para generar el informe de los datos (que importamos como files separados por tabuladores en nuestro nuevo entorno) Suponiendo que tenemos una tabla con […]

Manera efectiva de unir tablas por range usando impala

Tengo las siguientes tablas: la primera ( Range ) incluye range de valores y columnas adicionales: row | From | To | Country …. —–|——–|———|——— 1 | 1200 | 1500 | 2 | 2200 | 2700 | 3 | 1700 | 1900 | 4 | 2100 | 2150 | … The From y To son […]