Thread: a very big table
hullo all, I have a problem with a table containing a lot of data. referred tables "inserzionista" and "pubblicazioni" (referenced 2 times) have resp. 1909 tuples and 8300 tuples, while this one 54942. now the problem is that it is slow, also a simple "select * from pubblicita". (it takes 5-6 seconds on my P4@1,6Ghz laptop...) I tried using some indexes, but the main problem is that I am using a php script to access the data that builds the query according to user input. f.i. I made a simple interface where a user can specify multiple filters on almost all the columns of the table and a resulting query could be: =========== SELECTripete.numero as ripete_numero,pubblicita.soggetto,pubblicita.colore,pubblicazioni.anno,pubblicazioni.numero,pubblicita.codice_pubblicita,pubblicita.annullata,pubblicita.codice_pagina,pubblicita.codice_materiale,pubblicita.note,pubblicita.prezzo,testate.testata AStestata,inserzionisti.sigla AS inserzionista,materiali.descrizione AS materiale,pagine.descrizione AS pagina FROMpubblicitaLEFT OUTER JOIN materiali ON (pubblicita.codice_materiale=materiali.codice_materiale)LEFT OUTER JOIN pagine ON (pubblicita.codice_pagina=pagine.codice_pagina)LEFTOUTER JOIN inserzionisti ON (pubblicita.codice_inserzionista=inserzionisti.codice_inserzionista)LEFT OUTER JOIN pubblicazioni ON (pubblicita.codice_pubblicazione=pubblicazioni.codice_pubblicazione)LEFT OUTER JOIN testate ON (pubblicazioni.codice_testata=testate.codice_testata)LEFT OUTER JOIN pubblicazioni ripete ON (pubblicita.ripete_da=ripete.codice_pubblicazione) WHEREpubblicazioni.anno ILIKE '2003%'AND inserzionisti.sigla ILIKE 'starline%'ORDER BY testate.testata ASC LIMIT 15 OFFSET0 =========== As you can see it is a quite heavy query...but also with simple queries: =========== cioe2=# explain SELECT * from pubblicita; QUERY PLAN ------------------------------------------------------------------- Seq Scan on pubblicita (cost=0.00..2863.42 rows=54942width=325) (1 row) cioe2=# explain SELECT * from pubblicita where soggetto ilike 'a%'; QUERY PLAN ------------------------------------------------------------------- Seq Scan on pubblicita (cost=0.00..3000.78 rows=54942width=325) Filter: (soggetto ~~* 'a%'::text) (2 rows) =========== suggestions on how to make things smoother? (the table is below) thnx Ciro. =========== create table pubblicita (codice_pubblicita bigserial,codice_inserzionista int NOT NULL,codice_pagina varchar(2),codice_materiale varchar(2),codice_pubblicazione bigint NOT NULL,data_registrazione timestamp,ripete_da bigint,soggetto text,inserto text,prezzo numeric,ns_fattura int,ns_fattura_data date,vs_fattura int,vs_fattura_data date,colore bool,data_prenotazione date,data_arrivo date,data_consegna date,note_prenotazione text,note_consegna text,note text,annullata bool DEFAULT 'f',PRIMARY KEY (codice_pubblicita),FOREIGN KEY (codice_pubblicazione) REFERENCES pubblicazioni ON UPDATE CASCADE,FOREIGN KEY (ripete_da) REFERENCES pubblicazioni(codice_pubblicazione) ON UPDATE CASCADE,FOREIGN KEY (codice_inserzionista) REFERENCES inserzionisti ON UPDATE CASCADE,FOREIGN KEY (codice_pagina) REFERENCES pagine ON UPDATE CASCADE,FOREIGN KEY (codice_materiale) REFERENCES materiali ON UPDATE CASCADE ); ===========
----- Original Message ----- From: "_moray" <moray1.geo@yahoo.com> To: <pgsql-sql@postgresql.org> Sent: Tuesday, March 29, 2005 12:25 PM Subject: [SQL] a very big table > > hullo all, > > I have a problem with a table containing a lot of data. > > referred tables "inserzionista" and "pubblicazioni" (referenced 2 times) > have resp. 1909 tuples and 8300 tuples, while this one 54942. > > now the problem is that it is slow, also a simple "select * from > pubblicita". (it takes 5-6 seconds on my P4@1,6Ghz laptop...) > > I tried using some indexes, but the main problem is that I am using a php > script to access the data that builds the query according to user input. Generally, you need to have an index for any column that will appear in a 'where' clause or be referenced as a foreign key. The referencing columns should be declared "unique" or "primary key" and will also then be indexed. So, any column that is on the left or right of an '=' sign in a join or a 'where' clause should probably be indexed. There are exceptions, but that is the general rule. Also, after you make your indices, you need to remember to vacuum analyze. > As you can see it is a quite heavy query...but also with simple queries: > > =========== > cioe2=# explain SELECT * from pubblicita; > QUERY PLAN > ------------------------------------------------------------------- > Seq Scan on pubblicita (cost=0.00..2863.42 rows=54942 width=325) > (1 row) > > cioe2=# explain SELECT * from pubblicita where soggetto ilike 'a%'; > QUERY PLAN > ------------------------------------------------------------------- > Seq Scan on pubblicita (cost=0.00..3000.78 rows=54942 width=325) > Filter: (soggetto ~~* 'a%'::text) > (2 rows) > =========== > > suggestions on how to make things smoother? > (the table is below) > > thnx > > Ciro. > > =========== > create table pubblicita ( > codice_pubblicita bigserial, > codice_inserzionista int NOT NULL, > codice_pagina varchar(2), > codice_materiale varchar(2), > codice_pubblicazione bigint NOT NULL, > > data_registrazione timestamp, > > ripete_da bigint, > soggetto text, > inserto text, > > prezzo numeric, > ns_fattura int, > ns_fattura_data date, > vs_fattura int, > vs_fattura_data date, > > colore bool, > data_prenotazione date, > data_arrivo date, > data_consegna date, > note_prenotazione text, > note_consegna text, > > note text, > > annullata bool DEFAULT 'f', > > PRIMARY KEY (codice_pubblicita), > FOREIGN KEY (codice_pubblicazione) > REFERENCES pubblicazioni > ON UPDATE CASCADE, > FOREIGN KEY (ripete_da) > REFERENCES pubblicazioni (codice_pubblicazione) > ON UPDATE CASCADE, > FOREIGN KEY (codice_inserzionista) > REFERENCES inserzionisti > ON UPDATE CASCADE, > FOREIGN KEY (codice_pagina) > REFERENCES pagine > ON UPDATE CASCADE, > FOREIGN KEY (codice_materiale) > REFERENCES materiali > ON UPDATE CASCADE > ); > =========== > > ---------------------------(end of broadcast)--------------------------- > TIP 9: the planner will ignore your desire to choose an index scan if your > joining column's datatypes do not match >
I'd suggest modifying your query generator to make it smarter : FROM pubblicita LEFT OUTER JOIN materiali ON (pubblicita.codice_materiale=materiali.codice_materiale) LEFT OUTER JOIN inserzionisti ON (pubblicita.codice_inserzionista=inserzionisti.codice_inserzionista) (snip) WHERE pubblicazioni.anno ILIKE '2003%' AND inserzionisti.sigla ILIKE 'starline%' (snip) Here you don't need to LEFT JOIN, you can use a straight simple unconstrained join because the rows generated by the LEFT JOINs which have NULL in the right columns will be rejected by the WHERE clause anyway : FROM pubblicita, materiali, inserzionisti(remainder of LEFT JOINs for table which have nothing in the WHERE) (snip) WHERE pubblicazioni.anno ILIKE '2003%' AND inserzionisti.sigla ILIKE 'starline%'AND pubblicita.codice_materiale=materiali.codice_materialeAND pubblicita.codice_inserzionista=inserzionisti.codice_inserzionista (snip) Doing this, you leave more options for the planner to choose good plans, and also to generate less of the joins (ie for instance starting on publicazioni, taking only the rows with the date condition, and then joining them to the other tables). Now, other comments :ILIKE cant' ever use an index. If you must use LIKE, use lower(column) LIKE 'something%' and create a functional index on lower(column).WHY IS THE DATE STORED AS TEXT ?? You could use a DATE fieldand query "pubblicazioni.anno BETWEEN '2003-01-01' AND '2003-12-31'" or any other date range. Always use the appropriate datatype. BETWEEN uses indexes. On Tue, 29 Mar 2005 18:25:55 +0200, _moray <moray1.geo@yahoo.com> wrote: > > hullo all, > > I have a problem with a table containing a lot of data. > > referred tables "inserzionista" and "pubblicazioni" (referenced 2 times) > have resp. 1909 tuples and 8300 tuples, while this one 54942. > > now the problem is that it is slow, also a simple "select * from > pubblicita". (it takes 5-6 seconds on my P4@1,6Ghz laptop...) > > I tried using some indexes, but the main problem is that I am using a > php script to access the data that builds the query according to user > input. > > f.i. I made a simple interface where a user can specify multiple filters > on almost all the columns of the table and a resulting query could be: > > =========== > SELECT > ripete.numero as ripete_numero, > pubblicita.soggetto,pubblicita.colore, > pubblicazioni.anno,pubblicazioni.numero, > pubblicita.codice_pubblicita,pubblicita.annullata, > pubblicita.codice_pagina,pubblicita.codice_materiale, > pubblicita.note,pubblicita.prezzo, > testate.testata AS testata, > inserzionisti.sigla AS inserzionista, > materiali.descrizione AS materiale, > pagine.descrizione AS pagina > FROM > pubblicita > LEFT OUTER JOIN materiali ON > (pubblicita.codice_materiale=materiali.codice_materiale) > LEFT OUTER JOIN pagine ON > (pubblicita.codice_pagina=pagine.codice_pagina) > LEFT OUTER JOIN inserzionisti ON > (pubblicita.codice_inserzionista=inserzionisti.codice_inserzionista) > LEFT OUTER JOIN pubblicazioni ON > (pubblicita.codice_pubblicazione=pubblicazioni.codice_pubblicazione) > LEFT OUTER JOIN testate ON > (pubblicazioni.codice_testata=testate.codice_testata) > LEFT OUTER JOIN pubblicazioni ripete ON > (pubblicita.ripete_da=ripete.codice_pubblicazione) > WHERE > pubblicazioni.anno ILIKE '2003%' > AND inserzionisti.sigla ILIKE 'starline%' > ORDER BY testate.testata ASC LIMIT 15 OFFSET 0 > =========== > > As you can see it is a quite heavy query...but also with simple queries: > > =========== > cioe2=# explain SELECT * from pubblicita; > QUERY PLAN > ------------------------------------------------------------------- > Seq Scan on pubblicita (cost=0.00..2863.42 rows=54942 width=325) > (1 row) > > cioe2=# explain SELECT * from pubblicita where soggetto ilike 'a%'; > QUERY PLAN > ------------------------------------------------------------------- > Seq Scan on pubblicita (cost=0.00..3000.78 rows=54942 width=325) > Filter: (soggetto ~~* 'a%'::text) > (2 rows) > =========== > > suggestions on how to make things smoother? > (the table is below) > > thnx > > Ciro. > > =========== > create table pubblicita ( > codice_pubblicita bigserial, > codice_inserzionista int NOT NULL, > codice_pagina varchar(2), > codice_materiale varchar(2), > codice_pubblicazione bigint NOT NULL, > > data_registrazione timestamp, > > ripete_da bigint, > soggetto text, > inserto text, > > prezzo numeric, > ns_fattura int, > ns_fattura_data date, > vs_fattura int, > vs_fattura_data date, > > colore bool, > data_prenotazione date, > data_arrivo date, > data_consegna date, > note_prenotazione text, > note_consegna text, > > note text, > > annullata bool DEFAULT 'f', > > PRIMARY KEY (codice_pubblicita), > FOREIGN KEY (codice_pubblicazione) > REFERENCES pubblicazioni > ON UPDATE CASCADE, > FOREIGN KEY (ripete_da) > REFERENCES pubblicazioni (codice_pubblicazione) > ON UPDATE CASCADE, > FOREIGN KEY (codice_inserzionista) > REFERENCES inserzionisti > ON UPDATE CASCADE, > FOREIGN KEY (codice_pagina) > REFERENCES pagine > ON UPDATE CASCADE, > FOREIGN KEY (codice_materiale) > REFERENCES materiali > ON UPDATE CASCADE > ); > =========== > > ---------------------------(end of broadcast)--------------------------- > TIP 9: the planner will ignore your desire to choose an index scan if > your > joining column's datatypes do not match >
PFC <lists@boutiquenumerique.com> writes: > Here you don't need to LEFT JOIN, you can use a straight simple > unconstrained join because the rows generated by the LEFT JOINs which have > NULL in the right columns will be rejected by the WHERE clause anyway : In recent versions of Postgres, the planner knows this and can make the simplification for itself, at least if the operator or function used in WHERE is properly marked as strict. regards, tom lane