Introdução aos DataFrames do BigQuery
O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto que lhe permitem tirar partido do processamento de dados do BigQuery através de APIs Python familiares. O BigQuery DataFrames oferece um DataFrame Pythonic com tecnologia do motor do BigQuery e implementa as APIs pandas e scikit-learn ao transferir o processamento para o BigQuery através da conversão SQL. Isto permite-lhe usar o BigQuery para explorar e processar terabytes de dados, bem como preparar modelos de aprendizagem automática (AA), tudo com APIs Python.
O diagrama seguinte descreve o fluxo de trabalho dos DataFrames do BigQuery:
Vantagens dos DataFrames do BigQuery
O BigQuery DataFrames faz o seguinte:
- Oferece mais de 750 APIs pandas e scikit-learn implementadas através da conversão transparente de SQL para as APIs BigQuery e BigQuery ML.
- Adia a execução de consultas para um desempenho melhorado.
- Amplia as transformações de dados com funções Python definidas pelo utilizador para lhe permitir processar dados no Google Cloud. Estas funções são implementadas automaticamente como funções remotas do BigQuery.
- Integra-se com o Vertex AI para lhe permitir usar modelos Gemini para a geração de texto.
Licenciamento
O BigQuery DataFrames é distribuído com a licença Apache-2.0.
O BigQuery DataFrames também contém código derivado dos seguintes pacotes de terceiros:
Para detalhes, consulte o diretório third_party/bigframes_vendored
no repositório do GitHub do BigQuery DataFrames.
Quotas e limites
- As cotas do BigQuery aplicam-se aos DataFrames do BigQuery, incluindo componentes de hardware, software e de rede.
- É suportado um subconjunto de APIs pandas e scikit-learn. Para mais informações, consulte o artigo APIs pandas suportadas.
- Tem de limpar explicitamente todas as funções do Cloud Run criadas automaticamente como parte da limpeza da sessão. Para mais informações, consulte o artigo APIs pandas suportadas.
Preços
- O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto disponíveis para transferência sem custo adicional.
- Os DataFrames do BigQuery usam o BigQuery, as funções do Cloud Run, o Vertex AI e outrosGoogle Cloud serviços, que incorrem nos seus próprios custos.
- Durante a utilização normal, o BigQuery DataFrames armazena dados temporários, como resultados intermédios, em tabelas do BigQuery. Estas tabelas persistem durante sete dias por predefinição, e é-lhe cobrado o valor dos dados armazenados nas mesmas. As tabelas são criadas no conjunto de dados
_anonymous_
no projeto que especificar na opçãobf.options.bigquery.project
. Google Cloud
O que se segue?
- Experimente o início rápido dos DataFrames do BigQuery.
- Saiba como usar os DataFrames do BigQuery.
- Saiba como visualizar gráficos com os DataFrames do BigQuery.
- Saiba como
usar o adaptador
dbt-bigquery
.