Merge pull request #71 from abieiden/main

Print Book Functionality
chrispiech · Oct 20, 2023 · d45186b · d45186b
2 parents 6b6e7a3 + 66a957f
commit d45186b
Show file tree

Hide file tree

Showing 80 changed files with 192 additions and 1 deletion.
diff --git a/chapters/index.html b/chapters/index.html
@@ -21,7 +21,7 @@ <h1>Course Reader for CS109</h1>
  </p>
 
  <p><center><a class="btn btn-primary btn-lg" href="{{pathToLang}}part1/counting" role="button">Get Started</a></center></p>
-
+ <p><center><a href="../print/CS109Book.pdf">Click to Download the CS109 Book</a></center></p>
 <div class="alert alert-primary"><b>Notable Updates Fall 2023</b>:
 <ol>
  <li><a href="{{pathToLang}}part1/prob_or">General Inclusion-Exclusion</a>. <i>Oct 7th 2023</i></li>

diff --git a/print/CS109Book.pdf b/print/CS109Book.pdf
diff --git a/print/pdfgenerator.py b/print/pdfgenerator.py
@@ -0,0 +1,82 @@
+import base64
+import json
+import logging
+import time
+from io import BytesIO
+from typing import List
+
+from selenium import webdriver
+from selenium.webdriver.chrome.service import Service as ChromeService
+from selenium.webdriver.chrome.options import Options as ChromeOptions
+from webdriver_manager.chrome import ChromeDriverManager
+
+class PdfGenerator:
+ """
+ Simple use case:
+
+ pdf_file = PdfGenerator(['https://google.com']).main()
+ with open('new_pdf.pdf', "wb") as outfile:
+ outfile.write(pdf_file[0].getbuffer())
+ 
+ Code by: Nikita Tonkoshkur
+ https://medium.com/@nikitatonkoshkur25/create-pdf-from-webpage-in-python-1e9603d6a430
+ """
+ driver = None
+ # https://chromedevtools.github.io/devtools-protocol/tot/Page#method-printToPDF
+ print_options = {
+ 'landscape': False,
+ 'displayHeaderFooter': False,
+ 'printBackground': True,
+ 'preferCSSPageSize': True,
+ }
+
+ def __init__(self, urls: List[str]):
+ self.urls = urls
+
+ def _get_pdf_from_url(self, url, *args, **kwargs):
+ self.driver.get(url)
+
+ time.sleep(1) # allow the page to load, increase if needed
+
+ print_options = self.print_options.copy()
+ result = self._send_devtools(self.driver, "Page.printToPDF", print_options)
+ return base64.b64decode(result['data'])
+
+ @staticmethod
+ def _send_devtools(driver, cmd, params):
+ """
+ Works only with chromedriver.
+ Method uses cromedriver's api to pass various commands to it.
+ """
+ resource = "/session/%s/chromium/send_command_and_get_result" % driver.session_id
+ url = driver.command_executor._url + resource
+ body = json.dumps({'cmd': cmd, 'params': params})
+ response = driver.command_executor._request('POST', url, body)
+ return response.get('value')
+
+ def _generate_pdfs(self):
+ pdf_files = []
+
+ for url in self.urls:
+ result = self._get_pdf_from_url(url)
+ file = BytesIO()
+ file.write(result)
+ pdf_files.append(file)
+
+ return pdf_files
+
+ def main(self) -> List[BytesIO]:
+ webdriver_options = ChromeOptions()
+ webdriver_options.add_argument('--headless')
+ webdriver_options.add_argument('--disable-gpu')
+
+ try:
+ self.driver = webdriver.Chrome(
+ service=ChromeService(ChromeDriverManager().install()),
+ options=webdriver_options
+ )
+ result = self._generate_pdfs()
+ finally:
+ self.driver.close()
+
+ return result
diff --git a/print/pdfs/100_binomial_problems.pdf b/print/pdfs/100_binomial_problems.pdf
diff --git a/print/pdfs/algorithmic_analysis.pdf b/print/pdfs/algorithmic_analysis.pdf
diff --git a/print/pdfs/all_distributions.pdf b/print/pdfs/all_distributions.pdf
diff --git a/print/pdfs/bacteria_evolution.pdf b/print/pdfs/bacteria_evolution.pdf
diff --git a/print/pdfs/bayes_theorem.pdf b/print/pdfs/bayes_theorem.pdf
diff --git a/print/pdfs/bayesian_carbon_dating.pdf b/print/pdfs/bayesian_carbon_dating.pdf
diff --git a/print/pdfs/bayesian_networks.pdf b/print/pdfs/bayesian_networks.pdf
diff --git a/print/pdfs/bernoulli.pdf b/print/pdfs/bernoulli.pdf
diff --git a/print/pdfs/beta.pdf b/print/pdfs/beta.pdf
diff --git a/print/pdfs/binomial.pdf b/print/pdfs/binomial.pdf
diff --git a/print/pdfs/binomial_approx.pdf b/print/pdfs/binomial_approx.pdf
diff --git a/print/pdfs/bootstrapping.pdf b/print/pdfs/bootstrapping.pdf
diff --git a/print/pdfs/bridge_distribution.pdf b/print/pdfs/bridge_distribution.pdf
diff --git a/print/pdfs/calculators.pdf b/print/pdfs/calculators.pdf
diff --git a/print/pdfs/clt.pdf b/print/pdfs/clt.pdf
diff --git a/print/pdfs/combinatorics.pdf b/print/pdfs/combinatorics.pdf
diff --git a/print/pdfs/computational_inference.pdf b/print/pdfs/computational_inference.pdf
diff --git a/print/pdfs/cond_prob.pdf b/print/pdfs/cond_prob.pdf
diff --git a/print/pdfs/continuous.pdf b/print/pdfs/continuous.pdf
diff --git a/print/pdfs/continuous_joint.pdf b/print/pdfs/continuous_joint.pdf
diff --git a/print/pdfs/core_probability_ref.pdf b/print/pdfs/core_probability_ref.pdf
diff --git a/print/pdfs/correlation.pdf b/print/pdfs/correlation.pdf
diff --git a/print/pdfs/counting.pdf b/print/pdfs/counting.pdf
diff --git a/print/pdfs/curse_of_dimensionality.pdf b/print/pdfs/curse_of_dimensionality.pdf
diff --git a/print/pdfs/dart_logo.pdf b/print/pdfs/dart_logo.pdf
diff --git a/print/pdfs/differential_privacy.pdf b/print/pdfs/differential_privacy.pdf
diff --git a/print/pdfs/digital_vision_test.pdf b/print/pdfs/digital_vision_test.pdf
diff --git a/print/pdfs/enigma.pdf b/print/pdfs/enigma.pdf
diff --git a/print/pdfs/equally_likely.pdf b/print/pdfs/equally_likely.pdf
diff --git a/print/pdfs/expectation.pdf b/print/pdfs/expectation.pdf
diff --git a/print/pdfs/exponential.pdf b/print/pdfs/exponential.pdf
diff --git a/print/pdfs/fairness.pdf b/print/pdfs/fairness.pdf
diff --git a/print/pdfs/federalist.pdf b/print/pdfs/federalist.pdf
diff --git a/print/pdfs/grades_not_normal.pdf b/print/pdfs/grades_not_normal.pdf
diff --git a/print/pdfs/grading_eye_inflammation.pdf b/print/pdfs/grading_eye_inflammation.pdf
diff --git a/print/pdfs/independence.pdf b/print/pdfs/independence.pdf
diff --git a/print/pdfs/independent_vars.pdf b/print/pdfs/independent_vars.pdf
diff --git a/print/pdfs/inference.pdf b/print/pdfs/inference.pdf
diff --git a/print/pdfs/joint.pdf b/print/pdfs/joint.pdf
diff --git a/print/pdfs/jury.pdf b/print/pdfs/jury.pdf
diff --git a/print/pdfs/law_total.pdf b/print/pdfs/law_total.pdf
diff --git a/print/pdfs/log_probabilities.pdf b/print/pdfs/log_probabilities.pdf
diff --git a/print/pdfs/log_regression.pdf b/print/pdfs/log_regression.pdf
diff --git a/print/pdfs/machine_learning.pdf b/print/pdfs/machine_learning.pdf
diff --git a/print/pdfs/many_flips.pdf b/print/pdfs/many_flips.pdf
diff --git a/print/pdfs/map.pdf b/print/pdfs/map.pdf
diff --git a/print/pdfs/mixture_models.pdf b/print/pdfs/mixture_models.pdf
diff --git a/print/pdfs/mle.pdf b/print/pdfs/mle.pdf
diff --git a/print/pdfs/mle_demo.pdf b/print/pdfs/mle_demo.pdf
diff --git a/print/pdfs/mle_pareto.pdf b/print/pdfs/mle_pareto.pdf
diff --git a/print/pdfs/multinomial.pdf b/print/pdfs/multinomial.pdf
diff --git a/print/pdfs/naive_bayes.pdf b/print/pdfs/naive_bayes.pdf
diff --git a/print/pdfs/name2age.pdf b/print/pdfs/name2age.pdf
diff --git a/print/pdfs/night_sight.pdf b/print/pdfs/night_sight.pdf
diff --git a/print/pdfs/normal.pdf b/print/pdfs/normal.pdf
diff --git a/print/pdfs/notation.pdf b/print/pdfs/notation.pdf
diff --git a/print/pdfs/p_hacking.pdf b/print/pdfs/p_hacking.pdf
diff --git a/print/pdfs/parameter_estimation.pdf b/print/pdfs/parameter_estimation.pdf
diff --git a/print/pdfs/pmf.pdf b/print/pdfs/pmf.pdf
diff --git a/print/pdfs/poisson.pdf b/print/pdfs/poisson.pdf
diff --git a/print/pdfs/prob_and.pdf b/print/pdfs/prob_and.pdf
diff --git a/print/pdfs/prob_baby_delivery.pdf b/print/pdfs/prob_baby_delivery.pdf
diff --git a/print/pdfs/prob_or.pdf b/print/pdfs/prob_or.pdf
diff --git a/print/pdfs/probability.pdf b/print/pdfs/probability.pdf
diff --git a/print/pdfs/python.pdf b/print/pdfs/python.pdf
diff --git a/print/pdfs/random_shuffles.pdf b/print/pdfs/random_shuffles.pdf
diff --git a/print/pdfs/rvs.pdf b/print/pdfs/rvs.pdf
diff --git a/print/pdfs/samples.pdf b/print/pdfs/samples.pdf
diff --git a/print/pdfs/serendipity.pdf b/print/pdfs/serendipity.pdf
diff --git a/print/pdfs/summation_vars.pdf b/print/pdfs/summation_vars.pdf
diff --git a/print/pdfs/thompson.pdf b/print/pdfs/thompson.pdf
diff --git a/print/pdfs/titlepage.pdf b/print/pdfs/titlepage.pdf
diff --git a/print/pdfs/tracking_in_2D.pdf b/print/pdfs/tracking_in_2D.pdf
diff --git a/print/pdfs/uniform.pdf b/print/pdfs/uniform.pdf
diff --git a/print/pdfs/variance.pdf b/print/pdfs/variance.pdf
diff --git a/print/pdfs/winning_series.pdf b/print/pdfs/winning_series.pdf
diff --git a/print/printbook.py b/print/printbook.py
@@ -0,0 +1,109 @@
+import hjson
+import PyPDF2
+import pdfgenerator
+import re
+import os
+
+# def create_pdfs():
+# Opening JSON file
+f = open("../bookOutline.hjson")
+# returns JSON object as a dictionary
+data = hjson.load(f)
+# Closing file
+f.close()
+
+# folder to store pdfs 
+if not os.path.exists('pdfs'):
+ os.mkdir('pdfs')
+
+# base url for all pages 
+base = 'https://chrispiech.github.io/probabilityForComputerScientists/en/'
+
+# get pdf for title page
+pdf_link = base + 'index.html'
+title_name = 'titlepage.pdf'
+if (not os.path.exists(os.path.join('pdfs', title_name))):
+ # generate pdf file
+ pdf_file = pdfgenerator.PdfGenerator([pdf_link]).main()
+ # save pdf to file
+ with open(os.path.join('pdfs', title_name), "wb") as outfile:
+ outfile.write(pdf_file[0].getbuffer())
+
+# get pdf_name and pdf_link for book from bookOutline and store in pdf_files
+pdf_files = {}
+
+for part in data:
+ pdf_files[part] = {'sections':{}}
+ for page in data[part]['sections']:
+ title = data[part]['sections'][page]
+ pdf_name = page + '.pdf'
+ pdf_link = base + part + '/' + page 
+ # store pdf_name and title
+ pdf_files[part]['sections'][pdf_name] = title
+ # check if pdf already exists
+ if (not os.path.exists(os.path.join('pdfs', pdf_name))):
+ # generate pdf file
+ pdf_file = pdfgenerator.PdfGenerator([pdf_link]).main()
+ # save pdf to file
+ with open(os.path.join('pdfs', pdf_name), "wb") as outfile:
+ outfile.write(pdf_file[0].getbuffer())
+ if 'examples' in data[part].keys():
+ pdf_files[part]['examples'] = {}
+ for page in data[part]['examples']:
+ title = data[part]['examples'][page]
+ pdf_name = page + '.pdf'
+ pdf_link = base + 'examples' + '/' + page 
+ # store pdf_name and title
+ pdf_files[part]['examples'][pdf_name] = title
+ # check if pdf already exists
+ if (not os.path.exists(os.path.join('pdfs', pdf_name))):
+ # generate pdf file
+ pdf_file = pdfgenerator.PdfGenerator([pdf_link]).main()
+ # save pdf to file
+ with open(os.path.join('pdfs', pdf_name), "wb") as outfile:
+ outfile.write(pdf_file[0].getbuffer())
+
+# Output PDF file name
+output_pdf = "CS109Book.pdf"
+
+# Create a PDF file writer object
+pdf_writer = PyPDF2.PdfWriter()
+
+# add title page
+pdf_writer.append(os.path.join('pdfs', title_name))
+
+page_num = 1 
+for part in pdf_files:
+ title = data[part]['title']
+ if title is None:
+ title = "Introduction"
+ # create outline for parts
+ part_outline = pdf_writer.add_outline_item(title, page_num)
+ # add pdf files to table of contents and book
+ for pdf_file, title in pdf_files[part]['sections'].items():
+ # Open the pdf
+ pdf_reader = PyPDF2.PdfReader(open(os.path.join('pdfs', pdf_file), "rb"))
+ # Create an outline item for the pdf
+ pdf_outline = pdf_writer.add_outline_item(title, page_num, parent=part_outline)
+ # add pdf file to book pdf 
+ pdf_writer.append(os.path.join('pdfs', pdf_file))
+ # start of next pdf 
+ page_num += len(pdf_reader.pages)
+ if 'examples' in pdf_files[part].keys():
+ # create outline for examples
+ examples_outline = pdf_writer.add_outline_item('Applications', page_num, parent=part_outline)
+ # add pdf files to table of contents and book
+ for pdf_file, title in pdf_files[part]['examples'].items():
+ # Open the pdf
+ pdf_reader = PyPDF2.PdfReader(open(os.path.join('pdfs', pdf_file), "rb"))
+ # Create an outline item for the pdf
+ pdf_outline = pdf_writer.add_outline_item(title, page_num, parent=examples_outline)
+ pdf_writer.append(os.path.join('pdfs', pdf_file))
+ # start of next pdf 
+ page_num += len(pdf_reader.pages)
+
+# Save the merged PDF with the TOC
+with open(output_pdf, "wb") as output_file:
+ pdf_writer.write(output_file)
+
+print(f"Merged PDF with Table of Contents saved as {output_pdf}")