#

wikipedia-corpus

Here are 15 public repositories matching this topic...

ayushidalmia / Wikipedia-Search-Engine

Involves building a search engine on the Wikipedia Data Dump using the data dump of 2013 of size 43 GB. The search results returns in real time.

python search-engine information-retrieval wikipedia-corpus

Updated May 23, 2014
Python

jksware / ai-spanish-wikipedia-clustering

Clustering of Spanish Wikipedia articles.

clustering numpy opencl sklearn nltk scipy gpu-acceleration gpu-computing wikipedia-corpus spanish-wikipedia

Updated Aug 21, 2017
Python

moodser / splitter-transliteration

Python script to split the text generated by 'wikipedia parallel title extractor' into separate text files (separate file for each language)

machine-translation transliteration machine-translation-data-processing wikipedia-corpus machine-tranliteration

Updated Aug 16, 2018
Python

rajatyadav1994 / Wise--WikiPedia-Search-Engine

A Search Engine built based on Wikipedia dump of 75GB. Involves creation of Index file and returns search results in real time

search-engine wikipedia-dump wikipedia-corpus infomation-retrieval

Updated Nov 2, 2019
Python

quqixun / ReadWiki-ZH

Convert WIKI dumped XML (Chinese) to human readable documents in markdown and txt.

wikipedia wikipedia-dump wikipedia-corpus

Updated Mar 25, 2020
Python

afuschetto / wiki-extractor

Command line tool to extract plain text from Wikipedia database dumps

wikipedia wikipedia-dump wikipedia-corpus

Updated Feb 25, 2021
Python

howl-anderson / chinese-wikipedia-corpus-creator

Corpus creator for Chinese Wikipedia

nlp wikipedia-dump wikipedia-corpus chinese-corpus

Updated Jun 30, 2021
Python

Triansh / Wiki-Searcher

A search engine trained from a corpus of wikipedia articles to provide efficient query results.

search-engine information-retrieval wikipedia-corpus

Updated Oct 15, 2021
Python

GermanT5 / wikipedia2corpus

Wikipedia text corpus for self-supervised NLP model training

nlp machine-learning wikipedia corpus wikipedia-corpus german-nlp somajo

Updated Jul 17, 2022
Python

macbre / faroese-corpus

Some Faroese language statistics taken from fo.wikipedia.org content dump

linguistics corpus-linguistics python3-script wikipedia-dump wikipedia-corpus linguistic-analysis faroe faroese faroese-language

Updated Dec 8, 2022
Python

kohjiaxuan / Wikipedia-Article-Scraper

A complete Python text analytics package that allows users to search for a Wikipedia article, scrape it, conduct basic text analytics and integrate it to a data pipeline without writing excessive code.

wikipedia wikipedia-api text-analytics wikipedia-article wikipedia-search wikipedia-corpus wikipedia-scraper

Updated Dec 8, 2022
Python

Affenmilchmann / lingwiki

(Ongoing module in development) Getting Wikipedia articles parsed content. Created for getting text corpuses data fast and easy. But can be freely used for other purpuses too

parser wikipedia multithreading linguistics corpus-linguistics corpus-data corpus-tools article-extractor wikipedia-corpus

Updated Jan 3, 2023
Python

PJ-Duo / wiki-corpus

Create a wiki corpus using a wiki dump file for Natural Language Processing

corpus corpus-data corpus-tools wikipedia-corpus nlp-corpus wiki-corpus

Updated Mar 11, 2023
Python

OlehOnyshchak / pyWikiMM

Collects a multimodal dataset of Wikipedia articles and their images

Updated Mar 25, 2023
Python

macbre / mediawiki-dump

Python package for working with MediaWiki XML content dumps

python wikipedia wikia wikipedia-dump fandom python3-library wikipedia-corpus xml-dump mediawiki-dump

Updated Jul 5, 2024
Python

Improve this page

Add a description, image, and links to the wikipedia-corpus topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the wikipedia-corpus topic, visit your repo's landing page and select "manage topics."