All Projects → turing-usp → fernando-pessoa

turing-usp / fernando-pessoa

Licence: MIT license
Classificador de poemas do Fernando Pessoa de acordo com os seus heterônimos

Programming Languages

Jupyter Notebook
11667 projects
python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to fernando-pessoa

Awesome crawl
腾讯新闻、知乎话题、微博粉丝,Tumblr爬虫、斗鱼弹幕、妹子图爬虫、分布式设计等
Stars: ✭ 246 (+693.55%)
Mutual labels:  scrapy
scrapy helper
Dynamic configurable crawl (动态可配置化爬虫)
Stars: ✭ 84 (+170.97%)
Mutual labels:  scrapy
Scrape-Finance-Data
My code for scraping financial data in Vietnam
Stars: ✭ 13 (-58.06%)
Mutual labels:  scrapy
domains
World’s single largest Internet domains dataset
Stars: ✭ 461 (+1387.1%)
Mutual labels:  scrapy
Scrapy-tripadvisor-reviews
Using scrapy to scrape tripadvisor in order to get users' reviews.
Stars: ✭ 24 (-22.58%)
Mutual labels:  scrapy
asyncpy
使用asyncio和aiohttp开发的轻量级异步协程web爬虫框架
Stars: ✭ 86 (+177.42%)
Mutual labels:  scrapy
Ecommercecrawlers
码云仓库链接:AJay13/ECommerceCrawlers Github 仓库链接:DropsDevopsOrg/ECommerceCrawlers 项目展示平台链接:http://wechat.doonsec.com
Stars: ✭ 3,073 (+9812.9%)
Mutual labels:  scrapy
scrapy-wayback-machine
A Scrapy middleware for scraping time series data from Archive.org's Wayback Machine.
Stars: ✭ 92 (+196.77%)
Mutual labels:  scrapy
scrapy-rotated-proxy
A scrapy middleware to use rotated proxy ip list.
Stars: ✭ 22 (-29.03%)
Mutual labels:  scrapy
scrapy-LBC
Araignée LeBonCoin avec Scrapy et ElasticSearch
Stars: ✭ 14 (-54.84%)
Mutual labels:  scrapy
pagser
Pagser is a simple, extensible, configurable parse and deserialize html page to struct based on goquery and struct tags for golang crawler
Stars: ✭ 82 (+164.52%)
Mutual labels:  scrapy
arche
Analyze scraped data
Stars: ✭ 49 (+58.06%)
Mutual labels:  scrapy
crawler
python爬虫项目集合
Stars: ✭ 29 (-6.45%)
Mutual labels:  scrapy
estate-crawler
Scraping the real estate agencies for up-to-date house listings as soon as they arrive!
Stars: ✭ 20 (-35.48%)
Mutual labels:  scrapy
double-agent
A test suite of common scraper detection techniques. See how detectable your scraper stack is.
Stars: ✭ 123 (+296.77%)
Mutual labels:  scrapy
Spider job
招聘网数据爬虫
Stars: ✭ 234 (+654.84%)
Mutual labels:  scrapy
Web-Iota
Iota is a web scraper which can find all of the images and links/suburls on a webpage
Stars: ✭ 60 (+93.55%)
Mutual labels:  scrapy
itemadapter
Common interface for data container classes
Stars: ✭ 47 (+51.61%)
Mutual labels:  scrapy
ArticleSpider
Crawling zhihu, jobbole, lagou by Scrapy, and using Elasticsearch+Django to build a Search Engine website --- README_zh.md (including: implementation roadmap, distributed-crawler and coping with anti-crawling strategies).
Stars: ✭ 34 (+9.68%)
Mutual labels:  scrapy
vietnam-ecommerce-crawler
Crawling the data from lazada, websosanh, compare.vn, cdiscount and cungmua with flexible configs
Stars: ✭ 28 (-9.68%)
Mutual labels:  scrapy

Classificador de Poemas do Fernando Pessoa

Binder

Projeto desenvolvido pelo Grupo Turing para classificar poemas do Fernando Pessoa de acordo com o heterônimo que os escreveu. Nesse classificador, foram considerados os quatro principais heterônimos com mais textos disponíveis: Bernardo Soares, Alberto Caeiro, Ricardo Reis e Álvaro de Campos.

Mais informações estão disponíveis no post do medium sobre o projeto: Como Machine Learning consegue diferenciar heterônimos de Fernando Pessoa.

Pré-requisitos

Esse projeto foi desenvolvido utilizado Python 3 e Jupyter notebooks. Ele pode ser visualizado online em um binder.

Alternativemente, as dependências desse projeto estão listadas em requirements.txt. Para instalá-las, utilize o comando:

pip install -r requirements.txt

Guia de Uso

Extração de Dados

Os dados foram extraídos do site arquivopessoa.net utilizando scrapy e estão disponíveis no arquivo fernando_pessoa.csv. As colunas do dataset estão exemplificadas abaixo:

id autor titulo tipo texto data bibliografia
4 Ricardo Reis Diana através dos ramos poesia Diana através dos ramos
Espreita a vinda de Endymion...
16-6-1914 Poemas de Ricardo Reis. Fernando Pessoa. (Edição Crítica de...
5 Fernando Pessoa A REFORMA DO CALENDÁRIO E AS SUAS CONSEQUÊNCIAS COMERCIAIS prosa A REFORMA DO CALENDÁRIO E AS SUAS CONSEQUÊNCIAS COMERCIAIS... 10-3-1933 Páginas de Pensamento Político. Vol II. Fernando Pessoa...

Para rodar o scraper, basta executar:

scrapy crawl ArquivoPessoa -o fernando_pessoa.csv

Análise de Dados

A análise de dados está disponível no arquivo analise.ipynb e pode ser visualizada diretamente no github. Para modificar e executar o código, o notebook deve ser aberto no binder ou no jupyter notebook.

Créditos

Esse projeto depende das seguintes bibliotecas:

Além disso, a análise de dados foi feita em jupyter notebooks.

Autores

Desenvolvido pela área de PLN (processamento de linguagem natural) do Turing USP:

Licença

Distribuído sob a licença MIT. Veja LICENSE para mais informações.

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].