Snažil jsem se extrahovat tabulky z Pdf souborů, které nejsou ve správném formátu, který myslím. Stoly v těchto Pdf má formát tabulky, ale nejsou uzavřené, správně s verical hranic. Budu připojit ukázkové pdf a výstup s obou knihoven. Když jsem se snažil použít tabula pro stolní detekce, prázdné datadrame se vrátil na všechny stránky v pdf.
zadejte 0 pro jednotlivé stránky, 1 pro, 2 pro konkrétní strana: 2 zadejte číslo stránky: 25 žádné stoly nalézt na této stránce tím, že tabula.
A když jsem se použít camelot je stejný, žádné reakce, když jsem použít flovor='lattice'
zadejte 0 pro jednotlivé stránky, 1 u všech stránek, 2 stránky v tabulkách jsou detekovány tabula, 3 pro konkrétní stránky: 3 zadejte 0 pro mříž nebo 1 pro proud: 0 zadejte číslo stránky: 25 žádné stoly nalézt na této stránce camelot.
a když jsem se použít flovor='stream'
Jsem si datovém že má každý řádek číst řádek po řádku s záložce oddělené dat, ale bude obsahovat běžný text, stejně v tom datovém.
zadejte 0 pro jednotlivé stránky, 1 u všech stránek, 2 stránky v tabulkách jsou detekovány tabula, 3 pro konkrétní stránky: 3 zadejte 0 pro mříž nebo 1 pro proud: 1 zadejte číslo stránky: 25
Jen jsem potřebovat efektivní způsob, jak zjistit, stůl a extrahovat stejná data, pokud svislých obvodových řádky tabulky nejsou přítomny. Oba tabula a camelot knihovny jsou v pořádku, pokud tabulka je ve správném formátu ohraničená svislé a vodorovné čáry.