我正在寻找基于Java的Apache Tika 框架的C / C++替代方案。具体来说,我正在一个框架下搜索文件肉类数据和结构化文本提取。经过一些在线搜索和浏览后,我得到的最接近的东西是 GNU libextractor 和一堆用于分析文档以提取文本数据的单个文件过滤器(pdftoext,xls2csv ..etc) 任何人都可以推荐一个与Apache Tika相当的优秀库吗? 谢谢 解决方案如下: Tika具有网络服务器模式,因此您始终可以使用该模式启动Tika,然后从您的C++代码发送它的请求吗? 另外,Tik…

2020年10月26日 0条评论 40点热度 阅读全文

我想使用 tika 在 pig 中创建 UDF ,以便在 HDFS 中处理图像。 下面是我的代码,但是我收到 ClassNotFound 异​​常 public String exec(Tuple input) throws ExecException, IOException { try { if (input == null || input.size() == 0 || input.get(0) == null) { return null; } } catch (ExecException ex) { Lo…

2020年10月20日 0条评论 32点热度 阅读全文

我有一个gradle项目,正在使用Tika的AutoDetectParser提取内容。当项目内置到胖子 jar 中时,AutoDetectParser返回空字符串。我看到这是因为解析器不在运行时类路径中。如何将解析器添加到运行时类路径? Gradle构建文件: dependencies { compile 'org.apache.tika:tika-parsers:1.20' testImplementation 'junit:junit:4.12' } jar { manifest { attributes ( …

2020年10月7日 0条评论 28点热度 阅读全文

我最初尝试将类似的帖子发布到elasticsearch邮件列表(https://groups.google.com/forum/?fromgroups=#!topic/elasticsearch/BZLFJSEpl78),但是没有得到任何有用的答复,因此尽管我会尝试Stack Overflow。这是我的第一篇关于SO的致歉文章,如果它不完全符合其原意。 我目前正在与一所大学合作,帮助他们实现测试套件,以进一步完善他们正在进行的研究。他们的研究基于动态模式搜索。在花了一些时间评估各种开源搜索解决方案之后,我选择了El…

2020年9月30日 0条评论 39点热度 阅读全文

我正在将Apache Tika与Java结合使用,以从PDF和Zip文件中提取文本。现在,在处理大文件时,我想向我的应用程序添加进度报告。为此,我需要估计提取大小以计算完成的百分比(通过将其与写入输出的字节数进行匹配)。 我搜索了很多东西,却找不到任何与此相关的东西。 Apache Tika是否提供任何进度报告?有什么解决方法吗? 编辑:我正在使用tika-parsers组中的Apache tika tika-server,org.apache.tika的Java库。然后使用以下代码通过Java直接调用它们。 Au…

2020年7月16日 0条评论 33点热度 阅读全文

我正在忙于创建文档搜索。主要思想是(使用Tika)读取文档,然后将其添加到索引中以创建全文本文档搜索。 很多文档都很大,每当我尝试对它们建立索引时,都会出现错误: IllegalArgumentException[Document contains at least one immense term in field\"<field>\" (whose UTF8 encoding is larger than the max length 32766), 与该线程相同: UTF8 encoding is…

2020年4月25日 0条评论 56点热度 阅读全文

我正在运行一个包含以下行的resque作业: temp = %x(/usr/bin/java -jar /usr/local/tika/tika-app-1.0.jar -t /tmp/myfile.txt) 每当我的工作尝试执行该行时,我都会收到消息: Could not create the Java virtual machine. 当我执行代码不是作为工作而是作为普通的ruby脚本执行时,该行有效。 不幸的是,这可能是什么没有进一步的提示。任何帮助是极大的赞赏。 解决方案如下: 也许您的工作是在root环境…

2020年3月7日 0条评论 27点热度 阅读全文

我正在处理的项目有一个使用Tika的WebUI(WAR),另一个也使用Tika的应用程序(JAR)。两者具有相同的代码: Tika t = new Tika(); String detectedType = t.detect(fileName); 然而,每个返回不同的结果。 我在 https://cwiki.apache.org/confluence/display/tika/Troubleshooting%20Tika#TroubleshootingTika-TroubleshootingApacheTika处使…

2020年3月5日 0条评论 36点热度 阅读全文

我正在尝试创建一个简单的Java程序,该程序从zip文件中的文件读取和提取内容。压缩文件包含3个文件(txt,pdf,docx)。我需要阅读所有这些文件的内容,并且为此使用了 Apache Tika 。 有人可以帮我实现此功能。到目前为止,我已经尝试过了,但是没有成功 代码段 public class SampleZipExtract { public static void main(String[] args) { List<String> tempString = new ArrayList<…

2020年1月22日 0条评论 43点热度 阅读全文

我正在寻找基于Java的Apache Tika 框架的C / C++替代方案。具体来说,我正在一个框架下搜索文件肉类数据和结构化文本提取。经过一些在线搜索和浏览后,我得到的最接近的东西是 GNU libextractor 和一堆用于分析文档以提取文本数据的单个文件过滤器(pdftoext,xls2csv ..etc) 任何人都可以推荐一个与Apache Tika相当的优秀库吗? 谢谢 解决方案如下: Tika具有网络服务器模式,因此您始终可以使用该模式启动Tika,然后从您的C++代码发送它的请求吗? 另外,Tik…

2020年1月4日 0条评论 46点热度 阅读全文