查看: 985|回复: 7
打印 上一主题 下一主题

[讨论] 有關全文搜索的工具與 Index 製作

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    跳转到指定楼层
    1
    发表于 2019-7-23 12:45:25 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 喬治兄 于 2019-7-23 20:25 编辑

    礙於搜索網上有關全文搜索殊多工具均無找到理想之功能標地
    由於剛接觸幾日只是初步認知其所能運用之方式
    1. 盼後續有感興趣之同好應用之
    2. 若能有程序處理此軟件生成之文檔以資製作辭典時使用於全文搜索之功能上

    謝謝 ! 感恩 !

    主要需求如下
    1. 能自動索引文件
    2. 輸出Index位置的文檔以供應用
    無意中找到尚可的軟件 Index Author ..已試了幾日雖不甚理想但尚可接受
    缺點如下
    軟件 Index Author 執行稍大的文檔不甚穩定常卡死
    1.Text Index :  Input format----  *.txt ==> Output format  ----  *.txt & *.idx ( with page no. )
    2. File Index :  Input formats----  *.txt  & *.html  ==> Output formats  ----  *.txt & *.html  & *.idx (no page no.)
                          ps. FileIndex \ Criteria 表中 Exclusion : Remove HTML - Tags 此處若無勾對則連 HTML - Tags 會出現於 Index 表

    3 Key Index : ...................還沒試

    https://www.sttmedia.com/indexauthor

    應用如下:
    1. 把 辭條拉成一列 後去 html 標籤
    2. 在 Text Index \ Page Numbers ==> 倘若把您的辭條拉成一列當作
        對映的頁碼
    3. 若其中一列字元數 >1024 則 其所對映的 Page Numbers 會再+1, >2048 Page Numbers +2 > 依此類推(此可於 Excel Len()函數 確認每個辭條拉成一列後的字元數)
    4. 當 headwords 和 Page Numbers 對映起來時.....再把此 Page Numbers 上的辭條加工
        讓 Page Numbers 上所有的辭條去拉 or (@@@LINK=) 出此有 Page Numbers 的 Index 辭條
    5. 在 Criteria 表中 有 White List & Black List ====> 此可於 White List 把詞組的列表置入.....搜一份有內容有詞組的列表的索引
       以利於原始文檔再加工 <a hrff=.......> 之標籤.....也易於明瞭釋義中或例句中有詞組
    6. 因 Page Numbers 索引出的是數字頁碼, 若可以編程的話則能直接把數字頁碼替代成 Headword  
    7. Criteria 表中 Exclusion 可以分別作 Lower Words List (針對一般單字) or Upper Words List  (針對人名, 地名, .....單字) 索引文檔
        取辭的長短可於 Minimum length of words 設定 此非常利於(針對人名, 地名, .....單字) 索引製作
    8. 應用於 OCR PDF==> txt .......此應蠻適合處理饅頭伯那本辭典直接處理正文就不需再處理
       附錄索引 只需把列數號碼和頁碼對映起來便能使用
    9. FileIndex \ Criteria 表中 Exclusion : Remove HTML - Tags 此處若無勾對則連 HTML - Tags 會出現於 Index 表


    以下為初步製作全文搜索的方式
    正則由熱心網友提供特此致意感謝其大德

    Text Index 生成的 *.idx 因 page no. 沒有<a href=......> 的標籤
    可自行用正則加工:

    公式 1
    1.   >-   =>   >-^p:
    2.   :(\d+).*  =>  :<a href="entry://$1">$1</a>
    3   </a>^p:   =>  </a> ,

    公式 2
    1. (\d+)>-\|?   => <a href="entry://$1">$1</a> ,
    2. ,^p  => ^p
    這便可以完成 <a href=......> 的標籤的替換製作

    把 Source Page No. vs Headwords 作成 @@@LINK=
    Page No. @@@@LINK=headword
    如此便可調出那全文搜索索引 Page No.的所在的詞頭



    1. 當然還有更佳的方式   直接用程序把 Text Index 生成的 *.idx 的 page no.  替代成所對映的單字
    用Source Page No. vs Headwords 對映表

    2. 或 Source 您也不拉成一列只要能對到至確的 Headword 也是可行

    1 or 2 都必須注意每列長度是否 > 1024 其所對映的 Page Numbers +1, >2048 Page Numbers +2 > 依此類推
    若有此狀況則需對其所對映 Source Page No.  處理以免對映至錯的 Headword





    以下為 Google 翻譯的功能介紹

    Source
    您可以在此處定義索引的來源。 您可以在計算機中搜索文件,也可以只將一個或多個文件拖到列表中。 如果激活該複選框,則會自動搜索加載的文檔以查找其他文檔,例如HTML文件中的鏈接文檔。
    您可以在列表中看到所有添加的文件。 在源下,有此文件的路徑,列名稱包含其名稱。 鏈接包含將在HTML文檔中使用的鏈接。
    您可以在“設置”點下指定一些態度。 此外,這裡可以手動更改源。 例如,如果要更改文件的鏈接。
    Criteria
    您可以在此處修改索引的製定標準。首先,可以在“排除標準”部分中刪除上限或下限單詞,HTML標記或單詞,直到特殊長度。
    在下一部分單詞列表中,您可以定義白名單或黑名單。單擊右側的按鈕以指定這些列表。白名單中的所有單詞都會寫入索引,即使它們會在其他條件之後被刪除。相反,如果表現出來自黑名單中的單詞。在任何情況下都會刪除這些單詞。
    最後,“索引”部分下還有一些設置。在這裡,您可以選擇每個條目只應在索引中出現一次,並且連貫的單詞出現在索引中的每個單詞下。此外,您可以在此處選擇添加新索引的現有索引的索引文件。
    在設計中,您最終可以調整自己的索引樣式。例如,可以創建簡單的文本索引或HTML索引。在每種情況下,您都可以使用標准設置或通過單擊右側的按鈕來調整佈局。
    Complete
    定義所有設置後,即可達到此點。 在這裡,您可以再次看到所有設置,也許您想回去改變一些態度。 如果您滿意,只需點擊“創建索引”即可。
    Create Index
    在製作索引時,您會看到此頁面。 在這裡,您可以看到索引的狀態。 根據您的來源和設置的大小,創建成本或多或少的時間。
    Output
    索引完成後,您將自動轉到此頁面。 在這裡,您可以看到您的就緒索引,您可以將其保存為文本文件(保存文本)或索引文件(保存索引)。 此外,可以將索引複製到剪貼板。
    如果您的索引是HTML索引,則可以在此處查看HTML預覽和源代碼。












    2019-07-23_124741.png (37.62 KB, 下载次数: 0)

    2019-07-23_124741.png

    2019-07-23_124752.png (24.24 KB, 下载次数: 0)

    2019-07-23_124752.png

    2019-07-23_124804.png (31.15 KB, 下载次数: 0)

    2019-07-23_124804.png

    2019-07-23_131025.png (10.8 KB, 下载次数: 0)

    2019-07-23_131025.png

    2019-07-23_131504.png (27.41 KB, 下载次数: 0)

    2019-07-23_131504.png

    2019-07-23_132534.png (15.44 KB, 下载次数: 1)

    FileIndex

    FileIndex

    2019-07-23_171145.png (17.23 KB, 下载次数: 0)

    2019-07-23_171145.png

    2019-07-23_143802_2.png (3.45 KB, 下载次数: 0)

    2019-07-23_143802_2.png

    2019-07-23_192710.png (38.46 KB, 下载次数: 0)

    公式 2_第一項處理

    公式 2_第一項處理

    IndexAuthor.zip

    805.21 KB, 下载次数: 13, 下载积分: 米 -5 粒

    File Index_1.zip

    23.05 KB, 下载次数: 1, 下载积分: 米 -5 粒

    File Index HTML

    正則處理後.zip

    3.06 KB, 下载次数: 1, 下载积分: 米 -5 粒

    本帖被以下淘专辑推荐:

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    2
    发表于 2019-7-23 13:05:50 | 只看该作者
    不是都用FileLocatorPro么

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    3
     楼主| 发表于 2019-7-23 13:10:00 | 只看该作者
    klwo2 发表于 2019-7-23 13:05
    不是都用FileLocatorPro么


    klwo2 兄:
    FileLocatorPro 似乎無法產生 index file
    Author Index   可以生成索引的 .txt .html .idx
    可作為後續加工的材料

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    4
    发表于 2019-7-23 13:29:11 | 只看该作者
    喬治兄 发表于 2019-7-23 13:10
    klwo2 兄:
    FileLocatorPro 似乎無法產生 index file
    但 Author Index   可以生成索引的 .txt .html .idx ...

    你似乎是想深加工,做什么别的用途?

    说说你的思路
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    5
     楼主| 发表于 2019-7-23 13:39:54 | 只看该作者
    本帖最后由 喬治兄 于 2019-7-23 15:59 编辑
    klwo2 发表于 2019-7-23 13:29
    你似乎是想深加工,做什么别的用途?

    说说你的思路


    應用如下:
    1. 把 辭條拉成一列 後去 html 標籤
    2. 在 Text Index \ Page Numbers ==> 倘若把您的辭條拉成一列當作
        對映的頁碼
    3. 若其中一列字元數 >1024 則 其所對映的 Page Numbers 會再+1 (此可於 Excel Len()函數 確認每個辭條拉成一列後的字元數)
    4. 當 headwords 和 Page Numbers 對映起來時.....再把此 Page Numbers 上的辭條加工
        讓 Page Numbers 上所有的辭條去拉 or (@@@LINK=) 出此有 Page Numbers 的 Index 辭條
    5. 在 Criteria 表中 有 White List & Black List ====> 此可於 White List 把詞組的列表置入.....搜一份有內容有詞組的列表的索引
       以利於原始文檔再加工 <a hrff=.......> 之標籤.....也易於明瞭釋義中或例句中有詞組
    6. 因 Page Numbers 索引出的是數字頁碼, 若可以編程的話則能直接把數字頁碼替代成 Headword  
    7. 在 Criteria 表中 Exclusion 可以分別作 Lower Words List or Upper Words List 索引文檔
    8. 應用於 OCR PDF==> txt .......此應蠻適合處理饅頭伯那本辭典直接處理正文就不需再處理
       附錄索引 只需把列數號碼和頁碼對映起來便能使用

    2019-07-23_132534.png (15.44 KB, 下载次数: 0)

    2019-07-23_132534.png

    2019-07-23_143037.png (6.01 KB, 下载次数: 0)

    2019-07-23_143037.png

    2019-07-23_143802.png (3.14 KB, 下载次数: 0)

    minum length of words =3

    minum length of words =3
  • TA的每日心情
    擦汗
    2022-3-25 11:07
  • 签到天数: 66 天

    [LV.6]常住居民II

    23

    主题

    510

    回帖

    3585

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3585

    QQ 章灌水大神章笑傲江湖章

    6
    发表于 2019-7-23 14:11:43 | 只看该作者
    喬治兄開始發力了
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    7
     楼主| 发表于 2019-7-23 14:20:12 | 只看该作者

    yunhailin123 兄:
    哈哈哈, 貧道功力不足以發功
    倒是希望有網友能寫幾個程序來處理此軟件所生成的文檔以資再應用
  • TA的每日心情
    擦汗
    2022-3-25 11:07
  • 签到天数: 66 天

    [LV.6]常住居民II

    23

    主题

    510

    回帖

    3585

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3585

    QQ 章灌水大神章笑傲江湖章

    8
    发表于 2019-7-23 15:39:00 | 只看该作者
    小弟资历尚浅,只得高人前来相助