Pag-extract ng Webpage - Paggamit ng Visual na Istraktura at Pagsusuri ng Teksto sa Mga Bloke ng Label (Microsoft) - Application ng Patent - PANGUNAHING ARAW NA ART

mmm 08/02/2013. 4 answers, 1.019 views
prior-art-request prior-art-request pre-grant microsoft rejected rejected us20110078554

ipasok ang paglalarawan ng imahe dito

Ang Patent Application na ito ay binigyan ng isang " final rejection " ng US Patent Office. Ang isang aplikante ay may ilang mga paraan upang mapanatili ang isang application sa estado na ito buhay. Kabilang dito ang isang kahilingan para sa patuloy na pagsusuri. Kabilang dito ang pagbabayad ng mas maraming bayarin at pagtugon sa pagtanggi. Ang pagtanggap sa pagtanggi ay isa pang paraan. Kung wala ay tapos na ito ay aalisin ng anim na buwan mula sa huling pagtanggi.

Ang ilan sa mga batayan para sa pagtanggi (maaaring makita sa Public PAIR) ay batay sa mga pang-agham na mga publikasyon ng mga aplikante mismo.

Salamat sa YOU , ang komunidad na Magtanong ng Mga Patent, ang mga sobrang malawak na pag-angkin ay hindi gaanong pinaliit. Sundin ang @askpatents upang harangan ang higit na labis na malawak na mga application ng patent.

ISANG OVERBROAD PATENT SA PAGSUSURI NG WEBPAGE - Ang application na ito mula sa Microsoft ay naglalayong patent ang ideya ng ... extracting bloke ng impormasyon mula sa isang webpage batay sa teksto at visual na layout! Ang 10 minuto ng iyong oras ay makakatulong sa makitid na mga application ng US patent bago maging patent. Sundin ang @askpatents sa twitter upang makatulong.

TITLE: Pagkuha ng webpage sa pamamagitan ng istraktura ng pahina at mga pangungusap

Summary : [Isinalin mula sa Legalese sa Ingles] Isang sistema para sa pagkuha ng mga nilalang sa isang webpage gamit ang isang text understanding component ng text understanding component at isang text understanding component ng visual layout extraction" component .

  • Publication Number : US 20110078554 A1
  • Application Number : 12 / 569,912
  • Assignee : Microsoft, Inc.
  • Prior Art Date : Paghahanap ng bago Art predating Septiyembre 30, 2009

Claim 1 nangangailangan ng bawat hakbang sa ibaba:

  1. Sa isang kapaligiran sa kompyuter, ang isang sistema na binubuo, hindi bababa sa isang processor, ang isang memorya na sinamahan ng hindi bababa sa isang processor at kabilang ang mga sangkap na binubuo, isang balangkas na isinaayos upang maproseso ang isang webpage upang maunawaan ang isa o higit pang mga entity ng webpage, kabilang ang balangkas

    • isang bahagi ng pag-unawa ng teksto at

    • isang istrakturang bahagi ng pag-unawa,

    • ang bahagi ng pag-unawa ng teksto ay naka-configure upang magbigay ng data na nauugnay sa teksto sa istrakturang bahagi ng pag-unawa,

    • isinaayos ang istraktura ng pag-unawa na isinaayos upang gamitin ang data na nauugnay sa teksto at mga tampok ng visual na layout ng webpage upang makagawa ng bloke na may label,

    • na-configure ang bahagi ng pag-unawa ng teksto upang gamitin ang bloke na may label upang maunawaan ang teksto ng isa o higit pang mga entity.

Sa wikang Ingles ito ay nangangahulugang:

Isang sistema para sa pagproseso ng isang webpage, na binubuo ng:

  1. Isang bahagi ng pag-unawa ng teksto; at

  2. Isang visual na layout ("istraktura") bahagi ng pag-unawa; kung saan

  3. Ang bahagi ng teksto ay nagbibigay ng data sa bahagi ng visual na layout; at

  4. Ang visual na bahagi ng layout ay gumagawa ng bloke na may label na batay sa visual na layout at teksto; at

  5. Ang paggamit ng tekstong pang-unawa ay gumagamit ng bloke na may label na "maunawaan" ang teksto ng isang entity sa webpage

Magandang bago ang sining ay magiging katibayan ng isang sistema na ginawa sa bawat isa sa mga hakbang na ito bago ang Setyembre 30, 2009.

"Isang balangkas sa pagproseso ng likas na wika para sa pag-label ng mga webpage" mula sa Microsoft


Ano ang mabuti bago sining? Mangyaring tingnan ang aming FAQ .

Nais mo bang tumulong? Mangyaring bumoto o magkomento sa mga pagsusumite sa ibaba. Tinatanggap namin kayo na mag- post ng iyong sariling kahilingan para sa naunang sining sa ibang mga kaduda-dudang Aplikasyon ng Patent ng US.

4 Answers


Paul Guyot 08/04/2013.

Para sa reference, ang mahusay na naunang art ay nabanggit sa panahon ng pagsusuri sa ngayon kabilang ang mga pang-agham na mga papeles ng parehong mga may-akda. Marahil ito ay napalitan ng katotohanan na ang patent application na ito ay batay sa isang pang-agham na papel na inilathala ng parehong mga may-akda noong Oktubre 2009, at ang pinakamalapit na naunang sining na ginamit ng tagasuri ay talagang ibinigay ng aplikante bilang bahagi ng IDS.

Sinimulan na ang eksaminasyon at ang kasalukuyang pag-uusig ay nakatuon sa unang hakbang ng proseso (kung ano ang tawag sa application na bi-directional ). Ang pamamaraan na kanilang imungkahi ay starts with identifying interesting bits sa pahina ng web gamit ang mga pamamaraan ng pagkilala sa entity, at pagkatapos ay tumutuon sila sa mga bahaging iyon gamit ang mga diskarte sa pag-detect ng istraktura, at sa wakas ay kinuha nila ang mga entity.

Kasama sa mga sumusunod na dating art dating 2005 ang unang hakbang na ito:

  • Krüpl, B .; Herzog, M .; at Gatterbauer, W. 2005. Paggamit ng mga visual na pahiwatig para sa pagkuha ng hugis ng mga talaan ng data mula sa di-makatwirang mga dokumento sa HTML. Sa Poster Proc. WWW'05, 1000-1001. ACM. [ PDF ]

Sa katunayan, Krüpl et al. sumusubok na lutasin ang isang katulad na problema (pagtukoy sa hugis ng mga talaan ng data sa mga web page) at nagtuturo:

  • isang tekstong pang-unawa,

  • isang istrakturang bahagi ng pag-unawa,

  • ang bahagi ng pag-unawa ng teksto ay naka-configure upang magbigay ng data na nauugnay sa teksto sa istrakturang pang-unawa ng istraktura , (Ginagamit namin ang Named Entity Recognizers (NERs) [2] upang makahanap ng mga kagiliw-giliw na mga node ng teksto sa isang naibigay na pahina [seksyon 3]);

  • isinaayos ang istraktura ng pag-unawa na isinaayos upang gamitin ang data na may kaugnayan sa teksto at mga tampok ng visual na layout ng webpage upang makabuo ng isang may label na bloke [seksyon 4.2 "algorithm ng pagtuklas"],

  • na-configure ang bahagi ng pag-unawa ng teksto upang gamitin ang bloke na may label upang maunawaan ang teksto ng isa o higit pang mga entity [seksyon 4.3 "Pag-detect ng talahanayan"].


osteenbergen 08/02/2013.

Una may Pagkilala sa Optical Character http://en.m.wikipedia.org/wiki/Optical_character_recognition , na pinag-aaralan ang naka-print na teksto at naghahanap ng visual na mga istraktura (mga hanay, mga talahanayan) upang makabuo ng isang digital na bersyon ng aklat o i-translate ang pdf sa plain teksto.

Upang i-label ang mga bahagi ng isang teksto bilang isang negosyo, tao o lungsod maaari kang sumangguni sa mga diskarte tulad ng Geotagging. Ang isang halimbawa ay http://www.maproomblog.com/2009/05/yahoo_placemaker.php mula Mayo 2009. Sinusuri ng serbisyong ito ang isang piraso ng teksto para sa pagtukoy sa mga lokasyon at babalik ang isang hanay ng mga lungsod at doon malamang na binanggit.

Ang pag-tag ng iba pang mga tag sa isang teksto ay naglalarawan sa 2006 http://viget.com/extend/tagging-text-automatically . Binabanggit ng artikulong ito ang ibang serbisyo ng Yahoo at isa na tinatawag na TagThe.net

At siyempre may siyentipikong larangan ng tekstong pagmimina na umiiral mula noong 1980. http://en.m.wikipedia.org/wiki/Text_mining Maraming mga libro / mga papel sa paksang ito

Sa palagay ko ang OCR ay tumutukoy sa punto 1 hanggang 4 at 5 ay ang pagmimina lamang ng teksto


McKay 04/13/2017.

Habang sa tingin ko ang sagot ng user4857 sa Text Mining ay mabuti, sa palagay ko maaaring masasabi na karamihan sa mga serbisyo ng pagmimina ng text ay kwalipikado para sa 1-5.

Ngunit sa tingin ko lubos na malinaw na ang Pagmimina ng Web ay saklaw ng lubos.

Partikular, iniisip ko ang tungkol sa mga pahinang iyon na nagbibigay sa iyo ng mga pasadyang ad na nagpapakita ng ilang mga salita sa mga webpage na binibisita mo. Hindi ko maisip ang alinman sa mga pahinang iyon nang lubusan, karamihan dahil hindi ko gusto ang mga pahinang tulad nito, ngunit kwalipikado sila. Sila ay naglagay ng isang popup sa teksto upang matulungan ang user na maunawaan (o bumili) ang teksto na pinag-uusapan.


user5456 08/10/2013.

Bukod sa kung ano ang inilarawan ni Pablo sa itaas, ginamit ni Avrim Blum at Tom Mitchell, parehong sa CMU, ang mga katulad na pamamaraan upang kunin ang data mula sa mga web page. Ang kanilang trabaho ay unang inilarawan sa

Blum, A., Mitchell, T. Pinagsasama ang mga label at walang label na data na may co-training. COLT: Mga Pamamaraan ng Workshop sa Computational Learning Theory, Morgan Kaufmann, 1998, p. 92-100.

Ang papel na ito ay hindi malinaw na banggitin ang paggamit ng mga tampok ng visual na layout, ngunit nagamit nila sa ibang pagkakataon ang mga tampok na iyon sa kanilang trabaho sa FlipDog, kung saan nakuha nila ang mga resume at listahan ng trabaho mula sa mga web page upang makapunan ng isang bagong site ng paghahanap ng trabaho. Naaalaala ko ito mula sa isang pahayag na aking dinaluhan noong 2000, at ang teknolohiya ay inilarawan sa artikulong ito ng 2005:

Andrew McCallum. 2005. Impormasyon sa Pag-extract: I-distile ang Nakabalangkas na Data mula sa Unstructured Text. Queue 3, 9 (Nobyembre 2005), 48-57.

Related questions

Hot questions

Language

Popular Tags